受访人:杨恒
现任深圳爱莫科技有限公司创始人&CEO
剑桥⼤学博⼠后、伦敦⼤学博士、国防科大本硕
复旦大学、西电、深圳大学兼职教授、校外硕士生/博士生导师
深圳市海外高层次人次(孔雀人才)、深圳市南山区第六届政协委员、深圳市十佳创业英才、深圳人工智能产业协会行业专家、深圳软件行业协会 AI 领域专家
曾作为负责人深度参与多项 AI 领域的国家863 / 国际重点项目研发
在 AI 顶级会议期刊(例如CVPR/ICCV/NeurIPS/ICML/IEEE Trans等)发表论文 30 余篇,已获授权发明专利 40 余项
“数据稀缺”、“研究源告急”、“大模型耗尽宇宙文本”……这段时间关于大模型缺少训练数据的话题层出不穷。相应地,“ AI 训练 AI” ,“合成数据”,所谓用魔法打败魔法的声量也此起彼伏。
Open AI 的 CEO Sam Altman 今年上半年在一个访谈里提到“未来所有数据都将变成合成数据”, 小编也在和不同的访谈者交流中发现, AI 训练 AI 的方式已经在大模型落地部署的过程中悄然流行。
业界对于合成数据观点不一。Transformer 的作者之一 Aidan Gomez 认为:合成数据可能加速通往“超级智能”AI 系统的道路。但也有人持反面意见:认为“合成数据存在偏差”,“使用合成数据训练,会让模型出现不可逆转的缺陷。”更甚有网友调侃,合成数据听起来就好像 AI 在近亲繁殖。
不过,网络上的讨论声音距离应用落地的第一线还是差了十万八千里。
成立于 2018 年的爱莫科技( 英文名称:AiMall )是一家利用人工智能技术为线下消费零售提供数字化解决方案的公司。创始人杨恒博士在数据仿真、计算机视觉领域已经有超过十五年的研究经验,他本科硕士期间攻读的是“模式识别与智能系统”专业,为了能深入人工智能研究,杨恒又前往英国伦敦大学攻读博士学位,聚焦人脸识别的研究方向,而后继续到剑桥大学做博士后研究。访谈中,他为我们介绍了属于爱莫科技的数据仿真式训练模型方法,以及是如何实现应用落地的。
以下是 小编与爱莫科技创始人杨恒的对话:
当大模型遇上数据仿真
小编:我们了解到爱莫科技今年4月发布了大零售模型,贵司一直以计算机视觉为所长,进入大模型领域作何考虑?
杨恒:这是个很好的问题。我个人之前有过十多年的学术研究经历,对于学术界来说,需要在一条技术路径深耕下去。但产业界恰好相反,企业思考的模式更多要从客户需求出发,爱莫科技过去四、五年主要聚焦在视觉 AI 的产业化落地,但服务要对客户需求量体裁衣。客户不会关心你具体用什么技术干了这件事,他们只关心自己的问题有没有解决。在这个过程中我们发现,解决客户的问题光靠计算机视觉不够,也需要今天家喻户晓的大模型,本质上企业对这些解决方法都有需求。
我们在计算机视觉方向研究时间比较久,但其实在大模型这个概念爆火之前,2020 年我们已经开始了类似的研发,2021 年推出了第一个类似产品,叫“一问即得”。
“一问即得”不是一个纯视觉的产品,它也有语言模型,语言与视觉的结合可以丰富 AI 产品对环境的感知。客户可以通过对话的方式快速得到自己想要的答案,这个产品和 ChatGPT 的逻辑非常相似。
爱莫科技2020-2022年间基于大模型的系列产品
以线下消费零售为例,企业需要处理大量的图片、视频、文本、服务 C 端的消费者数据。如果一个模型只有单一模态能力,就没有办法把客户的需求系统化解决。现在有了大模型这个工具,爱莫科技将识别能力、语言理解能力,以及对业务内部流程理解能力综合起来打造的模型,才是在垂直场景有价值的大模型。所以现在我们更好的定位是,以垂直场景具有多模态能力的大模型为驱动,持续满足客户需求。
小编:有句形容 AI 与大模型弊病的话,“有门槛、没壁垒”,您怎么看?您觉得爱莫科技这次入局大模型的优势在哪里?
杨恒:对 AI 公司来说,技术是一个基本门槛,如果没有技术能力,就无法进入这个行业。但确实现在支持调用各种大模型接口,或者开源大模型,都在将 AI 科技创业的门槛慢慢降低。其实无论是大模型还是所谓的小模型,亦或传统的机器学习也好,模型本身并没有价值,有了对业务的理解,模型才可以再去赋能。
我认为我们入局最大的优势在两方面:有对业务的理解,以及有行业的数据。
过去几年,我们与很多客户建立长久合作,针对场景 know-how 打造业务高价值产品,在目前落地的细分赛道都建立了标杆应用。
从数据优势来看,我们聚焦线下消费零售数字化应用的研发,但线下的数据非常稀缺。所有的大模型训练都需要数据,像 OpenAI 这类公司主要通过爬取互联网数据的方式,但对于垂直场景仍然不够。比如线下每一家门店的经营表现情况、成立情况等细粒度数据,是无法像在线上一样通过爬虫获取的。过去五年,爱莫科技积累了大量的线下消费零售数据,形成了自己的零售数据平台,这是支撑我们打造垂类零售场景大模型的关键燃料。
小编:您刚刚提到数据对模型训练的重要性,爱莫科技是如何应对这一数据难题的?
杨恒:刚刚也提到无论大模型还是小模型,对于产业有价值的都是基于监督学习的方法,而监督学习最基础的逻辑就是要对数据进行很好的人工标注,然后再进行训练,最后形成一个可使用的模型,这基本上是所有的 pipeline。
但人工标注有两大问题。第一是成本较高,无论是采集数据或者找人工标注,都需要成本;但这不是主要瓶颈,我认为最大的问题在于:人有标注能力的上限,而人的标注能力上限就决定了模型的上限,如果人学不了,机器也就学不到了。
这就是我们公司一直在打造基于仿真系统的知识驱动人工智能(Knowledge-driven Intelligence based on Simulation System,以下简称“K.I.S.S”)的原因所在。仿真系统的核心要解决的就是两个问题:如何降低标注成本?如何突破人工的标注极限?
爱莫科技的 K.I.S.S
这里可以举两个例子。
第一个是关于“人”的识别。以大家较为熟悉的人脸为例,人脸识别一直都是 AI 公司竞争非常激烈的一个场景,但我们公司在 2019 年仍然能以非常高的价格将人脸识别算法授权给大公司,这就得益于我们这套基于仿真系统的人脸识别算法训练方式。通常情况下,大家都采用正脸数据进行模型训练,正脸光照好、人工容易标注,很多公司都能做得非常好。但一些角度非常大、特别模糊、光照特别不好、人看不清的画面就超过了人的标注极限,这种时候人类没办法准确标注,也可能导致这个模型根本没有学到此类场景。
这时候我们用自己的 K.I.S.S 仿真系统,只需要客户提供一张正脸图片,就可以根据 2D 图片生成 3D 人脸模型,仿真出很多复杂场景的人脸数据样本去训练模型,提高识别准确率,所以哪怕在爱莫科技的最早期,也能够与市面所有大公司正面 PK。
第二个例子是关于“物”的识别。我们在做的线下消费零售场景,对商品陈列的精准识别是占比很大的需求,而精准就需要模型做到非常细颗粒度的识别,比如客户想要识别冰柜里的冰淇淋,品牌是梦龙还是和路雪,口味是巧克力还是香草,陈列露出占比又是多少。但实际应用中,商品规格多且相似度高,摆放凌乱遮挡严重,依赖人工很难做到快速又细致准确地标注和统计。
爱莫科技基于 K.I.S.S 的冰淇淋陈列 3D 仿真数据
对于这种零售商品的识别模型训练,我们也用仿真方式产生大量自带标注的数据样本,模型的精度、成熟度、稳定性得到了市场应用验证,从训练成本到精度都具备明显优势,这是我们技术路线底层的核心逻辑。
小编:您如何看待数据仿真这条技术路线未来对大模型训练的应用价值?
杨恒:最近我看了 OpenAI 的 CEO Sam 的采访,今年上半年他就说,如果 OpenAI 现在的大模型想继续提升能力,当下唯一的解决方案就是更好地去合成数据,其实就是我们说的数据仿真的方式。
通过仿真技术,我们可以模拟不同的业务场景,生成大量的数据来训练模型,比如不同的光照、角度、表情、各种遮挡,这样才更符合摄像头可能拍到的实际情况。但仿真技术的意义不止是数量的增加,更大的价值在于让数据分布更多元。模型在训练时见过各种场景数据,它的实际应用效果才会更好。这样一来,我们可以不断根据需求更准确地模拟实际场景数据,以此提高模型精度和性能。同时,仿真数据自带标注,不再需要大量人工,效果得到提升。
每个公司都有自己的技术路径,拿业务场景来说,我们和其他技术提供商是在同一市场,但每家公司都有自己认可的技术路线,这也是 AI 公司之间最本质的一个区别。
我们选择基于仿真系统的方式,可能主要跟我自身背景有关,我从本科开始就一直研究计算机仿真,我认为这件事情是有价值的,所以从公司成立到现在以及未来,爱莫科技都会坚定这条路线。
现在:量体裁衣式 AI,赋能线下零售
小编:爱莫科技从创立起就聚焦线下零售的 AI 应用,原因是什么?目前主推的人工智能解决方案有哪些?
杨恒:爱莫科技 2018 年成立,那个时间也算得上是人工智能的又一次低谷期,但也正是这样,让大家可以回归商业本质思考如何实现产业落地。我自己也在思考有哪些大的线下场景适合 AI 落地,经过市场调研,再结合团队优势,我们最终决定将 AI 落到零售这个市场足够大、最接近消费大众的场景,“爱莫”就是 AI 触达末端的含义。
我们的应用是从线下场景的刚需切入,打造的第一个主推产品叫「一拍即核」,主要是帮助品牌实现面向线下营销活动的高效开展及效果评估,用 AI 提高品牌的渠道力。以前,因为店铺数量多又分散,品牌面向线下零售小店的营销活动执行与效果评估都很困难,「一拍即核」不仅能实现商品及物料的线下陈列营销智能核查,即拍即核,实时反馈,还能为品牌的营销活动提供更丰富多样的玩法,现在已经应用在酒水饮料、奶制品、食品、药品等细分行业,像联合利华、东鹏饮料都是我们的客户。
爱莫科技赋能实体零售的还有另一主打产品「虚拟店长」,主要通过脱敏式识别和分析门店客流、消费氛围、员工作业、安全卫生情况等一些场景数据,帮助店主实时把握运营情况,不仅可以实时调整门店氛围,还能精准提升服务质量,比如,消费者落座一分钟之内,就有服务员热情地接待,消费者离席两分钟之内,清洁工会及时清理餐具,给消费者带去更好的体验感受,也为店家节省人工成本,实现门店全场景数字化精细管理。
爱莫科技「虚拟店长」核心功能
小编: AI 公司一般都很难盈利,爱莫科技这几年实现持续盈利是如何做到的?
杨恒:很多方面的原因吧。从企业经营策略上来说,如果用一句话概括就是:一定要做真正属于 AI 公司自己的业务。
大部分 AI 公司亏损比较严重,原因在于还没有找到真正需要 AI 的商业场景时,为了许多伪需求场景投入过多研发,最后无法产生客户价值,或者产生了很多营收但并不属于真正 AI 业务,比如做了安装集成的项目,看起来收入高了,但只是在用高成本做一件低毛利的事,所以是不可能盈利的。
我们思考的就是 Product-market fit(PMF),也就是产品 – 市场匹配,这非常重要。爱莫科技与标杆客户深度合作,在零售、餐饮、物流等领域从实际场景挖掘业务的 AI 需求,帮助客户解决实际问题,为客户创造或者提升商业价值,从而体现我们的价值。创业五年疫情三年,我们能一直处于小盈利的状态,就是在产品和市场匹配上抓的比较好。当然成功的道路不止一条,只是这条路比较符合爱莫科技。
其次,团队协作也很重要。我们的联合创始团队能力非常互补,有人擅长算法,有人擅长架构。比如我的一位联合创始人有在世界 500 强消费零售公司十多年的工作经验,她对消费场景的理解非常深入。而我做技术出身,如果没有她,我会花很多时间去调研零售行业 Know-how,比如为什么会有品牌商,为什么会有零售商,不太了解如何运作品牌方,不了解市场,但通过她十多年的行业经验,整个团队就可以根据对场景的理解,思考如何更快更好地打造产品。
未来:WPA,智能力+知识力+执行力
小编: 未来爱莫科技的发展规划如何?看你们提出了一个叫 WPA 的概念,和 RPA 有什么区别,和你们的发展有什么关联?
杨恒:AI 是一个非常大的行业,我们把 AI 细分看,比如提到 RPA,深入大家脑海的是 UiPath,提到 CRM,首先会想到 Salesforce,现在提到 ChatGPT,大家第一个会想到 OpenAI。所以我们对未来的规划是:做作业流程自动化(Workflow Process Automation,WPA)。WPA 这个概念是我们首先提出来的,没有太多竞争对手,希望未来提到 WPA,行业就会想到爱莫科技的名字。
再说回如何解释 WPA,其实用 AI 为企业数字化赋能,本质来说就是在实现企业作业流程的自动化。比如现在给 ChatGPT 一个目标,让它为我写一个文档、一段代码,发出指令后它马上帮我自动化完成,无论这个东西是否叫 AI,最终实现这个目标的产品本质就是作业流程的自动化。
但现在还有很多作业流程,例如营销方案的设计、营销效果的审核判定等,不是简单的规则性工作,需要更高阶的「智能」作为基础能力才能推动作业流的自动化执行。更高阶的「智能」不仅包括跟人类一样的 intelligence,还需要有对具体工作的 knowledge,然后实时执行决策、优化和调整,才能实现真正的作业流程自动化,即 WPA,这就是爱莫科技未来要做的。
MPA、RPA、WPA 的进化过程
小编: 面对行业白热化的竞争,您会采取什么策略来保持爱莫科技的竞争优势?
杨恒:在泛 AI 行业里我们确实有非常多的竞争对手,但就像刚才我提到的,每家公司的技术路线不同,在数据仿真这条路上我们已经走了 5 年,已经有了大量的行业客户背书,竞争一直存在,每一个维度都有竞争,但如果从整体维度看,我依然非常看好爱莫科技未来的发展。
小编:作为十多年人工智能从业者,您个人如何看待 AI 的未来?
杨恒:我认为现在的人工智能行业充满了机遇和挑战。机遇在于各种创新技术不断涌现,吸引了更多的人才和资金进入。但同时也面临着过度炒作和不理性发展的风险,所以需要行业内的从业者们保持冷静和理性,确保人工智能的健康发展。
比如过度承诺夸大宣传,可能让需求方对人工智能的预期过高,导致实际应用效果与预期不符。另一方面,过度承诺也可能吸引一些不太理性的人才进入行业,可能会误导行业的发展方向。
包括关于 AI 是否会淘汰人类也一直是个争议很大的话题。前段时间 StabilityAI 的 CEO 在采访时也谈到五年内人类程序员会失业,但其实反过来思考,人类可以借助 AI 工具完成很多事情了,人工智能生产力的极大提升会让生产关系发生变化,过往完全由人类控制的 AI 机器会逐渐过渡到能与人协作,人与 AI 能达到共荣共生的状态,爱莫科技也正在朝这个方向前进着。
本站部分文章来自互联网,文章版权归原作者所有。如有疑问请联系QQ:3164780!