基于以上内容,我来抛个砖,4个月前开始考虑LLM对于我们的影响以及如何拥抱并形成或扩大自身产品的差异和壁垒。经过这4个多月的时间,很多原来的工作习惯被迭代,很多原来的认知被重置,很多原来的范式被改变。不夸张的说,这可能是,或者至少是科技行业的“人类的群星闪耀时”,而且后续也将影响更多行业和从业者。下面我们从三个维度来具体分析一下。1产品/软件设计的范式转变基于以上的特性,SaaS/软件行业对AI的垂直integration,我预想大概是可以分成三步,每一步都比上一步更深入,对AI模型能力的使用也更充分。(知识类)第一步是知识库类功能的整合,训练或者fine-tune自己的模型,用一些内部或者行业的knowhow,可以用开源模型,也可以用商业化模型,这个其实不重要,重要的是内部结构化数据和行业knowhow以及best practice的提炼和抽象。比如Gonex的AI全球HR合规引擎IRIS,HR可以每天基于对全球HR法律法规以及全球各行各业HR最佳实践进行检索,并对自己的任务进行分解和实现。就目前而言,AI 更适用于一些需要或者近似于阅读理解类的预期结果,而已经被结构化的事实类内容在现在已经被索引过,使用传统的方法可以实现高效率,并且对算力的要求也低得多。但并不是所有的任务都适合使用 AI,因为有些任务用 AI 完成的效率并不一定高,比如查询中国的最低年假。在这种情况下,直接从本地数据库检索可能更加高效,对算力的要求也更低。因此,在选择使用 AI 还是传统方法完成任务时,我们需要具体考虑任务类型和预期结果,避免浪费。(工作/业务流)第二步是利用AI的识别和推断进行任务和功能的调度。利用AI都予以理解和上下文能力,实现更流畅的用户体验,逐步替换掉传统的线性多级的工作流,实现一步到位的功能或者任务的调度。比如我要查一下自己的工资,我到登陆系统,点开我的(my account), 查看工资单,选择某一个月或者当月,然后显示自己的工资单,这些步骤是传统的线性工作流。AI可以替代这些工作流,直接问一下我的工资,返回具体的工资数据。如果需要更多交互,可以打开完整功能。很多流程会从线性的变成星形的。
线行流程配图
星型流程配图大多数功能都可以用类似的方式完成调度,只有极少数需求需要权限和分组等功能在授权的时候需要一些传统的验证和流程,其他的应该都可以满足需求。这个就需要要对功能做基于语意和上下文分析的mapping,相当于做配置文件以及对prompts的管理,需要把语意的分析抽象到具体的功能。而业务逻辑依然依靠现有的系统来完成。个人觉得替代工作流更像一个trade off是兼容之前的古典软件设计范式,而不是新的范式,新的范式是下面的第三步,完全的业务逻辑AI化。(复杂业务逻辑)第三步是利用AI来整合业务逻辑(甚至整个SaaS的业务逻辑就是依靠AI,而不需要重新定义和开发),而不仅是进行功能和数据的调度。LLM会逐步的部分或者全部替代掉SaaS的业务逻辑,但是传统的业务逻辑是不是更高效这点需要针对不同的业务逻辑单独的比较和验证。而且很多业务逻辑用自然语言描述和用数学函数描述效率并不一样,因为自然语言对复杂功能的描述其实不如直接抽象出来的逻辑和算法更高效,而且自然语言本身也需要被转换成机器能理解的逻辑和算法才可以被机器识别和运行。不过有一些传统业务功能的局限却可以用自然语言的形式来实现,比如输入基础考勤和税务信息根据每个国家工资的算法进行月度工资的计算是非常复杂的逻辑和算法,用自然语言是不容易实现的,但是基于这个算薪结果进行比较又是用传统的逻辑和算法无法完成的,而一般都需要人为的查询和比较,并解释。例如:请问为什么上个月工资和这个月差这么多?产品原型图截图这个功能如果用传统的方式是无法实现的,但是用LLM似乎是可以实现的,但是需要把现有系统的数据和算法给到模型并训练才有可能。基本上做到了第三步才是真正的用AI/LLM来定义和实现完整的软件功能和逻辑,而不仅是交互方面的调度,我觉得可能在相当长的一段时间内都是用第二步和第三步之间的方式来实现软件/SaaS的AI/LLM化,而不是Native AI/LLM软件/SaaS。关于LLM:除了大家现在比较关心的基础LLM外,未来可能会有很多的LLM,从业务场景的角度会有,比如完成电商业务的模型,完成ERP业务的模型,完成CRM业务的模型等。从知识的专业性角度可能会有,比如HR行业模型,财务行业模型,法务行业模型等。从数据私有性的角度,可能还有各个公司/组织自己的LLM,当然也可以基于开源LLM来搭建。甚至也会由于数据合规性的考虑会出现个人LLM。每个模型都抽象了很多的业务逻辑,而这些业务逻辑是依靠LLM来完成功能的实现的,针对这些业务逻辑都需要对模型进行单独的训练,而不是简单的用一个超大泛化模型可以实现的(除非超大模型用各行各业的数据进行训练和修改,这样其实对于基础模型可能是非常不经济的,不过也可能跟软件行业一样,很多软件公司的增长也是通过收购和整合来实现的)。未来的LLM可能的分层形态:2交互范式的转变交互方式的改变,从抽象流程到自然语言,conversational user interface(CUI)实际上人类日常的最自然的交互方式就是肢体语言,表情和对话,而古典软件都是靠业务流程抽象化来完成目标任务的,而LLM的方式可以从更贴近于人类习惯的方式使用软件功能,因此极大的降低了学习成本,未来的AI Native行业软件大概率是类似的这样的三段式 three stages CUI.
左侧是传统的抽象流程的快捷方式
中间是对话功能框,未来很多的工作流都是基于对话和上下文在对话框里直接完成的。
右侧是功能调用,限制于对话框的大小不容易完成的操作可能还是要有一个地方呼出并实现操作。
左侧和右侧会随着LLM的进化逐步弱化或者消失。
中间的对话框的下一代 conversational user interface会随着多模态的发展,或许更多的输入格式,比如摄像头来收集body language,表情等更底层的交流,麦克风来收集不仅是对话,还有环境音。
中间的对话框不止是一个传统软件的rich text area,这里包含的很多的元素,其实类似的微信对话框里不同的format,比如一个网页,一个文件,一个小程序,其实企业微信和叮叮也都有类似的设计,只不过通讯/协同软件更多的还是人和人对话,现在的对话框不再是或者不仅限于人和人了,更多的是人和LLM,对话框里要可以显示和处理更多的格式,比如微信不支持markdown(因为正常人不会用这种格式跟别人交互),现在需要支持更多的文本格式,因为用户不仅是要在对话框里完成对话,更重要的是要在对话框里完成任务,完成指令,而不只是把对话框当作信息的传递,具体的任务要跳出对话。比如,我要查steve的工资,LLM会返回给我工资的具体内容,比如我问LLM有什么的需要审批的工作,LLM直接给我返回5个审批列表,我可以直接在对话框里审批。比如我要LLM帮我请假,但是一些具体请假原因和流程都要在对话框里完成。
对于CUI,我认为未来的交互可能不仅仅是typing,还有声音,图像/视频等输入形式。人类科技最大目标就是模仿人类自己,机器总要加个“人”在后面,是为机器人。而AI的目标是最大限度的让用户感觉坐在对面跟你对话的是人,而不是机器。因此我们应该不仅限于打字,因为打字本身是有PC了以后才有的形式,几千年的人类沟通方式是语音。因此我自己做的是行业软件,但我依然认为未来最大机会是更自然的沟通方式是voice,因此在UI和工程领域如何更快的把rich text area这个component变成 rich voice area component是更底层的更有意思的机会,甚至可以支持手势,表情等,更多的输入形式从而变成rich communication area component,这也是我思考了很久的领域,现在已经有了结论,不过我们就不在这里展开了。
其实大家日常使用的AGI应用无论2B还是2C,几乎所有的场景下的应用都是被动呼出的,也就是说都用户提出问题,LLM被动回答。用户是initiator,这就造成了使用场景相对单一。但是反过来想一下日常的对话都是自己发起的么?显然不是,实际生活中不同的场景,很多都是用户是被动应答的。微信之所以使用时间长,并不是因为比抖音有更牛的沉浸式推荐算法,而是因为你的主动是对方的被动,对方的主动是你的被动,通讯录联系人互相成为对方的initiator。因此AGI的出现,就可以根据设备的感知能力主动发起对话,比如中午,可以问用户吃了么,没吃赶紧吃,想吃啥附近直接找到,并导航到餐馆。主动发起对用户体验来说是一个很大的飞跃,(这里主动发起不是类似手机的push msg)尤其是情感领域,被动和主动区别很大,大多数国人在现代社会中都是社交被动型的,社牛太少了。很多传统的社交软件也都在利用数据来降低社交成本,比如点个赞,比如用手滑照片。如果能通过耳机+各种sensors,还有环境音的透明收声,则可以有更多的应用场景被挖掘出来。而不仅是任务型或者事务性的应用场景。写在最后:以上都是我几个月以来的思考在当下这个时间点的总结,未来会发生什么,也很可能会推翻现有的结论甚至思考框架,未来一定是薛定谔的猫,LLM这个变量将让很多人的思考框架发生了巨大的变化。在这个Sternstunden der Menschheit,我们可能有的只是时间。浪潮中,有些人追求宏大的叙事,有些人忙于性感的故事,有些人挥起锋利的镰刀。面对诱惑大多数人都会放弃坚守,但我还是希望大家在设计产品时问自己一个问题,我的产品能不能带来10倍体验提升,能不能带来10倍成本的降低,普通人只能点滴的改变。Make a better life for all people and their families.