IEEE Fellow 李学龙：多模态认知计算是实现通用人工智能的关键

在如今数据驱动的人工智能研究中，单一模态数据所提供的信息已经不能满足提升机器认知能力的需求。与人类利用视觉、听觉、嗅觉、触觉等多种感官信息来感知世界类似，机器也需要模拟人类联觉来提升认知水平。

同时，随着多模态时空数据的爆发和计算能力的提升，研究者已经提出了大量方法以应对日益增长的多样化需求。但当前的多模态认知计算仍局限于人类表观能力的模仿，缺乏认知层面的理论依据。面对更加复杂的智能任务，认知科学与计算科学的交叉已成必然。

近日，西北工业大学的李学龙教授在《中国科学：信息科学》期刊上发表了《多模态认知计算》一文，以“信容”（Information Capacity）为依据，建立了认知过程的信息传递模型，提出了“多模态认知计算能够提高机器的信息提取能力”这一观点，从理论上对多模态认知计算各项任务进行了统一。

李学龙认为，多模态认知计算是实现通用人工智能的关键之一，在”临地安防”（Vicinagearth Security）等领域有广阔的应用前景。本文探索了人类和机器的统一认知模式，对推动多模态认知计算的研究带来启发。

引用格式：Xuelong Li, “Multi-Modal Cognitive Computing,” SCIENTIA SINICA Informationis, DOI: 10.1360/SSI-2022-0226

李学龙是西北工业大学教授，关注高维数据的智能获取、处理和管理之间的关系，在“临地安防”（Vicinagearth Security）等应用系统中发挥作用。2011年入选IEEE Fellow，并是首位当选国际人工智能协会（AAAI）执委的大陆学者。

AI 科技评论对《多模态认知计算》一文的要点作了概括，并沿该方向与李学龙教授进行了一次深入对话。

—— 1 ——
机器认知能力在于信息利用率

基于信息论，李学龙提出：多模态认知计算能够提高机器的信息提取能力，并从理论上对这一观点进行了建模（如下）。

首先，我们需要明白人类是怎样提取事件信息的。

1948 年，信息论创始人 Shannon 提出“信息熵”的概念来表示随机变量的不确定程度，事件的概率越小，其发生所提供的的信息量越大。也就是说，在一个给定的认知任务 T 中，事件 x 的发生所带来的信息量与事件的概率 p(x) 成反比：

而信息是以各种模态为载体进行传输的，假设事件空间 X 为感知模态（m）、空间（s）、时间（t）上的张量，那么个体从事件空间中获得的信息量可定义为：

人类在某一时空范围内的是注意力有限的（假设为 1），所以当时空事件从单模态转变为多模态时，人类就不需要不断调整注意力，将关注点放在未知事件信息上，以获取最大量的信息：

由此可知，当时空事件包含的模态越多，个体获取的信息量也就越大，认知水平也随之更高。

那么对于机器而言，是否获取到的信息量越大，机器就越接近人类的认知水平？

答案是并非如此。为了度量机器的认知能力，李学龙在“信容”理论的基础上，将机器从事件空间中提取信息的过程表示如下。其中，D 为事件空间 x 的数据量。

由此，机器的认知能力即可定义为从单位数据获取最大信息量的能力，这样一来，人类与机器的认知学习便统一为提高信息利用率的过程。

那么，如何提升机器对多模态数据的利用率进而提升多模态认知计算能力呢？

正如人类的认知提升离不开对现实世界的联想、推理、归纳与演绎，要想提升机器认知能力，也需从对应的三方面切入：关联、生成、协同，这也是如今多模态分析的三个基本任务。

—— 2 ——

多模态认知计算的三条主线

多模态关联、跨模态生成和多模态协同三个任务处理多模态数据的侧重点不同，但其核心都是要利用尽可能少的数据实现信息量的最大化。

多模态关联

源自不同模态的内容如何在空间、时间和语义层级上关联对应起来？这是多模态关联任务的目标，也是提高信息利用率的前提。

多模态信息在空间、时间和语义层面上的对齐是跨模态感知的基础，多模态检索则是感知在实际生活中的应用，比如依靠多媒体搜索技术，我们可以输入词汇短语来检索视频片段。

图注：多模态对齐示意图

受人类跨感官感知机制的启发，AI 研究者已经将可计算模型用于唇读、缺失模态生成等跨模态感知任务当中，

还进一步辅助残障群体的跨模态感知。而在将来，跨模态感知的主要应用场景将不再局限于残障人士的感知替代应用上，而是将更多的同人类的跨感官感知相结合，提升人类多感官感知水平。

如今，数字模态内容快速增长，跨模态检索的应用需求也愈加丰富，这无疑为多模态关联学习提出了新的机遇和挑战。

跨模态生成

我们在阅读一段小说情节时，脑海中会自然浮现相应的画面，这是人类跨模态推理和生成能力的体现。

与之类似，在多模态认知计算中，跨模态生成任务的目标是赋予机器生成未知模态实体的能力。从信息论的角度看，这一任务的本质就成了在多模态信息通道内提高机器认知能力的问题，这有两种途径：一是提高信息量即跨模态合成，二是减小数据量即跨模态转换。

跨模态合成任务是在生成新模态实体时对已有信息进行丰富，从而增大信息量。以基于文本生成图像为例，早期主要采用实体关联的方式，对检索库的依赖程度往往很高。如今，图像生成技术以生成对抗网络为主，已经能够生成逼真的高质量图像。但人脸图像生成仍然十分具有挑战性，因为从信息层次上看，即使是微小的表情变化，也有可能传达出非常大的信息量。

同时，将复杂模态转换到简单模态，寻找更加简洁的表达形式，则可以降低数据量，提升信息获取能力。

图注：常见的跨模态转换任务

作为计算机视觉和自然语言处理两大技术结合的典范，跨模态转换可以极大地提升在线检索效率。比如对一段冗长的视频给出简要的自然语言描述，或者给一段视频信息生成与之相关的音频信号灯。

目前主流的两种生成式模型 VAE（变分自编码器）和 GAN （生成对抗网络）各有长短，李学龙认为，VAE 依赖假设条件，而 GAN 可解释性差，二者需合理结合。尤其重要的一点是，多模态生成任务的挑战不仅在于生成质量方面，更多在于不同模态之间的语义及表示鸿沟问题，如何在具有语义鸿沟的前提下进行知识推理是未来需要解决的难点。

多模态协同

在人类认知机制中，归纳和演绎扮演着重要角色，我们可以对看到的、听到的、闻到的、摸到的等多模态感知进行归纳融合、联合演绎，以此来作为决策依据。

同样地，多模态认知计算也要求协调两个或两个以上的模态数据，互相配合完成更加复杂的多模态任务，并提升精度和泛化能力。从信息论的角度看，它的本质是多模态信息之间的相互融合以达到信息互补的目的，是对注意力的优化。

首先，模态融合是为了解决数据格式、时空对齐、噪声干扰等带来的多模态数据的差异问题。目前，机遇规则的融合方式包括串行融合、并行融合和加权融合，基于学习的融合方式则包括注意力机制模型、迁移学习和知识蒸馏。

其次，多模态信息融合完成后就需要对模态信息进行联合学习，以帮助模型挖掘模态数据间的关系，建立起模态与模态间的辅助或互补联系。

通过联合学习，一方面能够提升模态性能，如视觉指导音频、音频指导视觉、深度指导视觉等应用；另一方面可以解决以往单模态难以实现的任务，如复杂情感计算、音频匹配人脸建模、视听觉指导音乐生成等都是未来多模态认知计算的发展方向。

—— 3 ——

机遇与挑战

近年来，深度学习技术已经极大地推动了多模态认知计算在理论和工程上的发展。但如今应用需求愈加多元化，数据迭代速度也在加快，这为多模态认知计算提出了新的挑战，也带来了许多机遇。

我们可以从提升机器认知能力的四个层面来看：

在数据层面，传统的多模态研究将数据的采集和计算分离为两个独立过程，这种方式存在弊端。人类世界由连续模拟信号构成，而机器处理的是离散数字信号，其转换过程必然造成信息变形和丢失。

对此，李学龙认为，以光神经网络为代表的智能光电能够带来解决思路，如果能完成多模态数据的感算一体，机器的信息处理效率和智能水平将大大提高。

在信息层面，认知计算的关键是对信息中高级语义的处理，比如视觉中的位置关系、图像的风格、音乐的情感等。目前多模态任务局限于简单目标和场景下的交互，而无法理解深层的逻辑语义或主观语义。例如，机器可以生成一朵花开在草地上的图像，但无法理解花草会在冬天凋谢的常识。

所以，搭建不同模态下复杂逻辑和感受语义信息的通信桥梁，建立特色的机器度量体系是未来多模态认知计算的一大趋势。

在融合机制层面，如何对由异构部件组成的多模态模型进行高质量优化是当前的一个难点。目前的多模态认知计算大多是在统一的学习目标下对模型进行优化，这种优化策略缺乏对模型内部异构组成部分的针对性调整，导致现有的多模态模型存在较大的欠优化问题，需要从多模态机器学习与优化理论方法等多方面切入。

在任务层面，机器的认知学习方式随任务而不同，我们需要设计任务反馈的学习策略，提升多种相关任务的解决能力。

另外，针对当前机器学习从图像、文本等数据中理解世界这种“旁观式”学习方式的弊端，我们可以借鉴认知科学的研究成果，如具身智能（Embodied AI）就是一个有潜力的解决方案：智能体需要与环境进行多模态交互，才能不断进化形成解决复杂任务的能力。（公众号：小编(公众号：小编)）

—— 4——

对话李学龙

AI 科技评论：在人工智能研究中，我们为什么要关注多模态数据和多模态认知计算？多模态数据的增长为模型的性能带来了什么好处和阻碍？

李学龙：谢谢您的问题。我们之所以关注和研究多模态数据，一方面是由于人工智能本质上是依赖数据的，单一模态数据能提供的信息总是非常有限的，而多模态数据在同一任务下可以提供多层次、多视角的信息；另一方面则是因为客观的物理世界就是多模态的，很多实际问题的研究离不开多模态数据，例如以文搜图，听音识物等等。

我们从认知计算的角度来分析多模态问题，是从人工智能的本质出发，通过构建可模拟人类认知模式的多模态分析系统，希望机器像人类一样智能地感知周围环境。

复杂交错的多模态信息也会带来大量噪声和冗余，增加模型学习压力，使得某些情况下多模态数据的性能反而不如单一模态，这就为模型的设计和优化提出了更大的挑战。

AI 科技评论：从信息论的角度看，人类的认知学习与机器的认知学习有何相似之处？关于人类认知机制的研究对于多模态认知计算有怎样的指导意义？如果缺乏对人类认知的了解，多模态认知计算将面临哪些困难？

李学龙：亚里士多德认为人对事物的认识是从感觉开始的，而柏拉图则认为通过感觉得出的不能称为知识。

人类从出生开始就接受大量的外界信息，通过感知、记忆、推理等逐步建立自我认知系统，而机器的学习能力是通过对大量数据的训练来实现的，主要是在找感知和人类知识之间的对应关系。按照柏拉图的观点，机器学到的还不是知识。我们在文中引用了“信容”（Information Capacity）的理论，尝试从信息提取能力入手，去建立人和机器之间的认知联系。

人类通过视、听、嗅、味、触等多种感知通道将多模态信息传送至大脑，对大脑皮层产生联合刺激。心理学研究发现，多种感官联合作用会产生“多感官整合”、“联觉”（Synaesthesia）、“知觉重组”、“知觉记忆”等认知学习模式，这些人类认知机制为多模态认知计算带来了重大的启发，例如派生出了多模态协同、多模态关联、跨模态生成等典型多模态分析任务，同时也催生了局部共享、长短时记忆、注意力机制等典型机器分析机制。

目前来说，人的认知机理其实并不明确。缺乏人类认知研究的指导，多模态认知计算会陷入数据拟合的陷阱，我们也无法判断模型是否学到了人需要的知识，这也是人工智能目前饱受争议的一点。

AI 科技评论：您从信息论角度提出的“多模态认知计算能够提高机器的信息提取能力”这一观点，在具体的多模态认知计算任务中有何证据支持？

李学龙：这个问题可以从两个方面来回答。第一，多模态信息可以提升单一模态在不同任务中的表现。大量的工作已经验证了，在加入声音信息时，计算机视觉算法的性能会得到显著提升，像目标识别、场景理解等。我们还做过一个环境相机，发现通过融合温度、湿度等传感器的多模态信息，可以提升相机的成像质量。

第二，多模态信息的联合建模为实现更加复杂的智能任务提供了可能，比如，我们曾做过“Listen to the Image”的工作，将视觉信息编码为声音，让盲人“看到”眼前的景象，这也证明了多模态认知计算帮助机器提取更多的信息。

AI 科技评论：在多模态关联任务中，对齐、感知与检索三者之间有什么样的相互联系?

李学龙：这三者的关系本质上来讲是相对比较复杂的，在本篇文章中，我仅给出了一些自己的初步看法。不同模态信息产生关联的前提是它们在共同描述同一个/相似的客观存在，但是这种关联关系却在外界信息冗杂或干扰时存在较难确定的问题，这就需要进行首先对齐不同模态的信息，确定关联对应关系。进而在对齐基础上，实现从一个模态到另一个模态的感知。

这就好比当我们仅看到一个人的唇部运动，能仿佛听到他说的内容。而这种现象的产生也是建立在视素（Viseme）和音素（Phoneme）关联对齐的基础上。在实际生活中，我们也将这种跨模态的感知进一步运用到了诸如检索这样的应用中，通过文字检索商品的图片或视频内容，实现可计算的多模态关联应用。

AI 科技评论：最近非常流行的 DALL-E 等模型是跨模态生成任务的一个例子，它们在文本生成图像任务中表现出色，但其生成图像的语义相关性、可解释性等仍存在很大局限。您认为应当如何解决这个问题？难点在哪？

李学龙：从文本生成图像是一个“想象”的任务，人们看到或听到一句话，理解其中的语义信息，然后依托大脑记忆想象出最符合的场景，产生“画面感”。目前，DALL-E 还处于利用统计学习进行数据拟合的阶段，对大规模数据集进行归纳和总结，这也是目前深度学习最擅长的。

但是，如果真正要学习人的“想象力”，还需要考虑人类的认知模式，达到“高水平”的智能。这就需要神经科学、心理学、信息科学的交叉融合，是挑战也是机遇，近年来很多团队也在这方面做出了顶尖的工作。通过多学科的交叉融合，探索人类认知模式的可计算性理论，也是我们团队努力的方向之一，相信也将为“高水平”的智能带来新的突破。

AI 科技评论：在您的研究工作中，您是如何从认知科学中汲取灵感的？您尤其关注认知科学中的哪些研究？

李学龙：问渠那得清如许？为有源头活水来。我经常从日常生活中观察和思考一些有趣的现象。

在20年前，我浏览到一个网页，上面是江南山水图片，当我再点开网页上的音乐以后，突然有一种身临其境的感觉，这时候我就开始从认知的角度思考听觉和视觉之间的关系。在学习认知科学的过程中，我了解到“联觉”（Synaesthesia）这种现象，结合我自身的科研方向，完成了一篇题为“Visual Music and Musical Vision”的文章，这也是第一次将“联觉”引入信息领域。

后来，我开设了信息领域第一门认知计算课程，也创建了IEEE SMC的认知计算技术委员会，尝试打破认知科学和计算科学的边界，当时也给认知计算下了定义，也就是目前技术委员会主页上的描述。2002年，我提出了单位数据量的信息量提供能力，也就是“信容”（Information Capacity）的概念，尝试对机器的认知能力进行度量，也很荣幸地在2020年以“多模态认知计算”为题获得了腾讯科学探索奖。

到现在，我也持续关注着联觉和知觉方面的最新进展。在自然界中，也存在很多人类五感之外的模态，甚至也存在目前尚不清楚的潜在模态，比如量子纠缠就可能说明了我们生活的三维空间只是高维空间的投影，如果确实是这样，那我们的探测手段也是局限的。或许可以挖掘利用这些潜在模态，让机器接近甚至超越人的感知能力。

AI 科技评论：在如何将人类认知与人工智能更好结合的问题上，您提出构建以“元模态”（Meta-Modal）为核心的模态交互网络，能否介绍一下该观点？其理论基础是什么？

李学龙：元模态本身是一个源自认知神经科学领域的概念，它是指大脑具备这样一类组织，它在执行某种功能或表征操作时，对输入信息的感官类别不作具体假设，但仍然能够具备较好的执行表现。

元模态并非是一类突发奇想的概念，它本质上是认知科学家对跨模态感知、神经元可塑性等现象和机理整合后的假设与猜想。它也启发我们去构造不同模态间的高效学习架构与方法，实现更加泛化的模态表征能力。

AI 科技评论：多模态认知计算在真实世界主要有哪些应用？举例说明。

李学龙：多模态认知计算是一项非常贴近实际应用的研究。我们团队之前有一项跨模态感知的工作，把视觉信息编码成声音信号，刺激大脑皮层的初级视皮质，已经在助残助障中开展了应用，帮助盲人看到外界事物。在日常生活中，我们也会经常用到多模态认知计算的技术，比如短视频平台就会综合语音、图像和文本标签，去为用户推荐可能感兴趣的视频。

更广泛地，多模态认知计算在文章提到的临地安防中也有广泛的应用，比如智能搜救，无人机和地面机器人采集到声音、图像、温度、湿度等各种数据，需要从认知的角度对这些数据进行整合分析，根据现场情况执行不同的搜救策略。类似的应用还有很多，比如智能巡检、跨域遥感等等。

AI 科技评论：您在文章中提到，目前多模态任务都局限于简单目标和场景下的交互，一旦涉及到更为深层的逻辑语义或主观语义就举步维艰。那么，这是否是符号主义人工智能复兴的一个契机？在提高机器处理高级语义信息的能力方面，还有哪些可行方案？

李学龙：罗素认为，知识的大部分价值在于它的不确定性。知识的学习是需要有温度的，是能够和外界交互与反馈的。当前我们所看到的大部分研究属于单模态的、被动的、面向给定数据的研究，可以满足一些简单目标和场景下的研究需求。但对于更为深层的逻辑语义或主观语义，需要对时空多维度下的、更多模态支持的、可主动交互的情境予以充分地探索和挖掘。

为了实现这一目标，研究手段与方式方法可能可以更多地借鉴认知科学，例如，一些研究者将认知科学中的“具身体验”假说引入到人工智能领域，探究机器在同外界主动交互、多种模态信息输入情境下新的学习问题与任务，并得到了一些可喜的结果。这也展现出多模态认知计算在联结人工智能与认知科学的纽带作用和积极意义。

AI 科技评论：智能光电也是您的研究方向之一，您在文章中提到，智能光电能够为信息的数字化带来探索性的解决思路。在多模态数据的感知和计算方面，智能光电能够做哪些工作？

李学龙：光信号和电信号是人们认识世界的主要方式，人类每天接收信息的大部分来自于视觉，再深入一步，视觉信息主要来自于光。人类视听嗅味触的五种感官也是将光线、声波、压力、气味、刺激等不同感觉转化为电信号进行高层次认知。所以光电是人类感知世界的主要信息来源。近年来，借助各种先进的光电设备，我们感知到了可见光和可闻声波以外更多的信息。

可以说光电设备是人类感知世界的最前端。我们从事的智能光电研究，致力于探索光电感知硬件与智能算法的一体化，将物理先验引入算法设计过程，利用算法结果指导硬件设计，形成“感”和“算”的互相反馈，拓展感知边界，达到模仿甚至超越人的多模态感知的目的。

AI 科技评论：在多模态认知计算方向，您目前在做哪些研究工作？您未来的研究目标是什么？

李学龙：感谢提问。我目前主要关注临地安防（Vicinagearth Security）中的多模态认知计算。传统意义上的安防通常是指城市安防。在当下，人类的活动空间已经扩展到了低空、地面和水下，我们需要去建立临地空间中的立体化安全防卫体系，来执行跨域探测、自主无人系统等一系列实际任务。

临地安防面临的一个很大的问题，是如何智能化地处理不同传感器产生的大量多模态数据，比如让机器从人的角度去理解无人机和地面监控设备同时观测到的目标。这就涉及到多模态认知计算，以及多模态认知计算与智能光电的结合。

在未来，我会持续研究多模态认知计算在临地安防中的应用，希望能够打通数据获取和处理之间的联系，合理利用“正向激励噪声”（Pi-Noise），建立以多模态认知计算和智能光电为支撑的临地安防体系。

本站部分文章来自互联网，文章版权归原作者所有。如有疑问请联系QQ：3164780！