一帮不懂手语的工程师研发出了会比手语的AI主播

小编消息，5月17日，搜狗CEO王小川在搜狐科技5G&AI峰会对外发布了新一代搜狗AI合成主播——手语AI合成主播“小聪”。

作为搜狗AI合成主播经过两年多时间迭代后的新品，手语AI合成主播集成了超写实3D数字人建模、机器翻译、多模态数字人生成、迁移学习、实时面部动作生成及驱动技术。据搜狗官方信息显示，在组织的聋人可懂度测评中，搜狗手语AI合成主播可懂度达到了85%以上。

搜狗这款手语AI合成主播研发初衷是什么？

为什么有了语音识别生成字幕技术后，还要做搜狗手语AI合成主播？

搜狗手语AI合成主播与一脉相承的语音识别、AI分身在技术研发过程中又有何异同？

……

这些问题都在5月19日的媒体沟通会上由搜狗AI交互技术部总经理陈伟及他的团队进行了一一解答。

研发初衷：听障人士看字幕如学外语般艰辛

2018年11月，搜狗与新华社合作研发的AI合成主播正式问世，几经迭代后，在2020年5月，又与新华社联合推出了3D AI合成主播。

当时陈伟和他的团队在为搜狗为3D AI合成主播规划未来发展方向时，着重考虑了三个方面：

第一，要把3D能力做好；

第二，我们希望搜狗在“数字人”这个方向上有自己更高的技术壁垒；

第三，我们要找到有强烈需求的场景。

综合考虑场景、渠道和技术迭代中的创新后，2020年5月，手语AI合成主播在搜狗内部正式立项。

既然有字幕了，还要手语干什么？

这也是搜狗手语AI合成主播立项之初，陈伟当时需要考虑的问题。

对此，陈伟总结了三方面原因：

第一，并非所有听障人士能看懂字幕。

在我国2700万听障人士中，整体受教育程度参差不齐，有高中、大学学历的听障人士在这一群体中仍然只占非常小的比例，现在大家对字幕获取的能力还在逐渐培养中，要想让绝大部分听障人士看懂字幕还有很长的路要走。

第二，「有字幕」这件事儿和「做手语」不是必须二选一的。

我们在了解信息、获取信息过程中必然会通过多种方式，我们自己在看电影的时候，有时候尽管中文的电影我们可能也会看字幕，大家本能的想法是我怎么能更快更高效的获取信息，他能看懂字幕更好，如果看不懂，还有手语可以提供信息。

第三，手语语言和有声语言之间是完全不同的语言体系，听障人士对有声语言的接受程度类似健听人对第二外语的接受程度。

听障人士即便学习了汉语，对他来说也是第二语言，就像我们在学习英语过程中，尽管我们学习了很长时间，但还是很难产生熟悉的感觉。

与此同时，听障人士在学习汉语的过程中其实天生是有障碍的，因为汉语或者普通话更多的是表音文字，每个字都有发音，我们之所以能够快速学习语音，是因为有语境。我们跟别人沟通的时候，沟通的前提是眼睛看着大家，看到了唇形，同时听到了声音，结合在一起是多模态的，但是听障人士在听力上天生有障碍，就少了一个因素让他更快地学习有声语言。他们之所以学手语学得快，是因为手语是视觉语言，不需要辅以声音进行理解。从这个角度来看，手语短期内不可能完全被字幕替换掉，它仍然是听障人士的主要学习方式，手语表达也更符合听障人士的习惯。

就在搜狗手语AI合成主播发布的同时，搜狗还对外发布了柳岩同款明星“数字人”。