苹果公司发布研究论文， Siri 大揭秘！

苹果公司的跨渠道 Siri 虚拟帮手在全球有着超越 5 亿用户，明显，语音辨认是苹果感兴趣的重要范畴之一。

上星期，苹果公司宣布了一系列预印本研讨论文，就怎么改善语音触发检测和说话人验证，以及多说话人的言语辨认技能进行了研讨。

在第一篇论文中，一组苹果研讨人员提出了一个练习过的人工智能模型，这个模型既能履行主动语音辨认使命，也能履行说话人辨认使命。

正如他们在摘要中所解说的，语音帮手辨认的指令一般以触发短语（例如，“嘿，Siri”）为前缀，检测这个触发短语触及两个进程。

首要，人工智能有必要判别输入音频中的语音内容是否与触发短语的语音内容相匹配（语音触发检测）；其次，人工智能有必要判别说话者的语音是否与注册用户或用户的语音相匹配（语音验证）。

一般状况下，这两项使命都是被独立考虑的。但有合著者假定，对语音发起者的了解或许有助于推断出声响信号中的语音内容，反之亦然，这将有助于对这两种特点进行评价。

对此，研讨人员规划了三套能够学习语音和说话人信息的模型，并对一组数据进行练习，这些数据包含超越 16000 小时的带注释的样本，其间 5000 小时的音频有语音标签（其他的为说话人标签）。

不仅如此，还有超越 100 名受试者运用智能扬声器设备在一系列声学设置中为语料库做出奉献，包含安静的房间、来自房间内电视或厨房设备的外部噪音，以及录音机以大音量播映音乐。

值得一提的是，来自电视、播送和播客的 2000 小时不包含触发短语的接连音频记载也被增加进来，以此来丈量“误报”率。

这些模型显现出了学习语音和说话人信息的才能，一起在相同数量的参数下，每个使命的准确性至少与基线模型相同。

现实上，在提出的三种模型中，有一种在“多重”设置下的体现优于说话者验证基线，在文本无关的使命中相对于基线提高了 7.6%。

研讨人员认为，这样的试验成果是非常风趣的，由于这些模型是运用不相关的数据集练习的，也就是说，每个音频样本要么有语音标签，要么有说话人标签，从来没有两者都有。

经过对成果的调查，研讨人员提出了一种灵敏的规划，经过衔接不同的使命的练习数据，而不是为每个练习示例获取多个标签，从而在多个相关使命上练习模型。从有用的视点来看，这姿态就能够在两个使命之间同享核算能够节约设备内存、核算时间或推迟，以及耗费的电量/电池。

在研讨中，有一项弥补研讨削减了过错触发的发作，也就是说，语音帮手有意地疏忽了像 Siri 这样的语音帮手的语音。

研讨人员表明，他们运用了图形神经网络（GNN），这是一种操作在图形结构上的人工智能模型，其间每个节点都与一个标签相关联，方针是在没有基础现实的状况下猜测节点的标签。

在论文中，研讨人员写道：

语音触发的智能帮手一般在开端监听用户恳求之前就会检测到一个触发短语……过错的触发一般来自于布景噪音或听起来类似于触发短语的语音。因而，削减误触发是构建以隐私为中心的非侵入性智能帮手的一个重要方面。

在未来的作业中，该团队方案将依据GNN 的处理扩展到其他使命，例如用户目的分类。

在另一篇论文中，苹果研讨人员探究了一种针对多言语运用者量身定制的说话人言语辨认体系。

他们表明，语音辨认体系对大多数言语都有很高的准确性。可是，当有多重言语出现时，这个言语辨认体系的体现就不尽善尽美了。因而，依据这样的施行状况，研讨人员决议展开说话人言语辨认体系的作业。

有必要留意一下的是，《华盛顿邮报》近期托付进行的一项研讨显现，谷歌和亚马逊出产的受欢迎的智能音箱听懂本乡用户的语音比听懂非美式口音的概率高出了 30%。

一起，像 Switchboard 这样的语料库也现已被证明对来自国内特定区域的运用者存在可丈量的歪斜，这个语料库仍是被 IBM 和微软等公司用来衡量语音模型过错率的数据集。

针对这样的一种状况，合著者将有关运用形式的常识整合到一个听写体系中，该体系能够为来自 60 多个区域的演讲者做出决议计划。

其间，声学子模型将依据语音信号所传递的依据进行猜测，而上下文感知猜测组件则考虑了各种交互上下文信号，经过这两方面的猜测，来挑选最优的单语主动语音辨认体系。

据了解，上下文信号包含了有关宣布听写恳求的条件的信息，包含有关已装置的听写区域、当时挑选的听写区域以及用户在宣布恳求之前是否切换了听写区域的信息。

重要的是，它们有助于在语音信号太短的状况下，依托声学模型发生一个牢靠的猜测。比如说，假如用户一起装置了英语和德语，像“naIn ”这样的短而含糊的句子，在德语中或许是否定的“nein”，在英语中则是数字“nine”。

别的，为了评价该体系，研讨人员还开发了一种自定义目标，称为“均匀用户准确度”（AUA，Average User Accuracy），他们都认为这种目标能更好地反映模型中的“人口水平”运用形式。

经过对多言语运用者的 128,000 个具有相应交互上下文信息的听写言语的内部语料库进行严格练习，它在一切言语组合中完成了均匀 87% 的准确性，一起将最差状况下的准确性相对于基线提高了 60% 以上。

此外，在团队调整参数以平衡准确性和推迟与在设备上运转模型的核算负载之后，均匀推迟从 2 秒削减到 1.2 秒，而对 AUA 的影响不超越 0.05%。

本站部分文章来自互联网，文章版权归原作者所有。如有疑问请联系QQ：3164780！