Alexa 如何聆听唤醒词

很多人可能会好奇,Alexa 设备是如何做到在众多声音中准确识别唤醒词的。 尽管 Alexa 似乎一直在“监听”,但它并非时时刻刻都在录音。 只有当你明确说出唤醒词(例如“Alexa”、“Echo”或“Computer”)时,设备才会开始向云端服务器发送数据。 然而,识别这些唤醒词远比我们想象的要复杂得多。

Echo 设备本身并不具备高度的智能。 如果没有互联网连接,你发出的任何指令或提出的任何问题都将无法得到响应。 这是因为你的语音指令需要被发送到云端进行解析和处理。 亚马逊公司为了保护用户隐私,避免记录用户在智能音箱前的每一次对话,采用了唤醒词机制来激活智能音箱。 为了实现这一目标,亚马逊综合运用了高精度麦克风、短时内存缓存以及经过训练的神经网络技术。

高精度麦克风:精确定位你的声音来源

通常情况下,浅蓝色 LED 灯光会始终面向你的声音来源方向。

诸如 Echo 和 Echo Dot 这类语音助手扬声器通常都配备了多个内置麦克风。 例如,Echo Dot 就内置了七个麦克风。 这些麦克风阵列赋予了设备多种能力,包括从远处捕捉指令,以及从周围环境中分离出背景噪音。

后者在唤醒词检测中尤其重要。 通过多个麦克风的协同工作,Echo 可以精确定位你相对于设备的位置,并专注于你所在的方向进行收听,同时忽略房间其他区域的声音。

每当你使用唤醒词时,你都可以注意到这一点。 当你站在 Echo 或 Echo Dot 旁边说出唤醒词时,你会看到环形灯以深蓝色亮起,然后逐渐转变为浅蓝色,并且“指向”你。 如果你稍微移动几步,再次说出唤醒词,你会发现浅蓝色灯光也会随之移动。

精准定位你的位置有助于设备更好地聚焦于你的声音,并 有效地过滤掉来自其他位置的噪音

短时内存:限制监听范围

虽然 Echo 设备拥有一定的存储空间,但它们并不会存储过多的音频数据。 根据亚马逊副总裁兼 Alexa 人工智能首席科学家 Rohit Prasad 的说法,Echo 设备 只能在本地存储几秒钟的音频数据

通过这种设计,亚马逊不仅进一步保护了用户的隐私(减少了你声音被存储的地方),同时也限制了 Echo 设备监听整个对话的能力,使其专注于检测唤醒词。

想象一下,你有一个三秒钟的磁带和一个录音机。 当磁带播放到结尾时,它会自动循环回到开头重新录制。 如果你开始录制对话,那么四秒钟之前的内容将被立即擦除并被新录制的内容覆盖。 这正是亚马逊 Echo 的工作方式。

它持续录音,但同时也会不断擦除刚刚录制的内容。 这种短时内存机制意味着它所能捕捉到的只是“Alexa”这个词,仅此而已。 然而,三秒钟的时间足以让这个词被记录下来、进行检测并触发相应的操作。

神经网络训练:模式匹配的关键

亚马逊算法所使用的多层结构示意图。

最后,亚马逊利用 神经网络训练 来训练 Echo 设备进行模式匹配。 与其他形式的机器学习类似,亚马逊通过不断地输入唤醒词(例如“Alexa”、“Computer”或“Echo”),来训练其算法。

训练的目的是涵盖每一个变化和发音,同时也包括上下文信息。 亚马逊希望你的 Echo 设备能够区分你是正在与它交谈、正在谈论它,还是正在与一个名叫 Alexa 的人交谈。 定向麦克风也有助于实现这一目标。

Echo 设备接收到的每个单词都会经过多层算法的分析。 每一层都旨在排除误报,并寻找声音相似或上下文线索。 如果一层检查通过,则会进入下一层。 最后,当本地设备确定它确实听到了唤醒词时,它才开始录制音频并将其发送到亚马逊的云服务器。 亚马逊采用了四种算法:每个唤醒词(“Alexa”、“Computer”、“Echo”)各一种,以及用于 Alexa Guard 的一种,它将特定的声音(例如玻璃破碎)视为唤醒词。

即使本地设备检测到匹配,亚马逊还会进行更复杂的检查。 你可能注意到,当有人在电视节目或广告中说出 “Alexa” 一词时,你的 Echo 设备通常不会做出反应。 这是因为亚马逊还会进行云端检查。

云端检查:排除误报

这个 幽默的 Alexa 广告 不会唤醒你的 Echo 设备。

当公司制作以 Alexa 为特色的广告时,他们可以 将音频提交给亚马逊。 亚马逊会通过类似的模式匹配算法分析这些音频,用于识别唤醒词。 一旦该特定音频被完全编目,它就会被添加到数据库中。

作为连接到云端的过程的一部分,你的 Echo 设备会接收有关它所听到的唤醒词的信息,并与该数据库进行比对。 每当发现匹配项时,亚马逊都会指示你的 Echo 设备忽略该唤醒词,停止录音并丢弃任何录制下来的音频。

此外,亚马逊还会检查同时说出唤醒词的情况。 并非每家公司都会将音频提交给亚马逊,因此该公司开发了一种新颖的备用方案。 在检查数据库匹配后,该公司会将唤醒词的特征与同时接收到的其他唤醒词特征进行比较。 如果两个人同时说 “Alexa”,他们的声音不太可能完全一致。 因此,如果检测到匹配,亚马逊就会判断该唤醒词可能来自商业广告或电视节目,并忽略该请求。

尽管进行了所有这些检查,误报仍然可能发生。 你可以通过 亚马逊的隐私中心 收听 Echo 设备录制的内容,你可能会在一堆录音中发现至少一个误报。 但这项技术正在不断改进。 亚马逊的最终目标是让设备在没有唤醒词的情况下也能理解用户的意图。