Alexa、Siri 和 Google 听不懂你说的一个词

0 Shares

近年来，诸如 Alexa、Google Assistant 和 Siri 等语音助手取得了显著的进步。然而，尽管它们取得了诸多进展，但仍然存在一个主要的局限性：它们并不真正理解你。这些助手在很大程度上依赖于特定的语音指令，缺乏真正的理解能力。

语音识别的奥秘

语音助手实际上并不理解你所说的话。当你与 Google Home 或 Amazon Echo 对话时，它们会将你的语音转化为文本字符串，并将其与预定义的命令进行比较。如果找到完全匹配的指令，助手就会执行相应的操作。如果没有找到匹配项，它会尝试基于已知信息寻找替代方案。如果仍然无法找到合适的指令，你将收到类似“对不起，我不明白”的错误提示。这种模拟理解的行为实际上只是一种错觉。

语音助手无法利用上下文线索进行推断，也无法利用对相关主题的理解来辅助决策。轻易地难倒语音助手并非难事。例如，你可以问 Alexa “你为 NSA 工作吗？” 并得到回应，但是如果你问 “你是 NSA 的秘密成员吗？” 你可能会收到 “我不明白” 的回答（至少在撰写本文时是这样）。

真正理解语言的人类则不然。假设你问一个人：“天空中那个 klarvain 是什么？它呈拱形，充满了红色、橙色、黄色和蓝色等条纹颜色。”尽管 klarvain 是一个虚构的词，但你询问的人可能会根据上下文推断出你是在描述彩虹。

人类在将语音转化为想法的同时，还可以运用知识和理解来得出答案。如果你问一个人是否秘密为 NSA 工作，他们会给你一个肯定或否定的答案，即使答案是谎言。人类不会对这样的问题说“我不知道”。人类说谎的能力恰恰体现了他们对语言真正的理解。

语音助手无法超越编程的限制

语音助手最终只能在其预先编程的参数范围内运行，超出这个范围的操作会导致其功能失效。这在第三方设备交互中尤为明显。通常，这些交互的命令非常繁琐，类似于 “告诉设备制造商执行可选参数的命令”。例如：“告诉惠而浦暂停烘干机”。另一个更为复杂的例子是日内瓦 Alexa 技能，它可以控制一些 GE 烤箱。该技能的用户需要记住使用 “告诉日内瓦” 而不是 “告诉 GE” ，然后才能输入命令的其余部分。尽管你可以让它将烤箱预热到 350 度，但你却不能接着要求它再将温度提高 50 度。而人类则可以理解并执行这些连续的请求。

亚马逊和谷歌为了克服这些限制付出了巨大的努力，这也说明了这些限制的存在。以前，你需要按照严格的顺序来控制智能锁，而现在你可以简单地说 “锁上前门”。曾经，Alexa 对于 “给我讲个关于狗的笑话” 感到困惑，但如今它能够理解并执行这个命令。尽管它们已经添加了各种命令的变体，但你仍然必须知道正确的命令才能让助手正常工作，而且必须以正确的语法和顺序表达。

如果你觉得这听起来很像命令行，那么你没有理解错。

语音助手：一个高级的命令行

命令行通常被认为是执行简单任务的工具，但前提是你必须了解正确的语法。如果你输入了错误的语法，例如输入 dyr 而不是 dir，命令提示符就会返回一个错误消息。你可以使用别名来更轻松地记住命令，但你仍然必须了解原始命令的含义、运行方式以及如何有效使用别名。如果你不花时间学习命令行的详细知识，就永远无法从命令行中获益。

语音助手也不例外。你需要知道使用正确的措辞来发出命令或提出问题。你需要了解如何在 Google 和 Alexa 中设置群组，为什么设备分组至关重要，以及如何命名你的智能设备。如果你不遵循这些必要步骤，你可能会感到沮丧，比如当你要求你的语音助手关闭书房时，它却会反问你 “应该关闭哪个书房”。

即使你使用了正确的语法和顺序，该过程仍然可能失败。你可能会得到不正确的响应，或者出现令人意外的结果。同一房屋中的两个 Google Home 可能会给出略有不同的天气预报，即使它们可以访问相同的用户帐户信息和互联网连接。

在上面的例子中，给出了命令 “设置一个半小时的计时器”。Google Home Hub 创建了一个名为 “小时” 的计时器，然后询问计时器应该持续多长时间。然而，在另外三次重复相同命令的情况下，它却正常工作并创建了一个 30 分钟的计时器。而使用命令 “设置一个 30 分钟的计时器” 则可以更稳定地正常工作。

虽然与 Google Home 或 Echo 对话似乎更加自然流畅，但从本质上讲，语音助手和命令行的工作方式是相同的。你可能不需要学习一门新的语言，但你需要学习一种新的方言。

对语音助手理解的限制阻碍其发展

这些限制并没有阻止诸如 Google Assistant 和 Alexa 等语音助手正常工作（尽管 Cortana 表现不佳）。谷歌助手和 Alexa 会在网上搜索问题，而且谷歌在搜索方面表现更好，可以回答简单的数学和测量转换等基本问题。通过正确的智能家居设置和训练有素的用户，大多数智能家居命令可以按预期工作。但这源于工作和努力，而不是真正的理解。

过去，计时器和闹钟很简单。随着时间的推移，添加了命名功能，并且可以为计时器添加时间。它们从简单走向复杂。语音助手能够回答更多的问题，每天都会增加新的技能和功能。但这并不是来源于自我学习和理解能力的进步。

这些助手仍然缺乏利用已知信息来获取未知信息的能力。对于每个有效的命令和问题，总会有三个无效的。在人工智能方面没有重大突破，无法赋予机器类似于人类的理解能力，语音助手就无法成为真正的助手。它们只是语音版的命令行界面——在特定的场景下非常有用，但仅限于它们被编程理解的那些场景。

换句话说，机器正在学习事物，但无法真正理解它们。