近年来,诸如 Alexa、Google Assistant 和 Siri 等语音助手取得了显著的进步。然而,尽管它们取得了诸多进展,但仍然存在一个主要的局限性:它们并不真正理解你。这些助手在很大程度上依赖于特定的语音指令,缺乏真正的理解能力。
语音识别的奥秘
语音助手实际上并不理解你所说的话。当你与 Google Home 或 Amazon Echo 对话时,它们会将你的语音转化为文本字符串,并将其与预定义的命令进行比较。如果找到完全匹配的指令,助手就会执行相应的操作。如果没有找到匹配项,它会尝试基于已知信息寻找替代方案。如果仍然无法找到合适的指令,你将收到类似“对不起,我不明白”的错误提示。这种模拟理解的行为实际上只是一种错觉。
语音助手无法利用上下文线索进行推断,也无法利用对相关主题的理解来辅助决策。轻易地难倒语音助手并非难事。例如,你可以问 Alexa “你为 NSA 工作吗?” 并得到回应,但是如果你问 “你是 NSA 的秘密成员吗?” 你可能会收到 “我不明白” 的回答(至少在撰写本文时是这样)。
真正理解语言的人类则不然。假设你问一个人:“天空中那个 klarvain 是什么?它呈拱形,充满了红色、橙色、黄色和蓝色等条纹颜色。”尽管 klarvain 是一个虚构的词,但你询问的人可能会根据上下文推断出你是在描述彩虹。
人类在将语音转化为想法的同时,还可以运用知识和理解来得出答案。如果你问一个人是否秘密为 NSA 工作,他们会给你一个肯定或否定的答案,即使答案是谎言。人类不会对这样的问题说“我不知道”。人类说谎的能力恰恰体现了他们对语言真正的理解。
语音助手无法超越编程的限制
语音助手最终只能在其预先编程的参数范围内运行,超出这个范围的操作会导致其功能失效。这在第三方设备交互中尤为明显。通常,这些交互的命令非常繁琐,类似于 “告诉设备制造商执行可选参数的命令”。例如:“告诉惠而浦暂停烘干机”。另一个更为复杂的例子是 日内瓦 Alexa 技能,它可以控制一些 GE 烤箱。该技能的用户需要记住使用 “告诉日内瓦” 而不是 “告诉 GE” ,然后才能输入命令的其余部分。尽管你可以让它将烤箱预热到 350 度,但你却不能接着要求它再将温度提高 50 度。而人类则可以理解并执行这些连续的请求。
亚马逊和谷歌为了克服这些限制付出了巨大的努力,这也说明了这些限制的存在。以前,你需要按照严格的顺序来控制智能锁,而现在你可以简单地说 “锁上前门”。 曾经,Alexa 对于 “给我讲个关于狗的笑话” 感到困惑,但如今它能够理解并执行这个命令。尽管它们已经添加了各种命令的变体,但你仍然必须知道正确的命令才能让助手正常工作,而且必须以正确的语法和顺序表达。
如果你觉得这听起来很像命令行,那么你没有理解错。
语音助手:一个高级的命令行
命令行通常被认为是执行简单任务的工具,但前提是你必须了解正确的语法。如果你输入了错误的语法,例如输入 dyr 而不是 dir,命令提示符就会返回一个错误消息。你可以使用别名来更轻松地记住命令,但你仍然必须了解原始命令的含义、运行方式以及如何有效使用别名。如果你不花时间学习命令行的详细知识,就永远无法从命令行中获益。
语音助手也不例外。你需要知道使用正确的措辞来发出命令或提出问题。你需要了解如何在 Google 和 Alexa 中设置群组,为什么设备分组至关重要,以及如何命名你的智能设备。如果你不遵循这些必要步骤,你可能会感到沮丧,比如当你要求你的语音助手关闭书房时,它却会反问你 “应该关闭哪个书房”。
即使你使用了正确的语法和顺序,该过程仍然可能失败。你可能会得到不正确的响应,或者出现令人意外的结果。同一房屋中的两个 Google Home 可能会给出略有不同的天气预报,即使它们可以访问相同的用户帐户信息和互联网连接。
在上面的例子中,给出了命令 “设置一个半小时的计时器”。Google Home Hub 创建了一个名为 “小时” 的计时器,然后询问计时器应该持续多长时间。然而,在另外三次重复相同命令的情况下,它却正常工作并创建了一个 30 分钟的计时器。而使用命令 “设置一个 30 分钟的计时器” 则可以更稳定地正常工作。
虽然与 Google Home 或 Echo 对话似乎更加自然流畅,但从本质上讲,语音助手和命令行的工作方式是相同的。你可能不需要学习一门新的语言,但你需要学习一种新的方言。
对语音助手理解的限制阻碍其发展
这些限制并没有阻止诸如 Google Assistant 和 Alexa 等语音助手正常工作(尽管 Cortana 表现不佳)。谷歌助手和 Alexa 会在网上搜索问题,而且谷歌在搜索方面表现更好,可以回答简单的数学和测量转换等基本问题。通过正确的智能家居设置和训练有素的用户,大多数智能家居命令可以按预期工作。但这源于工作和努力,而不是真正的理解。
过去,计时器和闹钟很简单。随着时间的推移,添加了命名功能,并且可以为计时器添加时间。它们从简单走向复杂。语音助手能够回答更多的问题,每天都会增加新的技能和功能。但这并不是来源于自我学习和理解能力的进步。
这些助手仍然缺乏利用已知信息来获取未知信息的能力。对于每个有效的命令和问题,总会有三个无效的。在人工智能方面没有重大突破,无法赋予机器类似于人类的理解能力,语音助手就无法成为真正的助手。它们只是语音版的命令行界面——在特定的场景下非常有用,但仅限于它们被编程理解的那些场景。
换句话说,机器正在学习事物,但无法真正理解它们。