图灵测试已经过时了吗? 5 个图灵测试替代方案

图灵测试的局限性及未来替代方案

七十多年前,在人工智能概念刚被提出时,艾伦·图灵就发表了一篇论文,阐述了如何识别人工智能。这篇论文后来催生了图灵测试,几十年来,它一直是衡量机器是否具有人类智能的标准。

然而,随着诸如ChatGPT和谷歌Bard等高级人工智能聊天机器人的出现,辨别对话对象是人类还是AI变得越来越困难。这引发了一个问题:图灵测试是否已经过时?如果答案是肯定的,那么有哪些可行的替代方案?

图灵测试是否过时?

图片来源:Jesus Sanz/Shutterstock

要判断图灵测试是否过时,首先需要了解它的运作方式。人工智能要通过图灵测试,必须让提问者相信它是人类。然而,这个测试有一个关键限制:人工智能需要与人类一同接受评估,并且只能通过文本进行交流。

不妨这样思考:如果你是提问者,通过在线文本向两位参与者提问,其中一位是人工智能模型,你能在五分钟内区分它们吗?需要注意的是,图灵测试的目的不是根据正确答案来识别AI,而是评估AI是否具备像人类一样的思考或行为能力。

图灵测试只关注类人反应,而忽略了其他重要因素。例如,AI模型的智能程度,以及提问者的认知水平。此外,图灵测试仅限于文本交流,这使得识别能够生成人声或模拟人类行为的深度伪造AI变得越来越困难。

尽管如此,目前的人工智能模型(如ChatGPT-4和谷歌Bard)尚未达到可以持续通过图灵测试的程度。如果你对人工智能比较了解,仍然可以辨别出AI生成的文本。

五种最佳图灵测试替代方案

未来的人工智能模型,如ChatGPT-5,有可能通过图灵测试。如果这种情况发生,我们需要采用不同的测试方法,才能判断对话对象是AI还是人类。以下是几种值得考虑的图灵测试替代方案:

1. 马库斯测试

著名认知科学家和人工智能研究员加里·马库斯(Gary Marcus)在《纽约客》上发表了一篇论文,提出了图灵测试的替代方案,以评估人工智能的认知能力。马库斯测试的核心是让人工智能观看没有字幕或文本的YouTube视频和电视节目,并根据其理解能力来判断。要通过马库斯测试,人工智能需要理解讽刺、幽默、反讽和故事情节,并像人类一样解释视频内容。

目前,GPT-4可以描述图像,但还没有能够像人类一样理解视频的AI模型。自动驾驶汽车虽然取得了一定进展,但仍需依赖传感器,无法完全理解周围环境。

2. 视觉图灵测试

根据发表在《美国国家科学院院刊》上的研究,视觉图灵测试可以通过图像问卷来辨别对话对象是人类还是AI。它与图灵测试类似,但不是使用文本回答问题,而是向参与者展示图像,并期望他们像人类一样思考并回答简单的问题。 视觉图灵测试与验证码不同,因为所有答案都是正确的,关键在于AI处理图像的方式要像人类一样。

此外,如果并排向AI和人类展示多张图像,并要求识别真实的图像,人类将更有能力通过测试。这是因为AI模型难以区分那些看起来不像在现实世界中拍摄的图像。事实上,这也是为什么你可以通过识别不合常理的异常来区分AI生成的图像。

3. 洛夫莱斯2.0测试

艾达·洛夫莱斯在图灵测试之前就提出了一个观点:计算机无法创造出超出其编程范围的原创想法。艾伦·图灵则对此持反对意见,他认为人工智能仍然可以给人类带来惊喜。直到2001年,洛夫莱斯测试的指导方针才被制定出来,用于区分AI和人类。根据库兹韦尔图书馆的说法,该规则后来在2014年进行了修订。

要通过洛夫莱斯测试,人工智能必须证明它可以产生超出其训练数据的原创想法。目前的人工智能模型(如GPT-4)尚不具备提出超出我们现有知识的新发明的能力。然而,通用人工智能可能会实现这种能力,并通过洛夫莱斯测试。

4. 反向图灵测试

如果反过来做图灵测试会怎样?反向图灵测试的目的不是试图找出你是否在与人交谈,而是欺骗人工智能,让它相信你是AI。为此,你需要另一个AI模型来回答相同的问题。

例如,如果ChatGPT-4是提问者,你可以让谷歌Bard和一位人类作为参与者。如果AI模型能够根据答案正确识别出人类参与者,那么它就通过了测试。

反向图灵测试的缺点是它不够可靠,尤其考虑到有时人工智能无法区分AI生成的内容和人类编写的内容。

5. AI分类框架

根据克里斯·萨阿德开发的AI分类框架,图灵测试只是评估对话对象是否为AI的一种方法。简单来说,AI分类框架基于多元智能理论,认为人类智能至少满足八个不同的标准,包括:音乐节奏智能、逻辑数学智能、视觉识别智能、情感智能、自我反思智能、存在思维能力和身体运动智能。

由于AI需要根据八个不同的参数进行评估,即使它在某些基准测试中表现优异,它也很难通过人类测试。例如,ChatGPT可以解决数学问题、描述图像并像人类一样用自然语言进行交流,但它无法满足AI分类框架中定义的其他类别。

图灵测试并非决定性的

图灵测试与其说是一个结论性的测试,不如说是一个思想实验,它无法绝对区分人类和人工智能。在最初被提出时,它确实是衡量机器智能的重要标准。

然而,随着最近具有语音、视觉和听觉交互能力的AI模型的出现,图灵测试由于仅限于文本对话而显得不足。最有效的解决方案是引入图灵测试的替代方案,以便更准确地区分AI模型和人类。