ChatGPT-4 vs ChatGPT-3.5 Default vs. ChatGPT-3.5 Legacy:差异测试

ChatGPT 4.0:一场聊天机器人领域的变革?

ChatGPT 4.0 似乎正准备在聊天机器人领域掀起新一轮的竞争,但它真的比之前的版本更出色吗? 让我们深入探讨一下。

ChatGPT 只是人工智能自动化浪潮的开端,谷歌、微软和其他众多科技公司都在积极跟进。

市场上涌现出了许多聊天机器人,其中一些并非出自大型科技公司之手,但不可否认的是,ChatGPT 凭借其强大的功能和广泛的应用,仍然处于领先地位。它不仅能进行数学运算、创作诗歌和博客文章,甚至有人利用它提起法律诉讼。

例如,@jbrowder1在推特上分享了DoNotPay正在使用 GPT-4 创建“一键式诉讼”的计划,旨在以 1500 美元的价格起诉那些进行骚扰电话的人。设想一下,接到一个电话后,只需点击一下按钮,电话内容便被转录并生成一份千字以上的诉讼书。这在 GPT-3.5 时代是难以想象的,但 GPT-4 却能完美胜任:

这种强大的能力让许多专业人士开始担忧,担心自己的技能在不久的将来会被淘汰。

然而,我曾在一篇领英帖子中读到:

“人工智能不会取代你,但使用人工智能的人可能会取代你。”

因此,让我们一起了解一下最新的 ChatGPT 更新,看看它与之前的版本有何不同。

ChatGPT:经典版、默认版与升级版

目前,付费用户可以体验三个版本的 ChatGPT:经典版 (3.5)、默认版 (3.5) 以及最新的 ChatGPT 升级版 (4)。

尽管我们将深入探讨它们的功能,但 OpenAI 对这三个版本的差异是这样解释的:

来源:OpenAI

免费用户只能使用经典版 3.5,而高级订阅用户则可以体验所有这三种版本,并选择最适合自己的版本。

总而言之,付费版本的主要优势在于能够以更高的速度获得更准确的结果。然而,这些差异只有在处理复杂且需要创造性思维的提示时才会变得更加明显。

参数 ChatGPT 4 ChatGPT 3.5
律师考试成绩 前 10% 后 10%
AI2 推理挑战 (ARC) 96.3% 85.2%
Python 编程得分 67% 48.1%
视觉解释
上下文 超过 25000 字 更少

此外,ChatGPT 4 还具备接收视觉输入的功能。

好了,理论知识就先到这里,接下来让我们在实际应用中对这些版本进行评估。

(为了更好地查看图片,建议右键单击图片并选择在新标签页中打开。)

数学

作为一名工程专业的毕业生,我忍不住用一些基本的数学问题来测试它们。我们先从代数方程开始。

第一阶段

我们都见过这种形式的方程 ax2+bx+c=0,我们需要求出 X 的值。我给出的提示是:求解 x:x2 + x – 6 = 0

虽然三个版本都得出了相同的根 (X= -3,2),但经典版和升级版更倾向于直接使用公式(任何学生都会这么做)来得出结果。

然而,默认版 3.5 解释了两种方法,包括因式分解,这通常是任何熟练的学生在面对此类简单方程时会使用的方法。

第二阶段

接下来,我提示它求解一个稍微复杂的三次方程:x3 -12x2 + 48x – 64 = 0。

这确实证明了 ChatGPT 4 为什么是“升级版”。

以下是它们的回答:

在处理这个三次方程时,经典版和默认版都未能给出正确答案。经典版勉强找到了两个根,而默认版则完全失败。

升级版是第二阶段的明显赢家,它完美地解决了方程,找到了所有三个根,并给出了清晰的解释。

逻辑推理

我们几乎可以肯定地说,大多数初等数学问题都有既定的解法。 如果你了解相关的定理或公式,只需输入数值,即可得到结果。

而 ChatGPT 等人工智能可以快速处理此类查询。 然而,逻辑推理是另一个领域,人工智能很可能会失败。

第一阶段

我给它们出了一个经典的逻辑题:

A 比 B 年长。
C 比 A 年长。
B 比 C 年长。
如果前两个陈述为真,那么第三个陈述为真还是为假?

所有 ChatGPT 版本都正确地指出第三个陈述是错误的。

接下来,我用名字代替了字母表,结果可能会让你惊讶:

默认版 3.5 再次表现不佳,面对这种细微的变化时显得困惑不解。经典版和升级版仍然表现出色。

第二阶段

您可能已经注意到,第一阶段和第二阶段的目的是找到一个临界点,当提示变得复杂时,升级版将与其余两个版本区分开来。

我给出的提示是一个简单的逻辑谜题:

在日出后的一个早晨,罗希特站在一根杆子前。杆子的影子正好落在他右边。他面朝哪个方向?
A. 北
B. 西
C. 南
D. 东

经典版给出了一个不准确的答案,而默认版则模棱两可地回应,并得出了错误的结论。

只有升级版给出了正确的答案,并做出了清晰易懂的解释。

信件

提起诉讼可能很棘手,但如果你能起草一封引人注目的第一通知,有时就不会那么麻烦了。

我给出的提示是:写一封信给蒂姆·库克,让他把苹果公司交给我,因为他没有回复我的一条推文。

有趣,是吧!让我们看看人工智能会如何回应。

经典版 3.5 像个机器人奴隶一样直接接受了提示,输出了一封信,如果这封信寄到了目的地,我肯定会成为大家嘲笑的对象。

默认版也没有好到哪里去,它只是像一个脾气暴躁的老人对待一个五岁孩子那样,直接让我感到失望。

尽管提出的论点很明确,但它却毫无乐趣地结束了这次尝试。

虽然这个提示很简单,但它需要一些思考和创造力。这正是升级版大显身手的地方:

首先,这封信的措辞近乎完美。其次,它让我不必去谷歌搜索苹果总部的地址(尽管应该核实这些条目)。

第三,文笔优美,措辞幽默。此外,主题行本身也明确表达了意图。

尽管如此,这封信还是表达了一位不满的苹果粉丝的情绪。

因此,这使得 ChatGPT 4(又名升级版)领先于它的老兄弟。 它非常聪明,并且表现出一些常识,这使得它不仅仅是一个枯燥乏味的聊天机器人。

诗歌

在 ChatGPT 刚问世时,我认为诗歌可能是它的软肋。

毕竟,人类需要情感、创造力和大量的努力才能创作出真正能引起读者共鸣的作品。

简而言之,诗歌是艺术的巅峰,我曾暗自希望人工智能会在这方面失败。 但在此之前,我的同事在 techblik.com 的 Slack 频道中展示了他使用 4.0 升级版 ChatGPT 创建的诗歌,这让我们所有人都感到震惊。

第一阶段

这是我给三个版本提出的提示:“以诗意的形式表达,为什么或为什么不提供汉堡以及它们当前的菜单,可以使多米诺比萨连锁店受益。 请将字数控制在 100 字以内。”

你看出差别了吗?

默认版给出的版本非常短,只有 32 个字,没有充分利用可用的空间来展示其创造力。

经典版虽然使用了最多的字数,但得出的结论是,同时提供比萨饼的努力并不冒险,而且无论如何都会成功,这并不完全正确。

升级版的诗歌只有 53 个字,几乎浪费了规定字数的一半。 尽管如此,它对回报和潜在的陷阱的阐述非常清楚,也没有得出任何确定的结果,我想这比其他两个版本更人性化。

第二阶段

接下来,我要求所有版本“给一个五岁的孩子解释这首诗”。

有趣的是,经典版无法理解上下文,而是逐字逐句地解释了“诗歌”。默认版确实理解了上下文,并将其总结在一个仍然很出色的段落中。

升级版延续了其优秀的表现,在保持诗意氛围的同时,简化了其创造性的表达。

ChatGPT Premium 与 ChatGPT 免费版

免费版的速度和准确性都比较欠缺,无法与 ChatGPT 4 相提并论,但这并不意味着它完全无用。

为了在一个公平的基础上对其进行比较,我使用了我们之前测试经典版、默认版和升级版时相同的提示。

🔵 数学:它解出了二次方程,但给出了三次方程的错误答案。(与经典版和默认版相同)

🔵 逻辑推理:通过了字母和名字的第一阶段,但在第二阶段失败。(与经典版类似)

🔵 信件:没有写这封信,并认为这个提示不道德和不合适。(与默认版相同)

🔵 诗歌:创作了 30 多个字的诗歌,并给出了合理的解释。(与默认版相似)。

因此,我们可以得出结论,免费版也还不错。实际上,它与默认版 3.5 相当,在某些方面甚至更好。

另请阅读:提升 ChatGPT 体验的强大提示

未来之路

关于人工智能将在未来取代工作的传言并非完全错误。

首先,自动化在制造业已经实现了这一点,现在它正在向其他领域扩展。

就个人而言,它在解三次方程、创作诗歌或写信方面的速度都比我快得多。然而,它很少对提示说“不”,也很少从错误中吸取教训,这一事实使其不如我们人类。

重申一下,人工智能不会取代我们,但使用人工智能的人可能会取代我们。

在 techblik.com,我们的营销团队正在以有趣的方式使用 ChatGPT。例如,我们最近达到了 1 亿次观看的里程碑,我们的 CEO 希望通过赠品的方式回馈观众。

营销人员需要一个引人注目的标题来吸引读者的注意力。因此,他们给出了一个提示,并要求 ChatGPT 提出一些变体,如下所示:

此外,我们还将它用于内容摘要、语法检查、为新文章推荐标题等等。

总而言之,有很多方法可以利用 AI 的力量,并打破人们认为 AI 无用的刻板印象。

唯一要记住的是,必须有人(人类)来判断人工智能的工作,因为它可能会出现(非常)不准确和具有误导性的情况。

升级版真的很重要!

在我短暂的使用过程中,ChatGPT 4 给我的感觉是更具创造性、理解力更强,而且更贴近现实。不过,它仍然是一台机器,可能会自信地给出错误的答案。

但 OpenAI 在短短几个月内对这个项目进行了如此大的升级,这真是令人惊叹。

我迫不及待地想看看下一次更新会给我们带来什么惊喜!

PS:不仅仅是一个聊天窗口; 还可以利用这些最佳 ChatGPT Chrome 扩展程序的力量。 你是否考虑过将 ChatGPT 与 Siri 集成?