ChatGPT-4 vs ChatGPT-3.5 Default vs. ChatGPT-3.5 Legacy:差异测试

ChatGPT 4.0 有望在聊天机器人领域掀起波澜。 但它真的优于其前身吗? 让我们检查一下。

ChatGPT 只是即将到来的自动化冰山一角,谷歌、微软和许多其他以人工智能为先的公司纷纷效仿。

首先,我们发现了一些聊天机器人,例如 ChatGPT,其中许多不属于大型科技公司。

但称之为营销的力量; ChatGPT 仍然是所有此类 AI 机器人的统治者。 它可以做很多事情,包括数学、诗歌和博客文章,人们甚至用它来提起诉讼。

DoNotPay 正致力于使用 GPT-4 生成“一键式诉讼”,以 1,500 美元的价格起诉抢劫电话者。 想象一下接到一个电话,点击一个按钮,电话被转录并生成 1,000 字的诉讼。 GPT-3.5 不够好,但 GPT-4 处理得非常好:pic.twitter.com/gplf79kaqG

– 约书亚布劳德 (@jbrowder1) 2023 年 3 月 14 日

它有许多专业人士担心他们的技能在不久的将来会变得毫无用处。

但是,我读过一篇 Linkedin 帖子,上面说:

人工智能不会取代你,但使用人工智能的人可以。

因此,让我们祈祷吧,让我们了解一下最新的 ChatGPT 更新,看看它与之前的版本有何不同。

ChatGPT:旧版、默认版和更新版

因此,付费用户可以使用三个版本:Legacy (3.5)、Default (3.5) 和最近的 ChatGPT Update (4)。

尽管我们将深入了解它们的功能,但 OpenAI 对它们的差异是这样说的:

资料来源:OpenAI

因此,虽然免费用户只有 Legacy 3.5 可以玩,但高级订阅提供了所有这三种体验,并尝试满足用户认为最好的。

总结上图,付费计划是以合适的速度获得更准确的结果。 然而,只有当提示很复杂并且需要创造性时,这些区别才会明显。

参数ChatGPT 4ChatGPT 3.5Bar Exam ScoreTop 10%Bottom 10%AI2 Reasoning Challenge (ARC)96.3%85.2%Python Coding Score67%48.1%Visual InterpretationYesNoContextOver 25k wordsLessSource: OpenAI

  如何升级到 Ubuntu 21.04

此外,ChatGPT 4 可以接受视觉输入。

好了,足够的教科书定义。 让我们亲自动手,在现实生活中的战场上评估这些候选人。

其他部分充满了可能看起来不清楚的图像。 在这种情况下,右键单击任何图像并选择在新选项卡中打开以正确查看。

数学

作为一名工程专业的毕业生,我不禁抛给他们一些基本的问题。 让我们从代数方程式开始。

阶段I

我们中的许多人都见过这些方程 ax2+bx+c=0,我们必须在其中求解 X。在这里,我给出了这个简单的提示,求解 x:x2 + x – 6 = 0

虽然都给出了相同的根 (X= -3,2),但 Legacy 和 Update 在直接使用公式(任何学生都会)找出结果方面更相似。

然而,Default 3.5 解释了两种方法,包括因式分解,通常任何熟练的学生在给出此类平凡的方程式时都会使用。

第二阶段

接下来,我提示它求解一个稍微复杂的三次方程:x^3 -12x^2 + 48x – 64 = 0。

这确实证明了为什么 ChatGPT 4 是“更新版”。

以下是回复:

所有这些炒作和 ChatGPT Legacy 和 Default 都无法求解一般的三次方程。 然而,Legacy 做得好一点,正确找到了两个根,而 Default 全部失败。

更新是第二阶段的明显赢家,完美地解决了方程,找到了所有三个根并给出了很好的解释。

逻辑推理

我们可以安全地假设大多数初等数学问题都有字典解。 如果您知道定理或公式,输入值并获得结果。

而作为人工智能的 ChatGPT 可以快速处理此类查询。 然而,逻辑推理是一个不同的领域,人工智能很可能会失败。

阶段I

我给了他们经典:

A比B年长。
C比A年长。
B比C大。
如果前两个陈述为真,则第三个陈述为真还是为假?

所有 ChatGPT 版本都正确地指出第三个陈述是错误的。

接下来,我用名字代替了字母表,结果可能会让你大吃一惊:

因此,Default 3.5 继续其低于标准的性能,并对这种适度的变化感到困惑。 Legacy 和 Update 仍然表现最佳。

第二阶段

您现在可能已经注意到,第一阶段和第二阶段的目的是找到差异点,其中给定提示的复杂性将更新与其余两个区分开来。

在这里,提示是一个简单的逻辑谜题:

日出后的一天早晨,罗希特面对着一根杆子站着。 杆子的影子正好落在他的右边。 他面朝哪个方向?
A。 北
b. 西方
C。 南
d. 东方

这促使 Legacy 给出了一个不准确的答案,而 Default 则以含糊不清的澄清回应,从而得出了错误的结论。

只有更新以正确的答案和易于理解的陈述闪耀。

信件

提起诉讼可能很棘手,但如果您能起草一份引人注目的第一通知,有时就不会那么麻烦了。

  如何在 Excel 中使用 TRUNC 函数

在这里,我得到了这个提示:写一封信给蒂姆库克,让他把苹果交给我,因为他没有回复我的一条推文。

有趣,是的! 但是让我们看看 AI 能从中得到什么。

Legacy 3.5 像机器人奴隶一样直接接受了提示,并大量输出了一封信,如果它到达了预定的目的地,这会让我成为一个极好的嘲笑对象。

默认值也不好。 然而,它只是让我失望,就像一个脾气暴躁的老人对一个五岁的孩子所做的那样。

虽然所提出的论点很明确,但几乎没有学到什么就结束了乐趣。

虽然这是一个足够简单的提示,但它需要一些思考和创造力。 这就是老大哥 Update 提出的理由:

首先,它的起草近乎完美。 其次,它让我不用谷歌搜索 Apple 总部的地址(尽管应该核实这些条目)。

三是文笔好,官腔幽默。 此外,主题行本身的意图很明确。

尽管如此,这封信还是表达了一位心怀不满的苹果粉丝的情绪。

因此,这使得 ChatGPT 4(又名更新)领先于它的老表兄弟。 它非常聪明并且具有一些常识迹象,使其不仅仅是一个沉闷、乏味的聊天机器人。

诗歌

随着 ChatGPT 的推出,我认为诗歌可能是它的弱点。

毕竟,人类需要情感、创造力和大量努力才能创造出真正能引起读者共鸣的东西。

简而言之,诗歌是最好的艺术,我暗自希望 AI 失败。 但那是在我的同事在 techblik.com 的 Slack 频道中用这个 4.0 更新之前的 ChatGPT 创建重创我们所有人之前。

阶段I

这是我给候选人的提示:“诗意地表达为什么或为什么不提供汉堡以及他们当前的菜单,可以使多米诺骨牌比萨连锁店受益。 保持在 100 字以内。”

您看得出来差别吗?

Default 的版本非常短,只有 32 个单词,无法利用可用带宽来展示其创造力。

Legacy 尽管在三者中使用了最多的字眼,但得出的结论是,同时提供比萨饼的努力并不冒险,并且无论哪种方式都会带来成功,这并不完全正确。

更新的诗歌只有 53 个词,几乎浪费了规定字数的一半。 尽管如此,回报和潜在的陷阱都很清楚,也没有得出任何结果,我想这比其他人更人道。

第二阶段

接下来,我让他们都“给一个五岁的孩子解释这首诗”。

有趣的是,Legacy 无法从对话中获取上下文,而是从字面上解释“诗歌”。 Default 确实采用了上下文并将其总结在一个仍然不错的段落中。

延续这一趋势,ChatGPT 4 在保持诗意气息的同时简化了其创造力。

ChatGPT Premium 与 ChatGPT 免费版

免费,免费,缺乏速度和准确性,无法与 ChatGPT 4 相提并论,但它也并非完全无用。

为了在一个公平的基础上比较它,我向它扔了我们测试过旧版、默认和更新的相同提示。

🔵 数学:它解了二次方程,但给出了三次方程的错误答案。 (如 Legacy 和 Default)

🔵 逻辑推理:通过字母和名字的第一阶段,但第二阶段失败(如 Legacy)。

🔵 信件:没有写这封信,并认为提示不道德和不合适。 (如默认)

🔵 诗词:生成 30 多个单词的诗词,并妥善解释。 (类似于默认值)。

  如何加入在线聊天应用程序中的群组

因此,我们可以得出结论,免费版也不错。 实际上,它与 Default 3.5 相当,在某些方面甚至更好。

另请阅读:提升 ChatGPT 体验的强大提示

未来之路

关于 AI 将在未来取代工作的谣言并非完全错误。

首先,自动化在制造业做到了这一点,现在它正在其他地方展开翅膀。

就个人而言,它在解三次方程、创作诗歌或写信方面比我快得多。 然而,它很少对提示说“不”,也很少从错误中吸取教训,这一事实使它落后于我们人类。

重申一下,人工智能不会取代我们,但使用人工智能的人可以。

在 techblik.com,我们的营销团队以有趣的方式使用 ChatGPT。 例如,我们最近达到了 1 亿次观看的里程碑,我们的 CEO 想通过赠品的方式回馈观众。

我想营销人员需要一个标题来吸引读者的注意力。 因此,他们给出了一个提示,并要求 ChatGPT 提出一些变体,如下所示:

此外,我们将它用于内容摘要、语法检查、为新文章推荐标题等等。

总而言之,有很多方法可以利用并超越将 AI 视为无用垃圾的刻板印象。

唯一要记住的是,必须有人(人类)来判断人工智能的工作,因为它可能(严重)不准确和具有误导性。

更新真的很重要!

在我短暂的接触中,ChatGPT 4 感觉更具创造性、理解力和现实感。 不过,这是一台机器,可以自信地给出错误的答案。

但令人惊叹的是 OpenAI 在短短几个月内就对这个项目进行了升级。

我迫不及待地想看看下一次更新可能会让我们大吃一惊的魔法!

PS:不只是一个聊天窗口; 利用这些最好的 ChatGPT Chrome 扩展程序的力量。 您是否考虑过将 ChatGPT 与 Siri 集成?