核心要点
- 谷歌 Gemini 1.5 引入了一百万个令牌的上下文窗口,这一壮举超越了包括 Claude 和 ChatGPT 在内的竞争对手。
- 更大的上下文窗口虽然可以提升人工智能模型的表现并减少错误,但并不能保证整体的成功。
- Gemini 1.5 扩大的上下文窗口有望显著提高准确性,减少错误,并深化理解能力。
谷歌 Gemini 1.5 现已配备高达一百万个令牌的巨大上下文窗口,使其在与 ChatGPT、Claude 及其他人工智能聊天机器人的竞争中脱颖而出。
这无疑是一项重大升级,预示着 Gemini 将在众多AI模型中独树一帜。 尽管其影响范围难以完全把握,但 Gemini 强大的上下文窗口很可能成为行业的颠覆者。
什么是上下文窗口?
当人工智能模型响应你的查询,例如解释概念或总结文本时,它所能考虑的数据量是有限的。 这个文本大小的限制被称为上下文窗口。
换一个角度理解:想象一下你去杂货店购物,但没有购物清单。 你在购物时能记住的杂货数量的限制就如同你的上下文窗口。 你能记住的杂货越多,购物计划不被打乱的可能性就越大。 类似地,人工智能模型的上下文窗口越大,它就能记住更多必要信息,从而给出最佳结果。
目前,Anthropic 的 Claude 2.1 拥有 20 万令牌的上下文窗口,是通用人工智能模型中最大的。 紧随其后的是 GPT-4 Turbo,其上下文窗口为 12.8 万令牌。 而 Google Gemini 1.5 带来了一百万令牌的上下文窗口,是目前市场上任何产品的四倍。 这不禁让人深思:一百万令牌的上下文窗口究竟意味着什么?
Gemini 1.5 的上下文窗口为何如此重要
从更直观的角度来看,Claude AI 的 20 万令牌上下文窗口意味着它可以消化一本大约 15 万字的书并作出回应。 这已经相当惊人。 而 Google 的 Gemini 1.5 一次就能够处理 70 万个单词!
当你向 ChatGPT 或 Gemini 等人工智能聊天机器人输入大量文本时,它会尽可能消化,但其能处理的程度取决于其上下文窗口的大小。 如果你与只能处理 2.8 万字的模型进行了 10 万字的对话,然后开始提出需要它理解全部 10 万字对话的问题,那么你实际上是在制造失败的局面。
想象一下,你看了一部一小时电影的前 20 分钟,然后被要求解释整部电影的情节。 你的解释会准确吗? 你要么拒绝回答,要么胡编乱造。 这也正是人工智能聊天机器人可能会做的事,导致“人工智能幻觉”的产生。
也许你认为自己永远不会需要向聊天机器人输入 10 万字的内容,但这并非事情的全部。 上下文窗口的范围不仅仅局限于你在单个提示中提供给人工智能模型的文本。 模型还会考虑你整个聊天过程中的对话,以确保其回应尽可能相关。
因此,即使你没有向它提供一本 10 万字的书,你的来回对话以及它所给出的回复都会被纳入上下文窗口的计算中。 你是否想过为什么 ChatGPT 或 Google Gemini 有时会忘记你之前说过的事情? 可能是因为它们用完了上下文窗口的空间,开始忘记了之前的信息。
更大的上下文窗口对于那些需要深入理解上下文的任务尤为重要,例如总结长篇文章、回答复杂问题,或者在生成的文本中保持连贯的叙述。 你想写一本 5 万字的小说,并确保其叙事连贯吗? 你需要一个能够“观看”一小时视频文件并回答问题的模型吗? 那你需要更大的上下文窗口!
简而言之,Gemini 1.5 更大的上下文窗口有可能显著提升其人工智能模型的性能,减少幻觉,大幅提高准确性,并更好地遵循指令。
Gemini 1.5 能否不负众望?
如果一切顺利,Gemini 1.5 的表现有可能超越市场上现有的人工智能模型。 然而,考虑到谷歌在构建稳定的人工智能模型方面有过几次失败的经历,谨慎对待是明智的。 单纯增加模型的上下文窗口并不能自动提升其性能。
自发布以来,我已经使用 Claude 2.1 的 20 万令牌上下文窗口几个月了,我得出的结论是,更大的上下文窗口确实可以提高上下文的敏感度,但是核心模型性能的问题可能会使更大的上下文窗口变得无关紧要。
Google Gemini 1.5 是否会成为改变游戏规则的产品? 目前,社交媒体上充斥着早期体验用户对 Gemini 1.5 的热情评论。 然而,这些五星好评大多来自仓促或过于简化的用例。 要深入了解 Gemini 1.5 在真实环境中的表现,一个不错的方法是参考 Google 发布的内部 Gemini 1.5 技术报告 [PDF]。 该报告显示,即使在“受控测试”环境下,该模型也无法在其上下文窗口范围内很好地检索文档的每一个细节。
一百万令牌的上下文窗口的确是一项令人印象深刻的技术成就,但如果它无法可靠地检索文档的详细信息,那么更大的上下文窗口几乎没有实际价值,甚至可能导致准确性下降和产生“幻觉”。