探索聊天机器人竞技场:一个比较大型语言模型的平台
面对市面上琳琅满目的在线聊天机器人,挑选一款最符合自身需求的,无疑是一项充满挑战的任务。尽管逐一手动比较每个聊天机器人是可行的,但这种方式既耗时又费力。
相较之下,更高效且便捷的方法是利用聊天机器人竞技场(Chatbot Arena)这一工具,来对比那些支持主流聊天机器人背后的大型语言模型(LLM)。该平台提供了多种模式,用于比较不同的模型,接下来我们将详细介绍。
什么是聊天机器人竞技场?
聊天机器人竞技场由 LMSYS Org 创建,是一个专门用于对各种大型语言模型进行基准测试的平台。它采用 Elo 评分系统,对不同模型进行排名,从而直观地展现各模型的优劣。
聊天机器人竞技场为用户提供了多种评估和比较大型语言模型的方式。根据用户提交的反馈,该平台会在公开排行榜上对不同模型进行排序。值得一提的是,该项目由 HuggingFace 赞助,HuggingFace 被认为是 ChatGPT 的开源替代方案。
如何使用聊天机器人竞技场比较匿名大型语言模型?
聊天机器人竞技场的“对战模式”允许用户匿名地比较大型语言模型。例如,您可以对比 ChatGPT (GPT 3.5) 和 Claude。在此模式下,聊天机器人竞技场会随机选择两个语言模型,并在不告知模型名称的情况下,让用户进行比较。
当您输入第一个提示词后,聊天机器人竞技场会分别从两个模型获取回复,并将它们并排展示。该平台允许您重新生成回复(针对两个模型),并清空对话历史以开始新的对话。您可以持续提出问题,直至选出明显的优胜者。
之后,您可以选择模型 A 或 B 更优。在您选出优胜者后,聊天机器人竞技场会揭示两个机器人的名称。这种模式非常有效,因为它能确保您的选择不受您先前对模型的主观印象或流行程度的影响。聊天机器人竞技场还允许您调整温度、Top P 和最大输出令牌等参数,以便进行更精细的比较。
如何使用聊天机器人竞技场比较指定的大型语言模型?
如果您想比较任意两个特定的大型语言模型,可以切换至聊天机器人竞技场的“并排模式”。这种模式的操作方式与“对战模式”基本相同,但不同之处在于您可以自行选择要比较的大型语言模型。您仍然可以调整参数、重新生成回复、清空历史记录,并最终选出优胜者。
然而,此模式下可供选择的大型语言模型数量有限。目前您可以选择 Llama 2、Vicuna 和 ChatGLM 的不同版本。尽管像 GPT-4、GPT-3.5、Claude 1、Claude 2 等主流大型语言模型尚未在此模式下可用,但聊天机器人竞技场计划在未来添加这些模型。
使用聊天机器人竞技场比较大型语言模型
无论您是想要寻找最适合您需求的聊天机器人,还是仅仅出于好奇想测试不同的语言模型,聊天机器人竞技场都是一个优秀的平台。
它提供了一种简化的方法,可以并排比较不同的语言模型。而且,由于该平台会根据用户反馈维护排行榜,您可以直接查看各种模型的排名,而无需亲自进行测试。