排行榜错觉:大型科技公司如何扭曲聊天机器人竞技场上的人工智能排名

Meta、谷歌和 OpenAI 据称利用 Chatbot Arena 上未公开的私人测试来获得最高排名,引发了人们对人工智能模型基准测试公平性和透明度的担忧。

一项新的研究表明,少数占主导地位的人工智能公司一直在悄悄操纵聊天机器人模型最有影响力的公共排行榜之一,这可能会扭曲对模型性能的看法并破坏公开竞争。

这项名为“排行榜错觉”的研究由来自 Cohere Labs、斯坦福大学、普林斯顿大学和其他机构的专家团队发表。它审查了 Chatbot Arena 的运营情况,这是一个广泛使用的公共平台,允许用户通过对模型对用户提示的响应进行成对投票来比较生成人工智能模型。

研究显示,包括 Meta、Google 和 OpenAI 在内的主要科技公司都获得了在 Chatbot Arena 上私下测试其人工智能模型的多个版本的特权。研究发现,通过有选择地仅发布性能最高的版本,这些公司能够提高其排名。

“Chatbot Arena 目前允许一小部分首选提供商私下测试多个模型,并且仅提交最终首选版本的分数,”学习说。

Chatbot Arena、谷歌、Meta 和 OpenAI 没有回应对该研究的评论请求。

私人测试特权影响排名

Chatbot Arena 于 2023 年推出,已迅速成为通过成对人类比较评估生成式 AI 模型的首选公共基准。然而,这项新研究揭示了破坏其完整性的系统性缺陷,最明显的是特定开发人员进行未公开的私人测试的能力。

据报道 Meta 测试了 27 个单独的一个月内的变体发布。谷歌和亚马逊还提交了多个隐藏变体。相比之下,大多数较小的公司和学术实验室只提交了一两个公共模型,并不知道这种幕后评估是可能的。

研究人员认为,这种“N 中最佳”提交策略违反了 Bradley-Terry 模型的统计假设——Chatbot Arena 使用该算法根据面对面的比较对人工智能系统进行排名。

为了证明这种做法的效果,研究人员在 Chatbot Arena 上进行了自己的实验。在一种情况下,他们以不同的别名提交了同一模型的两个相同的检查点。尽管功能相同,但这两个版本的得分却截然不同——排行榜上相差 17 分。

在另一个案例中,提交了同一模型的两个略有不同的版本。与 Chatbot Arena 的反馈动态更加一致的变体比其同类产品高出近 40 分,有 9 个模型在最终排名中落在两者之间。

对数据的不成比例的访问

排行榜的扭曲不仅仅与测试特权有关。该研究还强调了严重的数据访问不平衡。 Chatbot Arena 在每次模型比较期间收集用户交互和反馈数据,这些数据对于训练和微调模型至关重要。

OpenAI 和 Google 等专有法学硕士提供商获得了不成比例的大量数据。根据该研究,OpenAI 和 Google 分别收到了全部 Arena 数据的 19.2% 和 20.4%。相比之下,83 个开放权重模型仅共享 29.7% 的数据。完全开源的模型(其中包括许多来自学术和非营利组织的模型)总共只收到了总数据的 8.8%。

这种不均匀的分布源于优惠采样率(即更频繁地向用户展示专有模型)以及不透明的弃用实践。该研究发现,243 个公共模型中有 205 个已被悄悄弃用——这意味着它们在没有通知的情况下被从平台中删除或排除——而且开源模型受到的影响尤为严重。

该研究指出:“弃用对开放权重和开源模型产生了不成比例的影响,随着时间的推移,造成数据访问的巨大不对称。”

这些动态不仅有利于最大的公司,而且还使新进入者或较小的进入者更难收集足够的反馈数据来改进或公平竞争。

排行榜分数并不总是反映现实世界的能力

该研究的主要发现之一是,访问特定于竞技场的数据可以显着提高模型的性能 - 但仅限于排行榜本身的范围内。

在对照实验中,研究人员使用不同比例的 Chatbot Arena 数据来训练模型。当 70% 的训练数据来自 Arena 时,模型在 ArenaHard(反映 Arena 分布的基准集)上的性能增加了一倍多,胜率从 23.5% 上升到 49.9%。

然而,这种性能提升并没有转化为更广泛的学术基准的收益,例如大规模多任务语言理解(MMLU),这是一个旨在通过评估模型来衡量预训练期间获得的知识的基准。事实上,MMLU 的结果略有下降,表明模型正在针对 Arena 环境进行自我调整。

该研究警告说:“由选择性数据和测试驱动的排行榜改进并不一定反映模型质量的更广泛进步。”

呼吁透明度和改革

该研究的作者表示,这些发现凸显了公共人工智能基准管理方式迫切需要改革。

他们呼吁提高透明度,敦促 Chatbot Arena 组织者禁止撤回分数,限制测试的私人变体的数量,并确保提供商之间公平的采样率。他们还建议排行榜维护并发布已弃用模型的全面日志,以确保清晰度和问责制。

研究补充说:“没有合理的科学理由允许少数首选提供商选择性地披露结果。” “这使得 Arena 分数向上倾斜,并允许少数首选提供商争夺排行榜。”

研究人员承认,Chatbot Arena 的启动初衷是最好的——在人工智能快速发展的时期提供一个动态的、社区驱动的基准。但他们认为,连续的政策选择和来自商业利益的日益增长的压力已经损害了其中立性。

虽然聊天机器人竞技场的组织者此前承认需要更好的治理,包括在博客文章该研究于 2024 年底发表,表明当前的努力不足以解决系统性偏见。

这对人工智能行业意味着什么?

这些启示出现之际,生成式人工智能模型在商业、政府和社会中发挥着越来越重要的作用。评估人工智能系统部署的组织——从聊天机器人和客户支持到代码生成和文档分析——通常依赖公共基准来指导购买和采用决策。

如果这些基准受到损害,依赖于它们的决策也会受到影响。

研究人员警告说,基于竞技场排名对模型优越性的看法可能会产生误导,特别是当顶级排名更多地受到内部访问和战术披露的影响而不是实际创新时。

研究指出:“扭曲的记分板不仅会误导开发人员。” “它误导了所有押注人工智能未来的人。”