排行榜錯覺:大型科技公司如何扭曲聊天機器人競技場上的人工智能排名

Meta、谷歌和 OpenAI 據稱利用 Chatbot Arena 上未公開的私人測試來獲得最高排名,引發了人們對人工智能模型基準測試公平性和透明度的擔憂。

一項新的研究表明,少數占主導地位的人工智能公司一直在悄悄操縱聊天機器人模型最有影響力的公共排行榜之一,這可能會扭曲對模型性能的看法並破壞公開競爭。

這項名為“排行榜錯覺”的研究由來自 Cohere Labs、斯坦福大學、普林斯頓大學和其他機構的專家團隊發表。它審查了 Chatbot Arena 的運營情況,這是一個廣泛使用的公共平台,允許用戶通過對模型對用戶提示的響應進行成對投票來比較生成人工智能模型。

研究顯示,包括 Meta、Google 和 OpenAI 在內的主要科技公司都獲得了在 Chatbot Arena 上私下測試其人工智能模型的多個版本的特權。研究發現,通過有選擇地僅發布性能最高的版本,這些公司能夠提高其排名。

“Chatbot Arena 目前允許一小部分首選提供商私下測試多個模型,並且僅提交最終首選版本的分數,”學習說。

Chatbot Arena、谷歌、Meta 和 OpenAI 沒有回應對該研究的評論請求。

私人測試特權影響排名

Chatbot Arena 於 2023 年推出,已迅速成為通過成對人類比較評估生成式 AI 模型的首選公共基準。然而,這項新研究揭示了破壞其完整性的系統性缺陷,最明顯的是特定開發人員進行未公開的私人測試的能力。

據報導 Meta 測試了 27 個單獨的一個月內的變體發布。谷歌和亞馬遜還提交了多個隱藏變體。相比之下,大多數較小的公司和學術實驗室只提交了一兩個公共模型,並不知道這種幕後評估是可能的。

研究人員認為,這種“N 中最佳”提交策略違反了 Bradley-Terry 模型的統計假設——Chatbot Arena 使用該算法根據面對面的比較對人工智能係統進行排名。

為了證明這種做法的效果,研究人員在 Chatbot Arena 上進行了自己的實驗。在一種情況下,他們以不同的別名提交了同一模型的兩個相同的檢查點。儘管功能相同,但這兩個版本的得分卻截然不同——排行榜上相差 17 分。

在另一個案例中,提交了同一模型的兩個略有不同的版本。與 Chatbot Arena 的反饋動態更加一致的變體比其同類產品高出近 40 分,有 9 個模型在最終排名中落在兩者之間。

對數據的不成比例的訪問

排行榜的扭曲不僅僅與測試特權有關。該研究還強調了嚴重的數據訪問不平衡。 Chatbot Arena 在每次模型比較期間收集用戶交互和反饋數據,這些數據對於訓練和微調模型至關重要。

OpenAI 和 Google 等專有法學碩士提供商獲得了不成比例的大量數據。根據該研究,OpenAI 和 Google 分別收到了全部 Arena 數據的 19.2% 和 20.4%。相比之下,83 個開放權重模型僅共享 29.7% 的數據。完全開源的模型(其中包括許多來自學術和非營利組織的模型)總共只收到了總數據的 8.8%。

這種不均勻的分佈源於優惠採樣率(即更頻繁地向用戶展示專有模型)以及不透明的棄用實踐。該研究發現,243 個公共模型中有 205 個已被悄悄棄用——這意味著它們在沒有通知的情況下被從平台中刪除或排除——而且開源模型受到的影響尤為嚴重。

該研究指出:“棄用對開放權重和開源模型產生了不成比例的影響,隨著時間的推移,造成數據訪問的巨大不對稱。”

這些動態不僅有利於最大的公司,而且還使新進入者或較小的進入者更難收集足夠的反饋數據來改進或公平競爭。

排行榜分數並不總是反映現實世界的能力

該研究的主要發現之一是,訪問特定於競技場的數據可以顯著提高模型的性能 - 但僅限於排行榜本身的範圍內。

在對照實驗中,研究人員使用不同比例的 Chatbot Arena 數據來訓練模型。當 70% 的訓練數據來自 Arena 時,模型在 ArenaHard(反映 Arena 分佈的基準集)上的性能增加了一倍多,勝率從 23.5% 上升到 49.9%。

然而,這種性能提升並沒有轉化為更廣泛的學術基準的收益,例如大規模多任務語言理解(MMLU),這是一個旨在通過評估模型來衡量預訓練期間獲得的知識的基準。事實上,MMLU 的結果略有下降,表明模型正在針對 Arena 環境進行自我調整。

該研究警告說:“由選擇性數據和測試驅動的排行榜改進並不一定反映模型質量的更廣泛進步。”

呼籲透明度和改革

該研究的作者表示,這些發現凸顯了公共人工智能基準管理方式迫切需要改革。

他們呼籲提高透明度,敦促 Chatbot Arena 組織者禁止撤回分數,限制測試的私人變體的數量,並確保提供商之間公平的採樣率。他們還建議排行榜維護並發布已棄用模型的全面日誌,以確保清晰度和問責制。

研究補充說:“沒有合理的科學理由允許少數首選提供商選擇性地披露結果。” “這使得 Arena 分數向上傾斜,並允許少數首選提供商爭奪排行榜。”

研究人員承認,Chatbot Arena 的啟動初衷是最好的——在人工智能快速發展的時期提供一個動態的、社區驅動的基準。但他們認為,連續的政策選擇和來自商業利益的日益增長的壓力已經損害了其中立性。

雖然聊天機器人競技場的組織者此前承認需要更好的治理,包括在博客文章該研究於 2024 年底發表,表明當前的努力不足以解決系統性偏見。

這對人工智能行業意味著什麼?

這些啟示出現之際,生成式人工智能模型在商業、政府和社會中發揮著越來越重要的作用。評估人工智能係統部署的組織——從聊天機器人和客戶支持到代碼生成和文檔分析——通常依賴公共基準來指導購買和採用決策。

如果這些基準受到損害,依賴於它們的決策也會受到影響。

研究人員警告說,基於競技場排名對模型優越性的看法可能會產生誤導,特別是當頂級排名更多地受到內部訪問和戰術披露的影響而不是實際創新時。

研究指出:“扭曲的記分板不僅會誤導開發人員。” “它誤導了所有押注人工智能未來的人。”