xAI誇大了Grok3的基準測試成績嗎?_OpenAI_模型_圖表
關於 AI 基準測試及其報告方式的爭議,正在逐漸進入公眾視野。
本週,一名 OpenAI員工指控 埃隆·馬斯克(Elon Musk)旗下的 AI 公司 xAI在公布最新 AI 模型 Grok 3的基準測試結果時存在誤導性。對此,xAI 聯合創始人 Igor Babushkin堅稱公司所發佈的數據是準確的。
真相或許介於兩者之間。
在 xAI官方博客的文章中,該公司發佈了一張圖表,展示了 Grok 3在 AIME 2025基準測試中的表現。AIME 2025是一項包含高難度數學題目的測試集,取自近期的一場數學邀請賽。雖然部分專家質疑 AIME 是否適合作為 AI 的基準測試,但該測試及其早期版本仍被廣泛用於評估 AI 模型的數學能力。
xAI 的圖表顯示,Grok 3 Reasoning Beta和 Grok 3 mini Reasoning在 AIME 2025測試中超越了 OpenAI 目前最強的 o3-mini-high 模型。然而,OpenAI 的員工很快在 X(原 Twitter)上指出,xAI 的圖表並未包含 o3-mini-high 在 “cons@64” 設置下的 AIME 2025 分數。
什麽是 cons@64?
“cons@64” 是 “consensus@64”的縮寫,在基準測試中,牠允許模型嘗試 64 次來解答每一道題目,並選取最常見的答案作為最終答案。可以想像,這種方式通常會顯著提高 AI 模型的得分。
由於 xAI的圖表省略了 o3-mini-high 在 cons@64 設置下的成績,可能會給人一種錯覺,即 Grok 3 超越了 OpenAI 的模型,而實際上並非如此。
在 AIME 2025的“@1”測試(即模型第一次作答時的得分)中,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分數均低於 OpenAI 的 o3-mini-high。此外,Grok 3 Reasoning Beta 甚至略低於 OpenAI 的 o1(中等計算配置)。然而,xAI 仍然宣稱 Grok 3 是“全球最聰明的 AI”。
xAI 反擊:OpenAI 也有類似操作
Igor Babushkin在 X上反駁稱,OpenAI 過去也曾發佈過類似“誤導性”基準測試圖表,只不過這些圖表主要是 OpenAI 內部模型之間的比較。在這場爭論中,一名相對中立的研究人員重新繪制了一張更“準確”的圖表,展示了幾乎所有模型在 cons@64設置下的真實表現。
基準測試的核心問題:計算成本未知
然而,AI 研究員 Nathan Lambert指出,這場爭論中最關鍵的問題仍然是未知的——每個模型達到最佳分數所需的計算資源(以及成本)是多少?
這一點凸顯了 AI 基準測試的局限性:牠們很少能真正反映 AI 模型的計算成本、局限性以及實際應用價值。
你可能感興趣的
- 心理小辭典:禁果逆反心理——為什麽越禁止,越想要?_效應_運動_自由
- 色彩心理學:影響人情緒的顏色_紅色_黃色_淡藍色
- 夢見蛇的心理學解析:潛意識中的轉變信號_夢境_意象_生活
- 2024年心理咨詢師報名通道開啟,可考心理證書!無需辭職。最後3天!_培訓_考試_情緒
- GPS測量原理及應用(徐紹銓)PDF_gzh_海馬_書單
- MBTI16型人格官網:免費性格測試+專業職業發展建議_類型_職場_劣勢
- 【心理科普】如何有效理性購彩“心理降溫術”_薄荷醒_情緒_生活
- 河北省石家莊市2024-2025學年度高二下期末質量檢測語文試題及答案_心理學_未來_塞利格曼
- 聊聊測試階段的質量門禁管理_支持_代碼_工具
- 腳丫子|放下心理包袱,才能走得更遠_循環_執念_原地