xAI誇大了Grok3的基準測試成績嗎?_OpenAI_模型_圖表
關於 AI 基準測試及其報告方式的爭議,正在逐漸進入公眾視野。
本週,一名 OpenAI員工指控 埃隆·馬斯克(Elon Musk)旗下的 AI 公司 xAI在公布最新 AI 模型 Grok 3的基準測試結果時存在誤導性。對此,xAI 聯合創始人 Igor Babushkin堅稱公司所發佈的數據是準確的。
真相或許介於兩者之間。
在 xAI官方博客的文章中,該公司發佈了一張圖表,展示了 Grok 3在 AIME 2025基準測試中的表現。AIME 2025是一項包含高難度數學題目的測試集,取自近期的一場數學邀請賽。雖然部分專家質疑 AIME 是否適合作為 AI 的基準測試,但該測試及其早期版本仍被廣泛用於評估 AI 模型的數學能力。
xAI 的圖表顯示,Grok 3 Reasoning Beta和 Grok 3 mini Reasoning在 AIME 2025測試中超越了 OpenAI 目前最強的 o3-mini-high 模型。然而,OpenAI 的員工很快在 X(原 Twitter)上指出,xAI 的圖表並未包含 o3-mini-high 在 “cons@64” 設置下的 AIME 2025 分數。
什麽是 cons@64?
“cons@64” 是 “consensus@64”的縮寫,在基準測試中,牠允許模型嘗試 64 次來解答每一道題目,並選取最常見的答案作為最終答案。可以想像,這種方式通常會顯著提高 AI 模型的得分。
由於 xAI的圖表省略了 o3-mini-high 在 cons@64 設置下的成績,可能會給人一種錯覺,即 Grok 3 超越了 OpenAI 的模型,而實際上並非如此。
在 AIME 2025的“@1”測試(即模型第一次作答時的得分)中,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分數均低於 OpenAI 的 o3-mini-high。此外,Grok 3 Reasoning Beta 甚至略低於 OpenAI 的 o1(中等計算配置)。然而,xAI 仍然宣稱 Grok 3 是“全球最聰明的 AI”。
xAI 反擊:OpenAI 也有類似操作
Igor Babushkin在 X上反駁稱,OpenAI 過去也曾發佈過類似“誤導性”基準測試圖表,只不過這些圖表主要是 OpenAI 內部模型之間的比較。在這場爭論中,一名相對中立的研究人員重新繪制了一張更“準確”的圖表,展示了幾乎所有模型在 cons@64設置下的真實表現。
基準測試的核心問題:計算成本未知
然而,AI 研究員 Nathan Lambert指出,這場爭論中最關鍵的問題仍然是未知的——每個模型達到最佳分數所需的計算資源(以及成本)是多少?
這一點凸顯了 AI 基準測試的局限性:牠們很少能真正反映 AI 模型的計算成本、局限性以及實際應用價值。
你可能感興趣的
- 這幾款棒棒糖,選一根你覺得美味的,測你是哪種性格的女人_生活_薄荷_香草
- 有錢卻“摳門”:背後隱藏的心理密碼_生活_張叔來_消費
- 心理學:“對外討好對內指責”,這種人格伴侶,是你的災難_人際關係_父母_攻擊
- 推薦|珠海九龍心理咨詢為患者提供專業、貼心的心理支持!_療法_的需求_心靈
- 命理師真那麽神?預測大S壽數、小S終局、羅誌祥劫難、劉真腳傷_白龍王_預言_命運
- “你其實很優秀!”不自信的人停止自我否定的3個心理學技巧!_內心_大腦_實驗
- 如何成為衛健委頒發的心理咨詢師?全面解析培訓與考試流程_職業_服務_社會
- 心理測評具體作用有哪些?怎麽開展心理測評?_工具_進行_個體
- 同時適配win、Linux的3D心理數字沙盤,只有李守龍,高校老師服了_操作系統_國產_運行
- 東方星座(東方星座售樓處)首頁網站-蘇州東方星座售樓中心歡迎您|2025樓盤評測-房價|戶型|商圈配套_商鋪_業主