當前位置:香港算命王 > 百科 > 心理測試 > xAI誇大了Grok3的基準測試成績嗎?_OpenAI_模型_圖表

xAI誇大了Grok3的基準測試成績嗎?_OpenAI_模型_圖表

時間:2025-02-24 06:32:04   來源:香港算命王   關鍵詞:分数,成本,图表,Igor,的测试,Grok,模型,cons@,OpenAI,数学,图表,Grok,基准,模型,OpenAI

關於 AI 基準測試及其報告方式的爭議,正在逐漸進入公眾視野。

本週,一名 OpenAI員工指控 埃隆·馬斯克(Elon Musk旗下的 AI 公司 xAI在公布最新 AI 模型 Grok 3的基準測試結果時存在誤導性。對此,xAI 聯合創始人 Igor Babushkin堅稱公司所發佈的數據是準確的

真相或許介於兩者之間。

xAI官方博客的文章中,該公司發佈了一張圖表,展示了 Grok 3AIME 2025基準測試中的表現。AIME 2025是一項包含高難度數學題目的測試集,取自近期的一場數學邀請賽。雖然部分專家質疑 AIME 是否適合作為 AI 的基準測試,但該測試及其早期版本仍被廣泛用於評估 AI 模型的數學能力。

xAI 的圖表顯示Grok 3 Reasoning BetaGrok 3 mini ReasoningAIME 2025測試中超越了 OpenAI 目前最強的 o3-mini-high 模型。然而,OpenAI 的員工很快在 X(原 Twitter上指出,xAI 的圖表並未包含 o3-mini-high 在 “cons@64” 設置下的 AIME 2025 分數

什麽是 cons@64?

“cons@64” 是 “consensus@64”的縮寫,在基準測試中,牠允許模型嘗試 64 次來解答每一道題目,並選取最常見的答案作為最終答案。可以想像,這種方式通常會顯著提高 AI 模型的得分

由於 xAI的圖表省略了 o3-mini-high 在 cons@64 設置下的成績,可能會給人一種錯覺,即 Grok 3 超越了 OpenAI 的模型,而實際上並非如此。

AIME 2025的“@1”測試(即模型第一次作答時的得分)中,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分數均低於 OpenAI 的 o3-mini-high。此外,Grok 3 Reasoning Beta 甚至略低於 OpenAI 的 o1(中等計算配置)。然而,xAI 仍然宣稱 Grok 3 是“全球最聰明的 AI”

xAI 反擊:OpenAI 也有類似操作

Igor BabushkinX上反駁稱,OpenAI 過去也曾發佈過類似“誤導性”基準測試圖表,只不過這些圖表主要是 OpenAI 內部模型之間的比較。在這場爭論中,一名相對中立的研究人員重新繪制了一張更“準確”的圖表,展示了幾乎所有模型在 cons@64設置下的真實表現。

基準測試的核心問題:計算成本未知

然而,AI 研究員 Nathan Lambert指出,這場爭論中最關鍵的問題仍然是未知的——每個模型達到最佳分數所需的計算資源(以及成本)是多少?

這一點凸顯了 AI 基準測試的局限性:牠們很少能真正反映 AI 模型的計算成本、局限性以及實際應用價值

夢見

星座測算

十二生肖運程