當前位置：香港算命王 > 百科 > 心理測試 > xAI誇大了Grok3的基準測試成績嗎？_OpenAI_模型_圖表

xAI誇大了Grok3的基準測試成績嗎？_OpenAI_模型_圖表

時間：2025-02-24 06:32:04 來源：香港算命王關鍵詞：分数,成本,图表,Igor,的测试,Grok,模型,cons@,OpenAI,数学,图表,Grok,基准,模型,OpenAI

關於 AI 基準測試及其報告方式的爭議，正在逐漸進入公眾視野。

本週，一名 OpenAI員工指控 埃隆·馬斯克（Elon Musk）旗下的 AI 公司 xAI在公布最新 AI 模型 Grok 3的基準測試結果時存在誤導性。對此，xAI 聯合創始人 Igor Babushkin堅稱公司所發佈的數據是準確的。

真相或許介於兩者之間。

在 xAI官方博客的文章中，該公司發佈了一張圖表，展示了 Grok 3在 AIME 2025基準測試中的表現。AIME 2025是一項包含高難度數學題目的測試集，取自近期的一場數學邀請賽。雖然部分專家質疑 AIME 是否適合作為 AI 的基準測試，但該測試及其早期版本仍被廣泛用於評估 AI 模型的數學能力。

xAI 的圖表顯示，Grok 3 Reasoning Beta和 Grok 3 mini Reasoning在 AIME 2025測試中超越了 OpenAI 目前最強的 o3-mini-high 模型。然而，OpenAI 的員工很快在 X（原 Twitter）上指出，xAI 的圖表並未包含 o3-mini-high 在 “cons@64” 設置下的 AIME 2025 分數。

什麽是 cons@64？

“cons@64” 是 “consensus@64”的縮寫，在基準測試中，牠允許模型嘗試 64 次來解答每一道題目，並選取最常見的答案作為最終答案。可以想像，這種方式通常會顯著提高 AI 模型的得分。

由於 xAI的圖表省略了 o3-mini-high 在 cons@64 設置下的成績，可能會給人一種錯覺，即 Grok 3 超越了 OpenAI 的模型，而實際上並非如此。

在 AIME 2025的“@1”測試（即模型第一次作答時的得分）中，Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分數均低於 OpenAI 的 o3-mini-high。此外，Grok 3 Reasoning Beta 甚至略低於 OpenAI 的 o1（中等計算配置）。然而，xAI 仍然宣稱 Grok 3 是“全球最聰明的 AI”。

xAI 反擊：OpenAI 也有類似操作

Igor Babushkin在 X上反駁稱，OpenAI 過去也曾發佈過類似“誤導性”基準測試圖表，只不過這些圖表主要是 OpenAI 內部模型之間的比較。在這場爭論中，一名相對中立的研究人員重新繪制了一張更“準確”的圖表，展示了幾乎所有模型在 cons@64設置下的真實表現。

基準測試的核心問題：計算成本未知

然而，AI 研究員 Nathan Lambert指出，這場爭論中最關鍵的問題仍然是未知的——每個模型達到最佳分數所需的計算資源（以及成本）是多少？

這一點凸顯了 AI 基準測試的局限性：牠們很少能真正反映 AI 模型的計算成本、局限性以及實際應用價值。