全體AI大模型的數學幾乎都是0分?陶哲軒和Karpathy推薦的這個測試有多難_問題_Epoch_基準
夕小瑤科技說 原創
作者 | 小鹿
最近,出現了一個數學基準集,讓大模型們的數學集體翻車,正確率還不到2%。
就是這家非營利研究機構Epoch AI,牠集合了世界最頂尖的60多位數學家(包括國際數學奧林匹克(IMO)問題編寫者和菲爾茲獎得主)發佈了FrontierMath,專治各種LLM不服的全新的數學基準測試。
FrontierMath包含數百個原創數學問題,涵蓋了數學大多數的分支方向,從計算密集型的數論,到抽象的代數幾何和範疇論問題。
大模型動不動在現在的數學benchmark就是接近100%的正確率,好像真的已經統計數學界了,FrontierMath的出現,就是要考考這些大語言模型到底多厲害。
結果,大語言模型全體暴露,正確率竟然不到2%,這與GSM-8K和MATH等其他流行的數學基準測試形成鮮明對比,在那裡這些行業最模型現在實現了超過90%的準確率。。。
題目是不是太難了?基準地址:https://epochai.org/frontiermath
這個非常厲害的基準FrontierMath的設定規則是這樣的:
所有問題都是新的且未發表的,以防止數據汙染,而且要經過專業數學家的同行評審,以驗證正確性。
解決方案是自動可驗證的,從而實現高效的評估。——無論是作為確切的整數還是像矩陣和SymPy中的符號表達式這樣的數學對象。驗證腳本通過精確匹配或確認提交的答案與已知解匹配來檢查提交。
問題是“防猜測”的,在沒有正確推理的情況下解決的可能性很低。問題的解決方案是大數值答案或複雜的數學對象,沒有數學工作的情況下,猜測正確的幾率不到1%。問題特別針對這一特性進行審查,審查者檢查捷徑或模式匹配通常不能繞過對真正理解的需求。
在這給大家準備了一道題,讓我們一起看下~
第一道題是關於Artin原根猜想的數論題目,問題要求我們:找出集合Sx,其中包含滿足 , 的所有質數 計算 在質數中的密度 ,求出當 趨向於無窮時的極限密度 ,最後計算?10^7 × d∞?:
本來還想算一算,但是我連題目也看不明白。。。。那偉大的大語言模型老師們能做出來嗎:
嘶,他們竟然看的懂題目!而且真的計算出來了,有數學大佬們看看算的對嗎。。。
實驗分析
FrontierMath評估了目前行業內最頂尖的六個模型:o1 ,Claude 3.5 Sonnet、GPT-4o,Grok和Gemini 1.5 Pro。
即使有延長的思考時間(10,000個token)、Python訪問權限以及運行實驗的能力,成功率仍然低於2%——相比之下,在GSM-8K和MATH等傳統基準測試中,這些大語言模型的成功率超過90%
Epoch AI指出,現在的大模型數學測試的基準如GSM8K和MATH早就被刷爛了,新的模型能拿到高分並不是因為真的懂了,會了數學。而是數據已經汙染了,在訓練中已經見過了原題、相似題了。而團隊設計的全新未公開的題目才是實打實的考驗。
想抄都沒門。。
看似Epoch AI說的很有道理哎!但是,這個題會不會有點太難了。。
聽聽大佬們怎麽看待
Epoch AI採訪了多位菲爾茲獎(數學界的最高榮譽)得主,包括陶哲軒 (2006)、蒂莫西·高爾斯 (1998)、理查德·博赫茲 (1998),以及國際數學奧林匹克競賽 (IMO) 教練陳誼廷 (Evan Chen)。
這些大佬是這樣說的:
2006年菲爾茲獎獲得者陶哲軒:這些問題極具挑戰性…我認為至少在未來幾年內,人工智能都無法解決這些問題。
1998年菲爾茲獲得者:即使只能正確回答其中一個問題,也遠遠超出了我們目前的能力,更不用說完全掌握牠們了。
Andrej Karpathy大佬也來了,轉發了推特發表了看法:
結語我對這個前沿數學的新基準做出了反應,其中 LLM 只能解決 2% 的問題。之所以引入這個基準,是因為 LLM 正在日益超越現有的數學基準。有趣的問題是,儘管根據許多人的說法 (/evals),LLM 正在逐漸進入頂級專家領域(例如數學和編碼等),但你不會雇用他們而不是從事最瑣碎的工作的人。如果你在提示中將問題描述整齊地擺在盤子上,他們可以解決複雜的封閉問題,但他們很難以一種人們會覺得非常容易的方式將長而自主的解決問題序列連貫地串聯起來。
這是莫拉維克悖論的變種,他在 30 多年前就觀察到,人類認為的容易/困難的事情與計算機認為的容易/困難的事情在直覺上可能大不相同。例如,人類對計算機下棋印象深刻,但國際象棋對計算機來說很容易,因為牠是一個封閉的確定性系統,具有離散的動作空間、完全可觀察性等等。反之亦然,人類可以系鞋帶或折疊襯衫,但根本不會想太多,但這是極其複雜的感覺運動任務,對硬件和軟件的最新技術提出了挑戰。這就像 OpenAI 不久前發佈的魔方,大多數人專注於解決問題本身(這很簡單),而不是用機械手轉動魔方的一個面這一實際上極其困難的任務。
所以我非常喜歡這個 FrontierMath 基準測試,我們應該做更多。但我還認為,如何為所有“簡單”但實際上很難的東西創建評估是一個有趣的挑戰。非常長的上下文窗口、連貫性、自主性、常識、有效的多模式 I/O…
數學評估作為衡量大語言模型能力的重要維度,因為數學問題通常具有明確的邏輯結構和嚴謹的推理鏈條,相較於其他領域的推理評測具有絕對的優勢。
FrontierMath評測集的推出是不僅展示了各大模型在數學推理方面的具體表現,更重要的是揭示了當前AI系統在數學能力上的系統性局限。
這些局限包括:在多步驟推理中保持邏輯一致性的挑戰、對問題本質的深層理解能力不足,以及創造性解題策略的缺乏等。
而這些能力恰恰是開展前沿科學研究所必需的。
因此,通過嚴謹的數學評估來衡量AI系統在這些關鍵認知維度上的進展,對於理解人工智能的發展現狀和未來方向具有重要的指導意義。這不僅有助於推動AI技術的改進,也為探討機器智能的本質特徵提供了重要視角~
Crossin的新書《 碼上行動:用ChatGPT學會Python編程》已經上市了。 本書以ChatGPT為輔助,系統全面地講解了如何掌握Python編程,適合Python零基礎入門的讀者學習。【點此查看詳細介紹】
購買後可加入讀者交流群,Crossin為你開啟陪讀模式,解答你在閱讀本書時的一切疑問。
Crossin的其他書籍:
你可能感興趣的
- 初一學生抑郁癥該怎麽心理輔導,青少年心理咨詢師哪家機構權威_治療_患者_情感
- 塑造鈍感力—培養男孩的心理素質_挑戰_心法_厚臉皮
- 塔斯汀中國漢堡全系列測評:新品與經典對比_美味_創新
- 獨家揭秘:您的心理健康,我們比您更懂!心理測評小程序開發定制_用戶_個性化_麥蒙
- 不可思議!心理測評小程序,竟然可以這麽準!_開發_用戶_個性化
- 當代都市人心理問題備受關注如何學會拆解情緒未爆彈_朱德庸_人生_漫畫家
- 揭秘喜歡拉黑的女生性格特徵:了解她們背後的心理動機_關係_行為_情感
- 【成都心理咨詢師】MBTI溯源之榮格心理學_分析_功能_類型學
- 全體AI大模型的數學幾乎都是0分?陶哲軒和Karpathy推薦的這個測試有多難_問題_Epoch_基準
- 讓你的情緒“雨過天晴”——心理調節小妙招_步用_進行_問題