史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1_題目_難度_ai
克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI
史上最難的大模型測試集來了!
包括o1在內,沒有任何一個模型得分超過10%。
題目來自500多家機構的1000多名學者,最終入圍的題目有3000多道,全部都是 研究生及以上難度。
入選的問題涵蓋了數理化、生物醫藥、工程和社會科學等多種學科,按細分學科來算則多達100余個。
官方更是將牠稱為“人類最後的考試”,AI安全中心主任Dan Hendrycks也用了這樣的說法。
還有世界首位提示詞工程師Riley Goodside表示,這才是考驗頂尖模型的數據集該有的難度。
o1得分不到10%
如果按照大學科來算,入選的題目可以分為八大類,其中占比最多的是數學(42%),然後是物理和生物醫藥(均為11%)。
而且命題難度要求嚴格,必須要達到研究生難度,而且還要確保不能被檢索到。
當然題目還應當有明確的答案和評判方式,證明等開放式問題不會入選。
具體難度,可以看幾道例題來感受下(翻譯由GPT-4o生成)。
其中有些題目,還會考察模型的視覺能力,比如解讀這種上古文字。
有些題目還需要結合視覺信息和文本共同理解,比如在化學,特別是有機化學當中,需要用圖來表示相關物質的結構。
還有數學題計算機科學的題目,對推理的要求很高:
除了這些需要一定推理的任務之外,也有題目單純考察知識儲備,當然並不代表難度低。
就算是對於領域內人士,這些題目也達到了研究生難度,對於一般人而言,可能連題都讀不懂。
o1這樣的強推理模型準確率只有9.1%,DeepSeek-R1也躋身到了英雄榜之中,不過不支持多模態,因此成績是在純文本子集上得到的。
但如果隻比較純文本任務,DeepSeek-R1依然位列第一,並且相比於o1的優勢變得更明顯了。
而在非推理模型當中,Gemini 1.5 Pro表現最好,然後是Claude 3.5 Sonnet和Grok 2,GPT-4哦排名墊底。
有模型答錯,題目才能入選
這些題目不僅難度要求高,篩選的過程也十分嚴格。
這個項目由AI安全中心和Scale AI發起,命題者來自全世界500多家機構的,人數多達上千人。
涉及的機構包括高校、研究所和企業,還有來自醫療機構的學者,以及一些獨立研究者等。
OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。
團隊收集到的題目需要經歷 大模型和人工的雙重審查。
第一輪篩選在大模型上進行,如果其中有大模型答錯非選擇題,或者選擇題平均準確率低於隨機猜測,則題目可以通過初篩。
在進行過7萬多次嘗試之後,有1.3萬道題目進入了人工審核環節。
人工審核一共分兩輪,第一輪是各個領域的專業人士 (研究生以上學歷),第二輪審核則由組織方以及第一輪中表現出色的審核員共同進行。
最終有三千多道題目入圍,形成了一個較大的公共數據集和一個較小的私有數據集,這些題目來自500多家機構中的300余家,人數為600余人。
另外據介紹,每道入選題目根據評估情況,會給予命題人500-5000美元不等的獎勵,也從側面反應出了命題工作的複雜。 (目前團隊仍在接受新題目投稿,但不再發放獎金)
這樣的一套超難測試集,如果讓前兩天深陷作弊傳聞的o3挑戰一下,說不定就能看出真實水平了。
項目主頁:
https://lastexam.ai/
數據集:
https://huggingface.co/datasets/cais/hle
論文:
https://lastexam.ai/paper
— 完—
量子位智庫年終發佈 三大年度報告!
帶你一起回顧2024年 人工智能、 智能駕駛、 Robotaxi新趨勢, 預見2025年科技行業新機遇!
2024年度AI十大趨勢報告
Robotaxi2024年度格局報告
智能駕駛2024年度報告
你可能感興趣的
- 新澳門今天必開一肖一特,生肖預測與內涵解析_文化_數字_人們
- 情感心理咨詢:家裡催婚越催越急,還不想結婚的我們該如何面對催婚壓力?_關係_女友_生活
- 詳解7月運勢:白羊座2025年精彩預測_天蠍座_人際關係_星座
- 下面4張餐桌,你會選擇在哪一餐桌吃飯?測你的婚姻生活是否幸福_給予_食物_美食
- 奇門遁甲預測神奇之處的占法舉隅_地盤_宮為_六合
- 測試:四個女子你覺得誰最唯美,測出你前世的死因是什麽?_史蒂芬森_死路_因為
- 心理學家指出:內心陰暗的人,往往愛說這3句話,千萬不要當朋友_決策_生活_運氣
- 尋找星空中的自己!玉皇廟尋星祈福小程序正式上線測試_星宿_文化_守護
- IQ的真正含義與多元智能的關係:智力測評的局限性與成長潛力_測試_能力_一個人
- 3種蔬菜,選擇一種你最討厭吃的,測你天生自帶什麽福氣!_生活_福將_西蘭花