當前位置:香港算命王 > 百科 > 心理測試 > 史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1_題目_難度_ai

史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1_題目_難度_ai

時間:2025-01-25 05:48:01   來源:香港算命王   關鍵詞:多家机构,命题,得分,题目,模型,ai,来自,DeepSeek-R,难度,研究生,克雷西,题目,模型,难度,https

克雷西 發自 凹非寺

量子位 | 公眾號 QbitAI

史上最難的大模型測試集來了!

包括o1在內,沒有任何一個模型得分超過10%

題目來自500多家機構的1000多名學者,最終入圍的題目有3000多道,全部都是 研究生及以上難度

入選的問題涵蓋了數理化、生物醫藥、工程和社會科學等多種學科,按細分學科來算則多達100余個。

官方更是將牠稱為“人類最後的考試”,AI安全中心主任Dan Hendrycks也用了這樣的說法。

還有世界首位提示詞工程師Riley Goodside表示,這才是考驗頂尖模型的數據集該有的難度。

o1得分不到10%

如果按照大學科來算,入選的題目可以分為八大類,其中占比最多的是數學(42%),然後是物理和生物醫藥(均為11%)。

而且命題難度要求嚴格,必須要達到研究生難度,而且還要確保不能被檢索到。

當然題目還應當有明確的答案和評判方式,證明等開放式問題不會入選。

具體難度,可以看幾道例題來感受下(翻譯由GPT-4o生成)。

其中有些題目,還會考察模型的視覺能力,比如解讀這種上古文字。

有些題目還需要結合視覺信息和文本共同理解,比如在化學,特別是有機化學當中,需要用圖來表示相關物質的結構。

還有數學題計算機科學的題目,對推理的要求很高:

除了這些需要一定推理的任務之外,也有題目單純考察知識儲備,當然並不代表難度低。

就算是對於領域內人士,這些題目也達到了研究生難度,對於一般人而言,可能連題都讀不懂。

o1這樣的強推理模型準確率只有9.1%,DeepSeek-R1也躋身到了英雄榜之中,不過不支持多模態,因此成績是在純文本子集上得到的。

但如果隻比較純文本任務,DeepSeek-R1依然位列第一,並且相比於o1的優勢變得更明顯了。

而在非推理模型當中,Gemini 1.5 Pro表現最好,然後是Claude 3.5 Sonnet和Grok 2,GPT-4哦排名墊底。

有模型答錯,題目才能入選

這些題目不僅難度要求高,篩選的過程也十分嚴格。

這個項目由AI安全中心和Scale AI發起,命題者來自全世界500多家機構的,人數多達上千人。

涉及的機構包括高校、研究所和企業,還有來自醫療機構的學者,以及一些獨立研究者等。

OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團隊收集到的題目需要經歷 大模型和人工的雙重審查

第一輪篩選在大模型上進行,如果其中有大模型答錯非選擇題,或者選擇題平均準確率低於隨機猜測,則題目可以通過初篩。

在進行過7萬多次嘗試之後,有1.3萬道題目進入了人工審核環節。

人工審核一共分兩輪,第一輪是各個領域的專業人士 (研究生以上學歷),第二輪審核則由組織方以及第一輪中表現出色的審核員共同進行。

最終有三千多道題目入圍,形成了一個較大的公共數據集和一個較小的私有數據集,這些題目來自500多家機構中的300余家,人數為600余人。

另外據介紹,每道入選題目根據評估情況,會給予命題人500-5000美元不等的獎勵,也從側面反應出了命題工作的複雜。 (目前團隊仍在接受新題目投稿,但不再發放獎金)

這樣的一套超難測試集,如果讓前兩天深陷作弊傳聞的o3挑戰一下,說不定就能看出真實水平了。

項目主頁:

https://lastexam.ai/

數據集:

https://huggingface.co/datasets/cais/hle

論文:

https://lastexam.ai/paper

量子位智庫年終發佈 三大年度報告

帶你一起回顧2024年 人工智能智能駕駛Robotaxi新趨勢, 預見2025年科技行業新機遇

2024年度AI十大趨勢報告

Robotaxi2024年度格局報告

智能駕駛2024年度報告

百科小知識

夢見

星座測算

十二生肖運程