當前位置：香港算命王 > 百科 > 心理測試 > 史上最難大模型測試集，千名專家鑄成！沒有模型得分超過10%，但DeepSeek-R1超o1_題目_難度_ai

史上最難大模型測試集，千名專家鑄成！沒有模型得分超過10%，但DeepSeek-R1超o1_題目_難度_ai

時間：2025-01-25 05:48:01 來源：香港算命王關鍵詞：多家机构,命题,得分,题目,模型,ai,来自,DeepSeek-R,难度,研究生,克雷西,题目,模型,难度,https

克雷西發自凹非寺

量子位 | 公眾號 QbitAI

史上最難的大模型測試集來了！

包括o1在內，沒有任何一個模型得分超過10%。

題目來自500多家機構的1000多名學者，最終入圍的題目有3000多道，全部都是 研究生及以上難度。

入選的問題涵蓋了數理化、生物醫藥、工程和社會科學等多種學科，按細分學科來算則多達100余個。

官方更是將牠稱為“人類最後的考試”，AI安全中心主任Dan Hendrycks也用了這樣的說法。

還有世界首位提示詞工程師Riley Goodside表示，這才是考驗頂尖模型的數據集該有的難度。

o1得分不到10%

如果按照大學科來算，入選的題目可以分為八大類，其中占比最多的是數學（42%），然後是物理和生物醫藥（均為11%）。

而且命題難度要求嚴格，必須要達到研究生難度，而且還要確保不能被檢索到。

當然題目還應當有明確的答案和評判方式，證明等開放式問題不會入選。

具體難度，可以看幾道例題來感受下（翻譯由GPT-4o生成）。

其中有些題目，還會考察模型的視覺能力，比如解讀這種上古文字。

有些題目還需要結合視覺信息和文本共同理解，比如在化學，特別是有機化學當中，需要用圖來表示相關物質的結構。

還有數學題計算機科學的題目，對推理的要求很高：

除了這些需要一定推理的任務之外，也有題目單純考察知識儲備，當然並不代表難度低。

就算是對於領域內人士，這些題目也達到了研究生難度，對於一般人而言，可能連題都讀不懂。

o1這樣的強推理模型準確率只有9.1%，DeepSeek-R1也躋身到了英雄榜之中，不過不支持多模態，因此成績是在純文本子集上得到的。

但如果隻比較純文本任務，DeepSeek-R1依然位列第一，並且相比於o1的優勢變得更明顯了。

而在非推理模型當中，Gemini 1.5 Pro表現最好，然後是Claude 3.5 Sonnet和Grok 2，GPT-4哦排名墊底。

有模型答錯，題目才能入選

這些題目不僅難度要求高，篩選的過程也十分嚴格。

這個項目由AI安全中心和Scale AI發起，命題者來自全世界500多家機構的，人數多達上千人。

涉及的機構包括高校、研究所和企業，還有來自醫療機構的學者，以及一些獨立研究者等。

OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團隊收集到的題目需要經歷 大模型和人工的雙重審查。

第一輪篩選在大模型上進行，如果其中有大模型答錯非選擇題，或者選擇題平均準確率低於隨機猜測，則題目可以通過初篩。

在進行過7萬多次嘗試之後，有1.3萬道題目進入了人工審核環節。

人工審核一共分兩輪，第一輪是各個領域的專業人士（研究生以上學歷），第二輪審核則由組織方以及第一輪中表現出色的審核員共同進行。

最終有三千多道題目入圍，形成了一個較大的公共數據集和一個較小的私有數據集，這些題目來自500多家機構中的300余家，人數為600余人。

另外據介紹，每道入選題目根據評估情況，會給予命題人500-5000美元不等的獎勵，也從側面反應出了命題工作的複雜。（目前團隊仍在接受新題目投稿，但不再發放獎金）

這樣的一套超難測試集，如果讓前兩天深陷作弊傳聞的o3挑戰一下，說不定就能看出真實水平了。

項目主頁：

https://lastexam.ai/

數據集：

https://huggingface.co/datasets/cais/hle

論文：

https://lastexam.ai/paper

— 完—

量子位智庫年終發佈 三大年度報告！

帶你一起回顧2024年 人工智能、 智能駕駛、 Robotaxi新趨勢， 預見2025年科技行業新機遇！

2024年度AI十大趨勢報告

Robotaxi2024年度格局報告

智能駕駛2024年度報告

你可能感興趣的

百科小知識

Alex巨蟹座本週運勢詳解2024.12.23-12.29

靜電魚金牛座星運詳解【週運2024年12月9日-12月15日】

第一運程2025年屬豬1月運程解析

狗2024年運勢及運程屬狗人2024運勢好嗎

實用工具大全

百科

星座分析心理測試風水命理八字百科生肖屬相

解夢

人物動物物品植物鬼神生活其他孕婦解夢

算命

生辰八字日干論命稱骨論命三世財運八字測算風水測算

姓名

名字分析在線起名定字起名公司起名名字配對

排盤

八字排盤六壬排盤玄空飛星六爻起卦奇門遁甲紫薇排盤星盤測試

配對

八字合婚 QQ配對星座配對生肖配對名字配對血型配對星座血型生肖血型星座生肖

號碼

手機號碼電話號碼身份證號碼 QQ號碼車牌號碼生日密碼生日書生日花出生日

靈簽

觀音靈簽呂祖靈簽黃大仙靈簽關帝靈簽天後靈簽諸葛測字月老靈簽車公靈簽王公靈簽

黃歷

黃歷名詞解釋歷史上的今天擇日陰陽曆轉換

星座

白羊金牛雙子座巨蟹獅子座處女座天秤天蠍座射手摩羯水瓶雙魚座上升星座星座專區星座運勢

生肖

2026運勢鼠牛虎兔龍蛇馬羊猴雞狗豬

民間

指紋算命手相查詢痣相圖解生男生女預測眼跳測吉凶打噴嚏測吉凶六爻占卜

算命大全

今日黃歷

2026年5月6日星期三

嫁娶結婚領證祭祀祈福求嗣出行旅游赴任出火拆卸修造裝修開工動土入宅搬家移徙安床作灶塞穴栽種破土安葬

開光掘井開倉

查吉日歷史今天

香港算命王

星座測算

十二生肖運程

鼠牛虎兔龍蛇馬羊猴雞狗豬

史上最難大模型測試集，千名專家鑄成！沒有模型得分超過10%，但DeepSeek-R1超o1_題目_難度_ai

百科小知識

實用工具大全

百科

解夢

算命

姓名

排盤

配對

號碼

靈簽

黃歷

星座

生肖

民間

算命大全

今日黃歷

財神

喜神

福神

貴神

大殮吉時

相沖

吉神宜趨

兇煞宜忌

彭祖百忌

星座測算

十二生肖運程

百科導航

應用推薦