新V觀海外:o1模型的開源復現和智商測試_OpenAI_推理_Llama
經濟觀察報 社論 陳沛/文 自從OpenAI推出最新的高級推理模型o1,已經過去了10天左右的時間。
模型剛推出的時候,很多率先使用的用戶會覺得這個預覽版模型(o1-preview)的純文本模式和類似規劃代理的生成效果略感平淡,就像我在前一篇專欄中寫過的情況。
也有一些研究者試圖從OpenAI介紹的內容中針對自我對弈強化學習、數據合成等進行分析,以突出這個模型的特別提升之處。
在此期間,各種說法林林總總,不一而足。我則認為值得進一步分析的是隨後很快出現的o1模型開源復現版,以及最新的智商測試結果。
一週內出現o1開源復現效果
美國SambaNova公司的Kaizhao Liang在o1模型發佈一週內,就在HuggingFace上推出了一個類似o1模型思考過程的開源平替版——Llama3.1-Instruct-O1。
這個開源平替版用到了Llama-3.1-Instruct模型,用戶可以選擇405B、70B、8B三個開源模型版本,再設置思考步驟的限制(從1至100之間),然後就可以實現類似o1模型的思考過程。
實現原理非常清楚,作者給Llama-3.1-Instruct開源模型增加了額外的系統提示詞,共包括八個階段,要求模型仔細閱讀問題,按照思考步驟數量設置計數器,並要求模型進行自我反思,完成全部解答階段後進行重新組織,形成最終輸出答案。
客觀來看,這個方法比較討巧,直接借用成熟的提示框架對開源模型的輸出結果進行限定,以生成類似的思考效果,卻不涉及上述的自我對弈強化學習過程。不過,這想必也不是開源復現版作者的本意。因為SambaNova作為AI推理加速服務商,更多是想展示牠們在多步推理中的加速效果,而非高級推理能力。
測試發現o1模型智商超群
如何更加直觀體現o1模型的推理能力,有人想到了進行智商測試。美國Tracking AI負責人Maxim Lott使用了門薩智商測試(Mensa Norway)對12個主流模型進行了測試,定期更新測試結果。
在最近的測試結果中,o1模型在35道題中答對了25道,智商達到121,是所有模型中唯一一個智商超過平均值(100)的模型。其它模型的智商多數普遍在80至90左右。
但是必須看到,由於這12個被測模型中既包括o1這樣的純文本模型,也包括GPT-4o、Gemini Advanced、Claude-3 Opus等多模態模型,而35道智商測試題中又有相當部分題目是複雜圖形推理題,因此測試者需要把題目和選項轉成非常全面的文本描述輸入給純文本模型,這個人工轉換過程或多或少會讓純文本模型在測試結果上獲得一定優勢。
當然,就算排除掉這一點優勢因素,o1模型在智商測試中所體現出來的複雜推理能力依然處於明顯的領先位置。
OpenAI對o1模型的階段定位
OpenAI的CEO Sam Altman在最近的表態中,將o1模型比喻成過去GPT系列模型的GPT-2,這似乎側面印證了o1模型雖然表現出了顯著的能力提升,但同時也存在著明顯的缺點。
回顧過去,在發展GPT系列模型時,也是一直演進到GPT-3.5的階段,才推出了ChatGPT引發了巨大關注。
展望後續的發展路線,如今o1模型已經來到了OpenAI之前提出5層通用人工智能的第2層(推理者,Reasoner),並將繼續向之後第3層至第5層的智能代理(Agent)、創新者(Innovator)和組織者(Organizer)持續攀登。
你可能感興趣的
- 能讓男生愛的死心塌地的三大星座,內心世界的豐富一樣重要!_魅力_天蠍座_魔力
- 太原心理咨詢中心推薦排名前十_安定_專業_治療
- 能讓女人一生無憂的三個生肖男,嫁給這三大生肖,能幸福一生!_男性_伴侶_龍的
- 脾氣很好,但是惹毛了誰也控制不了局面的三大星座_天蠍座_情緒_生活
- 脾氣又犟又壞的三大星座女,異性緣卻超級好,永遠被寵成小公主_女生_魅力_成為了
- 2026年4月8號好運生肖排名榜。_財運_感情_飾品
- 2026年4月6號好運生肖排名榜。_財運_事業_感情
- 2026年4月5號好運生肖排名榜。_感情_財運_事業
- 你的情場熟練度滿級了嗎?來看看這五大星座女的情場熟練度!_女性_感情_天蠍座
- 2026年4月4號好運生肖排名榜。_財運_感情_飾品










