新V觀海外:o1模型的開源復現和智商測試_OpenAI_推理_Llama
經濟觀察報 社論 陳沛/文 自從OpenAI推出最新的高級推理模型o1,已經過去了10天左右的時間。
模型剛推出的時候,很多率先使用的用戶會覺得這個預覽版模型(o1-preview)的純文本模式和類似規劃代理的生成效果略感平淡,就像我在前一篇專欄中寫過的情況。
也有一些研究者試圖從OpenAI介紹的內容中針對自我對弈強化學習、數據合成等進行分析,以突出這個模型的特別提升之處。
在此期間,各種說法林林總總,不一而足。我則認為值得進一步分析的是隨後很快出現的o1模型開源復現版,以及最新的智商測試結果。
一週內出現o1開源復現效果
美國SambaNova公司的Kaizhao Liang在o1模型發佈一週內,就在HuggingFace上推出了一個類似o1模型思考過程的開源平替版——Llama3.1-Instruct-O1。
這個開源平替版用到了Llama-3.1-Instruct模型,用戶可以選擇405B、70B、8B三個開源模型版本,再設置思考步驟的限制(從1至100之間),然後就可以實現類似o1模型的思考過程。
實現原理非常清楚,作者給Llama-3.1-Instruct開源模型增加了額外的系統提示詞,共包括八個階段,要求模型仔細閱讀問題,按照思考步驟數量設置計數器,並要求模型進行自我反思,完成全部解答階段後進行重新組織,形成最終輸出答案。
客觀來看,這個方法比較討巧,直接借用成熟的提示框架對開源模型的輸出結果進行限定,以生成類似的思考效果,卻不涉及上述的自我對弈強化學習過程。不過,這想必也不是開源復現版作者的本意。因為SambaNova作為AI推理加速服務商,更多是想展示牠們在多步推理中的加速效果,而非高級推理能力。
測試發現o1模型智商超群
如何更加直觀體現o1模型的推理能力,有人想到了進行智商測試。美國Tracking AI負責人Maxim Lott使用了門薩智商測試(Mensa Norway)對12個主流模型進行了測試,定期更新測試結果。
在最近的測試結果中,o1模型在35道題中答對了25道,智商達到121,是所有模型中唯一一個智商超過平均值(100)的模型。其它模型的智商多數普遍在80至90左右。
但是必須看到,由於這12個被測模型中既包括o1這樣的純文本模型,也包括GPT-4o、Gemini Advanced、Claude-3 Opus等多模態模型,而35道智商測試題中又有相當部分題目是複雜圖形推理題,因此測試者需要把題目和選項轉成非常全面的文本描述輸入給純文本模型,這個人工轉換過程或多或少會讓純文本模型在測試結果上獲得一定優勢。
當然,就算排除掉這一點優勢因素,o1模型在智商測試中所體現出來的複雜推理能力依然處於明顯的領先位置。
OpenAI對o1模型的階段定位
OpenAI的CEO Sam Altman在最近的表態中,將o1模型比喻成過去GPT系列模型的GPT-2,這似乎側面印證了o1模型雖然表現出了顯著的能力提升,但同時也存在著明顯的缺點。
回顧過去,在發展GPT系列模型時,也是一直演進到GPT-3.5的階段,才推出了ChatGPT引發了巨大關注。
展望後續的發展路線,如今o1模型已經來到了OpenAI之前提出5層通用人工智能的第2層(推理者,Reasoner),並將繼續向之後第3層至第5層的智能代理(Agent)、創新者(Innovator)和組織者(Organizer)持續攀登。
你可能感興趣的
- 天津兒童心理咨詢哪家醫院好孩子什麽時候需要心理咨詢?_情緒_人際關係_支持
- 測試:4種動物,你最喜歡哪種?秒測出你的性格特色_事情_樣子_傲氣
- 當我在DeepSeek輸入“2025高考地理預測”......_分析_區域_生態
- 替大家試過了,deepseek測婚姻八字真的很準(附操作流程)_DeepSeek_隊友_性格
- 心理咨詢師報考條件,心理咨詢師報考費用_考試_培訓_證書費
- 重慶衛健委心理咨詢師證報考方式_證書_職業_企事業
- 心理資本師貴在勇於自我心理探險_內心_韓國中_經歷
- 成都心理咨詢|結婚的焦慮_婚姻_生活_社會
- 麥琪講師-中科院心理咨詢師_管理_無錫_企業
- “愈”見心理‖當“情緒感冒”遇上萬物生長——春季心理防護指南(第9期)_錦囊_社交_任何原因