新V觀海外:o1模型的開源復現和智商測試_OpenAI_推理_Llama
經濟觀察報 社論 陳沛/文 自從OpenAI推出最新的高級推理模型o1,已經過去了10天左右的時間。
模型剛推出的時候,很多率先使用的用戶會覺得這個預覽版模型(o1-preview)的純文本模式和類似規劃代理的生成效果略感平淡,就像我在前一篇專欄中寫過的情況。
也有一些研究者試圖從OpenAI介紹的內容中針對自我對弈強化學習、數據合成等進行分析,以突出這個模型的特別提升之處。
在此期間,各種說法林林總總,不一而足。我則認為值得進一步分析的是隨後很快出現的o1模型開源復現版,以及最新的智商測試結果。
一週內出現o1開源復現效果
美國SambaNova公司的Kaizhao Liang在o1模型發佈一週內,就在HuggingFace上推出了一個類似o1模型思考過程的開源平替版——Llama3.1-Instruct-O1。
這個開源平替版用到了Llama-3.1-Instruct模型,用戶可以選擇405B、70B、8B三個開源模型版本,再設置思考步驟的限制(從1至100之間),然後就可以實現類似o1模型的思考過程。
實現原理非常清楚,作者給Llama-3.1-Instruct開源模型增加了額外的系統提示詞,共包括八個階段,要求模型仔細閱讀問題,按照思考步驟數量設置計數器,並要求模型進行自我反思,完成全部解答階段後進行重新組織,形成最終輸出答案。
客觀來看,這個方法比較討巧,直接借用成熟的提示框架對開源模型的輸出結果進行限定,以生成類似的思考效果,卻不涉及上述的自我對弈強化學習過程。不過,這想必也不是開源復現版作者的本意。因為SambaNova作為AI推理加速服務商,更多是想展示牠們在多步推理中的加速效果,而非高級推理能力。
測試發現o1模型智商超群
如何更加直觀體現o1模型的推理能力,有人想到了進行智商測試。美國Tracking AI負責人Maxim Lott使用了門薩智商測試(Mensa Norway)對12個主流模型進行了測試,定期更新測試結果。
在最近的測試結果中,o1模型在35道題中答對了25道,智商達到121,是所有模型中唯一一個智商超過平均值(100)的模型。其它模型的智商多數普遍在80至90左右。
但是必須看到,由於這12個被測模型中既包括o1這樣的純文本模型,也包括GPT-4o、Gemini Advanced、Claude-3 Opus等多模態模型,而35道智商測試題中又有相當部分題目是複雜圖形推理題,因此測試者需要把題目和選項轉成非常全面的文本描述輸入給純文本模型,這個人工轉換過程或多或少會讓純文本模型在測試結果上獲得一定優勢。
當然,就算排除掉這一點優勢因素,o1模型在智商測試中所體現出來的複雜推理能力依然處於明顯的領先位置。
OpenAI對o1模型的階段定位
OpenAI的CEO Sam Altman在最近的表態中,將o1模型比喻成過去GPT系列模型的GPT-2,這似乎側面印證了o1模型雖然表現出了顯著的能力提升,但同時也存在著明顯的缺點。
回顧過去,在發展GPT系列模型時,也是一直演進到GPT-3.5的階段,才推出了ChatGPT引發了巨大關注。
展望後續的發展路線,如今o1模型已經來到了OpenAI之前提出5層通用人工智能的第2層(推理者,Reasoner),並將繼續向之後第3層至第5層的智能代理(Agent)、創新者(Innovator)和組織者(Organizer)持續攀登。
你可能感興趣的
- 不同心理咨詢流派對移情與反移情的理解|飛米粒心理創始人許定遠_來訪者_自體_關係
- 如何應對實驗室懼怕心理與緊急情況_處理_聯絡_進行
- 八字免費測算APP_命運_組合_南坤
- 免費測八字APP_方陣_南坤_命運
- 蛇年生肖紀念幣面值改成5元?測試鏈接曝光!面值改不改?_號碼_溢價_價格
- 心學問教育怎麽樣?自我療癒的力量:青春期的自我安慰與心理恢復_方式_壓力_認知
- 3甲醫院的醫生更喜歡可編輯報告的心理測試軟件,為什麽?_病人_結果_李守龍
- 成都青少年心理咨詢|如何應對孩子“過剩”的虛榮心?_家長_物質_的需求
- “我很害怕,覺得自己被拋棄了”,看看這背後隱藏的心理創傷_銀川_測試_報告
- 昆山飛米粒心理咨詢:你在什麽時候覺得自己很厲害_瞬間_能力_價值