5 月 13 日消息,科技媒體 The Decoder 昨日(5 月 12 日)發布博文,報道稱 OpenAI 高級模型開發負責人 Jakub Pachocki 指出,AI 推理模型正展現出自主生成知識的潛力。
他認為這種推理并非人類思維的翻版,而是基于數據和算法的獨特過程。IT之家援引博文介紹,Pachocki 解釋,AI 的學習分為兩個階段:首先是無監督預訓練,模型吸收海量數據,構建一個無意識、無時間線的“世界模型”(world model),以此理解現實的基本框架。
第二階段則是通過強化學習與人類反饋(RLHF)將基礎模型轉化為實用助手。Pachocki 強調,這一階段在最新的推理模型中尤為關鍵。
OpenAI 同時結合傳統強化學習,處理有明確對錯的任務,而 RLHF 則更適合復雜問題,盡管其擴展性有限。他還質疑預訓練與強化學習是否應視為獨立階段,認為推理模型的“思考”根植于預訓練數據,二者需深度融合。
近期一篇論文指出,推理訓練并未為模型增添全新能力,而是幫助它們更高效地應用已有知識。例如,模型能以更結構化的方式解決已知問題。Pachocki 對此表示認同,并補充,模型已展現出發現新見解的潛力,這為 AI 的未來應用奠定了基礎。
對于通用人工智能(AGI),Pachocki 表示其觀點不斷演變。他回憶作為學生時,他認為 AI 掌握圍棋是遙不可及的目標,但 2016 年 AlphaGo 的勝利徹底改變了他的認知。
如今,他將 AI 的經濟價值視為下一個里程碑,強調 AI 需實現商業成果并開展自主研究。他預測,到本世紀末,AI 自主研究將取得“實質性進展”,甚至今年內可能出現近乎自主的軟件開發系統。