人工智能領域正經歷一場靜默卻深刻的范式變革,其影響或將與Transformer架構的誕生相提并論。過去一年間,行業內部對技術發展路徑的認知出現顯著分歧:部分觀點認為預訓練模型已觸及天花板,而另一派則持續發布迭代版本,引發關于AI發展速度的激烈討論。針對這些爭議,Transformer核心作者之一、現任OpenAI研究科學家的?ukasz Kaiser通過獨家訪談,從技術演進、模型迭代和未來趨勢三個維度展開系統性回應。
針對"AI增長停滯"的質疑,Kaiser提出截然不同的觀察視角。他指出,從內部研發視角看,AI能力提升始終遵循指數曲線規律,類似摩爾定律的持續生效。當前外界感知的"放緩"現象,實則源于底層技術范式從預訓練向推理模型的遷移。這種轉變如同技術發展的S型曲線切換——預訓練已進入增長平緩期,而推理模型仍處于早期爆發階段。以ChatGPT為例,早期版本僅能基于訓練數據直接輸出答案,而當前版本已具備自主調用搜索引擎、進行多步驟推理的能力,這種質變在用戶端卻因交互體驗的漸進性而被低估。
推理模型的核心突破在于引入思維鏈機制。與傳統深度學習通過梯度下降優化參數不同,新范式采用強化學習框架,允許模型在生成最終答案前進行中間步驟推導,并可調用外部工具輔助決策。Kaiser特別強調,這種訓練方式需要更精細的數據標注和更復雜的獎勵機制設計,例如通過大模型評估答案質量或融入人類偏好反饋。以代碼生成工具Codex為例,其已改變程序員工作模式,形成"AI初稿+人工微調"的新協作范式,這種變革在非專業領域卻鮮被察覺。
關于GPT-5.1的迭代邏輯,Kaiser揭示了命名規則背后的戰略調整。新版本看似微小升級,實則聚焦后訓練階段的穩定性優化,包括增強安全性、減少幻覺現象,并新增"專業""極客"等個性化風格選項。版本命名體系從此前的技術參數導向,轉變為用戶體驗導向:基礎版強調核心能力,.1版本代表綜合性能提升,Mini版主打輕量化部署,推理版則專注復雜任務處理。這種轉變使OpenAI得以并行推進預訓練、強化學習等多個項目,并通過知識蒸餾技術快速整合成果,顯著縮短模型迭代周期。
技術短板方面,Kaiser坦承當前模型在多模態遷移能力上存在明顯缺陷。他以五歲兒童都能快速解答的奇偶數問題為例:當兩組點集存在共享點時,GPT-5.1和Gemini 3均會忽略共享點導致誤判,而兒童卻能瞬間得出正確結論。這暴露出模型在空間推理和經驗遷移方面的不足,未來訓練將重點強化跨模態理解能力,使視覺、語言等不同模態的推理經驗實現互通。
回顧Transformer的誕生歷程,Kaiser分享了這段改變AI進程的協作往事。作為八位共同作者中唯一未與其他成員線下會面的研究者,他通過編碼和系統架構設計貢獻關鍵力量。團隊成員分工涵蓋注意力機制設計、知識存儲方案和工程實現等多個維度,最終突破"專模專用"的行業慣性。這種跨地域、跨學科的協作模式,在深度學習尚未普及的年代顯得尤為超前。談及職業轉折,Kaiser透露離開谷歌加入OpenAI的重要原因,是后者靈活的項目制組織和資源調配機制,這種模式更適配AI研發對快速迭代的需求。
對于AI就業影響,Kaiser持審慎樂觀態度。他以翻譯行業為例:盡管機器翻譯已能處理多數語言轉換任務,但廣告文案、界面文本等高風險場景仍需人工審核。這種分工模式預示著未來職業形態的演變——基礎性工作將被自動化取代,但人類專家在復雜決策、倫理審查等領域的價值將進一步凸顯。在具身智能領域,他預測家用機器人將成為繼大語言模型后的下一個突破口。隨著多模態推理和通用強化學習技術的成熟,結合硅谷企業正在推進的智能硬件創新,物理世界交互能力將迎來質的飛躍,這種變革將比語言模型更直觀地改變人類生活方式。










