人工智能領域迎來重要進展,Prime Intellect公司正式推出其最新研發的混合專家模型——INTELLECT-3。這款擁有1060億參數的模型,在數學、代碼編寫、科學研究和邏輯推理等多個基準測試中展現出卓越性能,不僅在同規模模型中名列前茅,甚至超越了部分更大規模的先進模型。
該模型基于GLM 4.5 Air架構,通過監督微調與強化學習技術相結合的方式進行訓練。Prime Intellect公司選擇完全開源其訓練流程,包括模型權重、訓練框架、數據集、強化學習環境及評測體系,旨在推動大規模強化學習領域的開放研究。這一舉措使得全球開發者能夠基于完整的技術棧進行二次開發和創新。
訓練系統采用全分布式架構,核心組件包括自主研發的PRIME-RL框架、Verifiers環境庫與Environments Hub評測中心。PRIME-RL框架專為大規模混合專家模型設計,支持異步訓練模式,有效解決了長時序智能體訓練中的速度瓶頸問題。該框架與Verifiers環境庫深度整合,形成從數據生成到模型評估的完整訓練閉環。
在硬件基礎設施方面,研究團隊部署了由64個互聯節點組成的計算集群,配備512張NVIDIA H200 GPU。為確保訓練穩定性,系統采用多層防護機制:通過InfiniBand網絡隔離故障節點,利用Slurm調度系統管理資源分配,并借助Lustre文件系統提供高吞吐數據讀寫支持。實時監控系統可提前識別硬件異常,確保大規模訓練的連續性。
針對代碼執行環境的特殊需求,Prime Intellect開發了Prime Sandboxes高吞吐執行系統。該系統通過Rust語言直接與容器編排層通信,將代碼啟動延遲壓縮至亞秒級,即使在數千并發任務下仍能保持穩定運行。研究團隊創新性地將沙箱初始化與模型推理過程并行處理,徹底消除代碼執行前的等待時間,顯著提升訓練效率。
訓練過程分為兩個主要階段:首先基于GLM-4.5-Air進行監督微調,隨后展開大規模強化學習訓練。整個流程持續兩個月,期間研究人員設計了覆蓋數學推理、編程能力、科學探究等領域的多樣化訓練環境。所有訓練任務及評測基準均通過Environments Hub平臺公開,目前該平臺已收錄超過500個標準化任務,涵蓋學術研究、自動化辦公、定理證明等多個維度。
當前研發重點正轉向智能體能力的深化拓展。研究團隊計劃通過增加智能體式訓練環境的比重,進一步提升模型在復雜任務中的自主決策能力。同時,環境庫將持續擴充高質量任務,特別關注長時序推理場景的構建,包括上下文管理、分支推理等關鍵技術的突破。這些進展將使模型逐步具備自我優化記憶管理和推理路徑的能力。
Prime Intellect通過開放完整技術棧,正在重塑前沿模型的開發范式。INTELLECT-3的成功證明,借助高效的分布式訓練框架與模塊化環境設計,中小型研發團隊同樣能夠達到國際頂尖水平。這種開放協作模式或將推動人工智能技術進入新的發展階段,使更多研究機構能夠參與超級智能技術的探索與創新。











