日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

只用512張H200!106B模型靠分布式RL殺出重圍,全網開源

   時間:2025-12-11 17:05:13 來源:新智元編輯:快訊 IP:北京 發表評論無障礙通道
 

最近,Prime Intellect正式發布了INTELLECT-3。

這是一款擁有106B參數的混合專家(Mixture-of-Experts)模型,基于Prime Intellect的強化學習(RL)技術棧訓練。

在數學、代碼、科學與推理的各類基準測試上,它達成了同規模中最強的成績,甚至超越了不少更大的前沿模型。

Prime Intellect已經把完整的訓練流程——包括模型權重、訓練框架、數據集、RL環境和評測體系——全部開源,希望能推動更多關于大規模強化學習的開放研究。

INTELLECT-3使用的訓練軟件與基礎設施,與即將在Prime Intellect平臺向所有人開放的版本完全一致。

這意味著未來每個人、每家公司都能擁有對最先進模型進行后訓練的能力。

多項基準,斬獲SOTA

INTELLECT-3是一個106B參數的Mixture-of-Experts(MoE)模型,基于GLM 4.5 Air進行了監督微調(SFT)和強化學習訓練。

它在數學、代碼、科學和推理類Benchmark上均取得了同體量中的最強表現。

訓練框架

訓練中,Prime Intellect使用了以下核心組件:

PRIME-RL:自研的分布式RL框架,支持監督微調和大規模MoE模型的強化學習。

Verifiers與 Environments Hub:統一的環境接口與生態,用于各類智能體式RL環境與評測。

Prime Sandboxes:高吞吐、安全的代碼執行系統,用于智能體代碼類環境。

算力編排:在64個互聯節點上的512張NVIDIA H200 GPU完成調度與管理。

INTELLECT-3完整使用PRIME-RL進行端到端訓練。

這套框架與Verifiers環境深度整合,支撐從合成數據生成、監督微調、強化學習到評估的整個后訓練體系。

通過與Environments Hub的緊密連接,訓練系統可以順暢訪問不斷擴展的環境與評測任務集合。

PRIME-RL最顯著的特點是全分布式(async-only)。

研究團隊在上一代INTELLECT-2時就已經確認:

RL的未來一定是分布式的,也就是始終處于輕微off-policy的狀態。

因為在長時序智能體rollout中,分布式是唯一能避免速度瓶頸、真正擴大訓練規模的方式。

過去6個月,研究團隊重點做了大量關于性能、穩定性和大規模效率的消融實驗,INTELLECT-3正是這些研究的成果。

Prime Intellect也將在即將上線的Lab平臺提供托管式PRIME-RL,訪問者無需處理復雜基礎設施就能進行大規模RL訓練。

訓練環境

INTELLECT-3的訓練環境由Verifiers庫構建,并托管于Environments Hub,這是Prime Intellect面向社區的RL環境與評測中心。

Verifiers是當前領先的開源工具,用來為模型構建RL環境與評測任務。

它提供模塊化、可擴展的組件,讓復雜環境邏輯也能以簡潔方式描述,同時保持極高性能與吞吐。

傳統的RL框架通常把環境強綁定在訓練倉庫里,使得版本管理、消融與外部貢獻都不方便。

Environments Hub則把基于Verifiers的環境作為獨立、可鎖定版本的Python模塊發布,并統一入口點,讓任務可以獨立版本化、共享與持續迭代。

INTELLECT-3使用的所有環境和評測,均已公開在Environments Hub。

為了支持強化學習,Prime Intellect大幅擴展并升級了自研的Sandboxes基礎設施。

在幾千條并發rollout中安全執行外部代碼,需要一個具備亞秒級啟動、毫秒級執行延遲的容器編排層。

雖然Kubernetes提供了底層能力,但常規架構并無法滿足這種高速度的訓練需求。

Prime Sandboxes可以繞過Kubernetes控制面板,通過Rust直接與pod通信,做到接近本地進程的延遲;即使在大規模并發下也能在10秒內啟動,且每個節點可穩定運行數百個隔離沙箱。

在Verifiers中,研究人員將沙箱啟動與模型首輪推理并行,從而完全消除代碼執行前的可感知等待時間。

算力調度

研究人員在64個互聯節點上部署了512張NVIDIA H200 GPU。

最大工程挑戰是如何在可能出現硬件故障的分布式系統里保持確定性與同步。

資源準備:使用Ansible做基礎設施即代碼、自動發現硬件,并進行InfiniBand預檢以隔離慢節點或故障節點。

調度:通過Slurm+ cgroup v2確保任務可以干凈退出,不會留下占用GPU顯存的殘留進程。

存儲:用Lustre提供高吞吐訓練I/O,用NVMe NFS作為快速元數據與便捷SSH存儲。

可觀測性:通過DCGM+ Prometheus監控,能在問題擴大前快速發現并下線不穩定節點。

訓練方案

INTELLECT-3主要分兩階段:

基于GLM-4.5-Air的監督微調,以及大規模RL訓練。

兩個階段以及多輪消融實驗都在512張H200 GPU上運行,總共持續兩個月。

研究人員訓練了覆蓋數學、代碼、科學、邏輯、深度研究、軟件工程等類別的多樣化RL環境,用來提升模型的推理與智能體能力。

所有環境均已在Environments Hub上公開。

所有基準測試也都提供了標準化且驗證過的實現。

未來,Prime Intellect的工作重點包括:

擴展智能體式RL:研究人員將繼續訓練,并更強調智能體環境,預計能在更多任務上獲得進一步提升。

更豐富的RL環境:Environments Hub已擁有 500+ 任務,涵蓋研究、電腦使用、定理證明、自動化和專業領域。INTELLECT-3 只用到了其中一小部分,下一步是讓RL覆蓋更多、更高質量的社區任務。

長時序智能體:研究人員正在讓模型能夠自我管理上下文(如裁剪上下文、分支推理、維護輕量外部記憶),從而讓長時序行為真正可通過RL訓練。未來也會探索專門獎勵長時序推理的環境。

Prime Intellect正在構建開放的超級智能技術棧,把訓練前沿模型的能力交到每個人手里。

INTELLECT-3 也證明:即使不是大實驗室,也可以訓練出與頂尖團隊同臺競技的模型。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
国精产品一区一区三区mba视频| 亚洲欧美偷拍三级| 91精品蜜臀在线一区尤物| 色综合久久中文综合久久97| 91免费在线播放| 99视频在线观看一区三区| caoporn国产一区二区| 国产成人av电影免费在线观看| 六月丁香婷婷色狠狠久久| 久久国产视频网| 国产福利不卡视频| 91女神在线视频| 欧美调教femdomvk| 日韩欧美亚洲国产另类| 久久久久高清精品| 亚洲日本一区二区三区| 亚洲va韩国va欧美va精品| 日本欧美大码aⅴ在线播放| 久久99蜜桃精品| av在线一区二区| 在线播放一区二区三区| www国产成人| 国产精品另类一区| 日韩精品免费视频人成| 精品一二三四区| 91欧美一区二区| 精品久久一区二区三区| 一区二区三区四区视频精品免费 | 亚洲欧美色图小说| 婷婷中文字幕综合| 不卡免费追剧大全电视剧网站| 在线亚洲一区观看| 精品国产91九色蝌蚪| 亚洲另类春色国产| 国产美女一区二区三区| 欧美日韩在线一区二区| 久久久欧美精品sm网站| 亚洲国产综合91精品麻豆| 精品一区二区三区蜜桃| 精品视频在线视频| 中文字幕av一区二区三区高| 天天综合天天做天天综合| 成人免费视频一区| 欧美一级理论性理论a| 亚洲精品大片www| 国产精品77777竹菊影视小说| 欧洲国产伦久久久久久久| 国产色产综合色产在线视频| 日日夜夜免费精品| 日本韩国一区二区三区视频| 国产日产亚洲精品系列| 天涯成人国产亚洲精品一区av| 91免费在线视频观看| 欧美国产精品专区| 免费在线一区观看| 欧美日韩mp4| 一区二区三区日韩精品| 不卡区在线中文字幕| 久久久久久久网| 免费一区二区视频| 制服丝袜激情欧洲亚洲| 亚洲最大成人综合| 色婷婷综合久久久| 亚洲私人黄色宅男| 成人妖精视频yjsp地址| 国产欧美日韩视频一区二区| 激情成人综合网| 欧美一区二区三区四区视频| 亚洲不卡一区二区三区| 欧美视频一区二| 亚洲综合色成人| 欧美三级三级三级| 午夜亚洲国产au精品一区二区| 欧洲在线/亚洲| 午夜视频一区二区三区| 欧美日本在线观看| 午夜私人影院久久久久| 3atv一区二区三区| 蜜臀av一区二区三区| 欧美成人官网二区| 国产高清在线观看免费不卡| 欧美激情一区在线| 91免费看片在线观看| 亚洲精品你懂的| 4438x亚洲最大成人网| 三级欧美在线一区| 精品国产伦一区二区三区观看方式 | 成人av在线影院| 中文字幕五月欧美| 欧美午夜电影网| 日韩中文字幕不卡| 久久亚洲一区二区三区明星换脸| 九九九精品视频| 国产精品久久久久aaaa| 日本韩国视频一区二区| 亚洲成av人片一区二区| 日韩美女视频在线| 成人性生交大合| 亚洲成av人片在线| 欧美日本乱大交xxxxx| 麻豆精品一区二区三区| 久久免费美女视频| 99久久久国产精品| 奇米影视一区二区三区小说| 99久久精品国产一区二区三区 | 国产精品丝袜一区| 日本精品一级二级| 精品一区二区三区视频在线观看| 日本一二三四高清不卡| 欧美久久婷婷综合色| 国产伦精品一区二区三区免费迷| 日韩一区中文字幕| 7777精品伊人久久久大香线蕉的 | 亚洲午夜激情av| 精品99999| 在线欧美日韩精品| 国产米奇在线777精品观看| 亚洲一级在线观看| 国产精品污污网站在线观看| 91精品国产综合久久香蕉的特点| 成人黄色小视频| 久久国产夜色精品鲁鲁99| 亚洲人成精品久久久久| 久久综合色天天久久综合图片| 色88888久久久久久影院按摩| 国产制服丝袜一区| 婷婷一区二区三区| 亚洲日本va在线观看| 久久亚洲捆绑美女| 欧美精品v日韩精品v韩国精品v| 91麻豆蜜桃一区二区三区| 免费久久精品视频| 天堂va蜜桃一区二区三区 | 亚洲h精品动漫在线观看| 欧美激情一区在线观看| 久久久久国产一区二区三区四区| 欧美精品日韩综合在线| 在线亚洲人成电影网站色www| 国产成人av福利| 国产成人午夜视频| 国产精品一区在线观看乱码| 精品一区二区在线观看| 五月激情丁香一区二区三区| 亚洲伊人色欲综合网| 亚洲精品高清在线观看| 亚洲男人天堂一区| 国产精品视频一二三| 国产欧美精品国产国产专区| 久久精品一区八戒影视| 久久久噜噜噜久噜久久综合| 日韩欧美国产综合在线一区二区三区| 欧美日韩一区二区电影| 欧美亚洲禁片免费| 欧美视频一区在线| 6080国产精品一区二区| 欧美另类高清zo欧美| 欧美在线不卡视频| 在线观看www91| 337p亚洲精品色噜噜| 日韩一级大片在线| 精品国产亚洲在线| 国产女主播一区| 亚洲视频一区在线观看| 日韩精品午夜视频| 综合久久一区二区三区| 中文字幕精品三区| 亚洲女人小视频在线观看| 亚洲综合免费观看高清完整版在线| 亚洲靠逼com| 亚洲乱码国产乱码精品精的特点 | 亚州成人在线电影| 美脚の诱脚舐め脚责91| 国产麻豆视频一区| 色综合久久综合网欧美综合网| 欧美优质美女网站| 日韩一本二本av| 中文字幕不卡一区| 中文字幕亚洲电影| 免费人成黄页网站在线一区二区| 国产一区二区三区av电影| voyeur盗摄精品| 在线免费av一区| 精品免费日韩av| 国产精品国产三级国产| 亚洲成人免费看| 国产成人在线色| 欧美色国产精品| 欧美高清在线精品一区| 亚洲色欲色欲www在线观看| 五月激情六月综合| 成人国产精品免费观看| 欧美日本在线观看| 国产精品美女久久久久久久| 亚洲午夜视频在线| 成人免费av在线| 欧美夫妻性生活| 亚洲视频中文字幕| 国产乱码精品一区二区三区忘忧草| 99re8在线精品视频免费播放| 欧美日韩亚洲另类|