北京人形機器人創新中心日前宣布,其自主研發的具身智能視覺-語言模型Pelican-VL 1.0正式面向全球開源。這款覆蓋7B與72B雙參數規模的模型,憑借其卓越性能被業界認定為"全球最大規模開源具身多模態大模型",同時以顯著優勢領跑同類技術。
性能測試數據顯示,Pelican-VL 1.0在核心指標上超越國際頂尖模型:較GPT-5同類架構提升15.79%,較Google Gemini系列提高19.25%,更全面領先通義千問、書生萬象等國內先進模型。這種突破性表現源于其獨特的訓練范式——全球首創的DPPO(刻意訓練)算法框架,通過模擬人類元認知學習機制,使模型在極低數據消耗下實現高效進化。
研發團隊創新性地將強化學習與監督微調深度融合,構建出"觀察-實踐-糾錯-提升"的閉環訓練體系。該系統如同具備自我反思能力的學習者,在每個訓練周期中自動識別知識盲區,通過生成針對性失敗案例進行精準優化。這種類人學習模式使模型僅需20萬條訓練數據即可達成最優性能,數據利用效率較傳統方法提升10至50倍。
支撐這項技術突破的是強大的計算基礎設施。研究團隊在由千余張A800 GPU組成的超算集群上完成模型訓練,單次檢查點消耗超5萬GPU小時。通過對數十億token級高質量元數據的深度挖掘,模型在基線性能上實現20.3%的提升,較同級別開源模型平均優勢達10.6%。
在具身智能應用層面,Pelican-VL 1.0展現出革命性突破。其整合的多模態感知系統能精準解析視覺信息與語言指令,結合物理世界常識進行復雜時空推理。這種能力使機器人可在商業服務、工業作業、家庭場景等真實環境中,自主完成從環境感知到動作規劃的全流程任務,為機器人全自主化發展奠定關鍵技術基礎。
該模型的開源將產生深遠行業影響。其提供的自適應學習機制與高效訓練方案,不僅降低了具身智能的技術門檻,更為產業界提供了可復用的創新范式。通過開放核心代碼與訓練框架,研究團隊期待推動中國在具身智能領域形成技術主導權,加速人工智能與實體經濟的深度融合。










