商湯科技與南洋理工大學S-Lab實驗室聯合宣布,推出全球首個原生多模態架構NEO,并同步開源20億(2B)與90億(9B)參數規模的預訓練模型。該架構突破傳統多模態模型“視覺編碼器+投影層+語言模型”的堆疊式設計,通過重構注意力機制、位置編碼和語義映射等核心模塊,在數據效率與計算性能上實現顯著突破。據官方披露,NEO在同等性能水平下所需訓練數據僅為行業平均值的十分之一,首次實現從圖像像素到語義token的端到端連續映射。
技術層面,NEO架構采用三大創新設計:原生圖塊嵌入層直接處理原始像素數據,摒棄傳統需要獨立圖像分詞器的方案;三維旋轉位置編碼(Native-RoPE)創新性地在統一向量空間中編碼文本與視覺信號的時空頻率特征;多頭注意力機制采用“視覺雙向建模+文本自回歸生成”的混合計算模式,使空間結構關聯度提升24%。這些改進使得模型在0.6億至8億參數區間內,于ImageNet圖像分類、COCO目標檢測和Kinetics-400視頻理解三大基準測試中均取得最優(SOTA)成績,同時在邊緣設備上的推理延遲控制在80毫秒以內。
開源社區已同步上線模型權重文件與完整訓練腳本,開發者可基于MIT協議自由使用。商湯科技進一步透露,2025年第一季度將追加開源支持3D空間感知與動態視頻理解的擴展版本。行業分析指出,NEO架構通過深度融合視覺與語言模態的底層表征,打破了傳統多模態模型“模塊拼接”的技術范式,為移動端和物聯網設備部署高性能小模型提供了全新技術路徑。該成果在GitHub發布后,已獲得超過3000名開發者的關注,預訓練模型下載量突破5萬次。











