商湯科技近日宣布,與南洋理工大學(xué) S-Lab 聯(lián)合研發(fā)的多模態(tài)模型架構(gòu) NEO 正式開源發(fā)布。這一成果為日日新 SenseNova 多模態(tài)模型提供了新一代架構(gòu)支撐,標(biāo)志著多模態(tài)領(lǐng)域的技術(shù)突破邁出重要一步。

與傳統(tǒng)模塊化設(shè)計不同,NEO 架構(gòu)從底層原理出發(fā),采用原生多模態(tài)設(shè)計理念,通過核心架構(gòu)層面的深度融合,實現(xiàn)了性能、效率與通用性的全面提升。研發(fā)團隊在注意力機制、位置編碼和語義映射三個關(guān)鍵維度進行底層創(chuàng)新,使模型能夠統(tǒng)一處理視覺與語言信息,突破了單一模態(tài)的局限性。
針對跨模態(tài)訓(xùn)練中常見的語言能力退化問題,NEO 架構(gòu)引入 Pre-buffer & Post-LLM 雙階段融合訓(xùn)練策略。該策略在保留原始大語言模型完整推理能力的基礎(chǔ)上,從零構(gòu)建視覺感知模塊,確保兩種模態(tài)能力同步增強且互不干擾。這種創(chuàng)新訓(xùn)練方式有效解決了傳統(tǒng)方法中語言能力受損的技術(shù)瓶頸。
為推動行業(yè)技術(shù)發(fā)展,商湯科技已開源基于 NEO 架構(gòu)的 2B 與 9B 兩種參數(shù)規(guī)模的模型。這兩個版本既保持了架構(gòu)的核心優(yōu)勢,又為不同應(yīng)用場景提供了靈活選擇。開源社區(qū)可通過這些基礎(chǔ)模型開展二次開發(fā),加速原生多模態(tài)架構(gòu)的技術(shù)迭代與應(yīng)用落地。











