快手在人工智能領域再推重磅成果,正式對外發布新一代旗艦級多模態模型Keye-VL-671B-A37B,并同步開源其核心代碼。這款以“視覺理解與邏輯推理深度融合”為特色的模型,在通用視覺識別、視頻內容分析、數學問題求解等關鍵技術評測中展現出顯著優勢,標志著我國多模態大模型研發進入新階段。
技術團隊介紹,該模型通過架構創新實現了三大突破:在視覺感知層面,基于升級版KeyeViT視覺編碼器構建的視覺模塊,可精準捕捉圖像細節特征;跨模態對齊機制采用動態注意力分配策略,使文本與視覺信息的融合效率提升40%;推理鏈路設計引入層級化思維框架,支持從基礎認知到復雜決策的逐步推導。這些改進使模型在真實場景中的響應準確率達到92.3%,較前代產品提升17個百分點。
模型訓練體系呈現顯著工程化特征。研發團隊構建了包含3000億token的預訓練數據集,其中高質量圖文對占比達65%,視頻數據經過時空語義標注處理。訓練流程采用三階段漸進式優化:首階段凍結核心參數完成模態對齊,第二階段全參數聯合訓練構建基礎能力,最終通過退火訓練強化細粒度特征提取。后訓練階段引入多任務聯合優化機制,覆蓋視覺問答、圖表解析、多語言OCR等20余個專業領域。
在基礎架構方面,模型采用DeepSeek-V3-Terminus作為語言基座,通過多層感知機(MLP)實現與視覺模塊的解耦連接。這種設計既保證了語言理解能力的繼承性,又為視覺特征提取保留獨立優化空間。實測數據顯示,在處理包含復雜視覺元素的推理任務時,模型響應速度較傳統融合架構提升2.3倍,內存占用降低35%。
快手AI實驗室負責人透露,下一代研發將聚焦兩大方向:一是強化工具調用能力,通過構建多模態代理(Agent)系統,使模型能自主調用搜索引擎、計算器等外部工具;二是深化“視覺思維”研究,開發支持圖像/視頻內容深度解析的推理框架。目前團隊已啟動相關技術預研,預計年內推出具備初級工具使用能力的實驗版本。
行業分析師指出,該模型的開源策略將加速多模態技術生態建設。其提供的模塊化設計允許開發者根據需求定制功能組件,特別在醫療影像分析、工業質檢等垂直領域具有廣泛應用前景。隨著模型能力的持續進化,多模態AI系統正從單一感知向認知決策層面突破,這或將重新定義人機交互的技術邊界。








