快手近日正式發(fā)布其新一代旗艦多模態(tài)模型 Keye-VL-671B-A37B,并同步開放代碼。這一模型以其 “善看會想” 的特性,在通用視覺理解、視頻分析和數(shù)學(xué)推理等多項核心 benchmark 中表現(xiàn)突出,進一步鞏固了快手在人工智能領(lǐng)域的技術(shù)實力。
Keye-VL-671B-A37B 的設(shè)計理念在于實現(xiàn)更高層次的多模態(tài)理解和復(fù)雜推理。該模型在基礎(chǔ)模型的強大通用能力之上,針對視覺感知、跨模態(tài)對齊及復(fù)雜推理鏈路進行了系統(tǒng)升級,從而提升了其在各種場景下的響應(yīng)準(zhǔn)確性和穩(wěn)定性。這意味著,無論是日常應(yīng)用還是高難度任務(wù),Keye-VL-671B-A37B 都能提供更為精準(zhǔn)的結(jié)果。
在技術(shù)架構(gòu)方面,Keye-VL-671B-A37B 采用 DeepSeek-V3-Terminus 作為大語言模型基座,并通過 MLP 層與視覺模型 KeyeViT 相連接,后者則是基于 Keye-VL-1.5進行初始化。模型的預(yù)訓(xùn)練過程分為三個階段,以系統(tǒng)性地構(gòu)建其多模態(tài)理解與推理能力。通過嚴(yán)格篩選的300B 高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù),Keye-VL-671B-A37B 在確保視覺理解能力扎實的同時,控制了計算成本。
具體訓(xùn)練流程包括凍結(jié)視覺與語言模型參數(shù),進行初步對齊訓(xùn)練,接著開放全部參數(shù)進行全面預(yù)訓(xùn)練,最后在更高質(zhì)量的數(shù)據(jù)上進行退火訓(xùn)練,顯著提升模型的細粒度感知能力。模型的后訓(xùn)練過程涵蓋監(jiān)督微調(diào)、冷啟動和強化學(xué)習(xí)等步驟,訓(xùn)練任務(wù)涵蓋視覺問答、圖表理解、富文本 OCR 等領(lǐng)域。
快手表示,未來 Keye-VL 將持續(xù)提升基礎(chǔ)模型能力,同時進一步融合多模態(tài) Agent 能力,向更 “會用工具、能解復(fù)雜問題” 的智能形態(tài)發(fā)展。模型的多輪工具調(diào)用能力將被強化,使其在實際任務(wù)中能夠自主調(diào)用外部工具,完成復(fù)雜的搜索、推理和信息整合。Keye-VL 還將在 “think with image” 和 “think with video” 等關(guān)鍵方向上深入探索,使模型不僅能理解圖像與視頻,還能圍繞這些內(nèi)容進行深度思考與鏈?zhǔn)酵评怼?/p>
通過基礎(chǔ)能力與 Agent 能力的雙輪驅(qū)動,快手的 Keye-VL 目標(biāo)是不斷拓展多模態(tài)智能的上限,邁向更通用、更可靠和更強推理能力的下一代多模態(tài)系統(tǒng)。這一創(chuàng)新將為多模態(tài) AI 的發(fā)展帶來新的機遇與挑戰(zhàn)。











