快手近日正式開源了其最新一代多模態(tài)大模型Keye-VL-671B-A37B,這款基于DeepSeek-V3-Terminus架構(gòu)的模型擁有6710億參數(shù),在視覺感知、跨模態(tài)對(duì)齊和復(fù)雜推理能力上實(shí)現(xiàn)了顯著突破。通過系統(tǒng)化的預(yù)訓(xùn)練和后訓(xùn)練策略,該模型在通用視覺理解和視頻理解領(lǐng)域展現(xiàn)出超越同類產(chǎn)品的性能表現(xiàn)。
在圖像識(shí)別測(cè)試中,Keye-VL-671B-A37B展現(xiàn)出驚人的細(xì)節(jié)捕捉能力。當(dāng)面對(duì)三張票據(jù)的識(shí)別任務(wù)時(shí),模型不僅準(zhǔn)確識(shí)別出文字和版式差異,更通過邏輯推理判斷出其中僅有兩張為電影票,第三張實(shí)為食品兌換券。這種超越表面識(shí)別的深度理解能力,源于模型對(duì)視覺元素與語義信息的精準(zhǔn)關(guān)聯(lián)。在視頻理解測(cè)試中,該模型能精準(zhǔn)捕捉"藍(lán)色雙層電車"等核心元素,并完整復(fù)現(xiàn)鏡頭運(yùn)動(dòng)軌跡和場景轉(zhuǎn)換細(xì)節(jié)。
性能對(duì)比數(shù)據(jù)顯示,在26項(xiàng)主流基準(zhǔn)測(cè)試中,新模型在18項(xiàng)指標(biāo)上取得領(lǐng)先成績。特別是在STEM、推理、視頻理解等復(fù)雜任務(wù)領(lǐng)域,其表現(xiàn)超越字節(jié)跳動(dòng)Seed1.5-VL think和阿里Qwen3-VL 235B-A22B等前沿模型。這種優(yōu)勢(shì)得益于其獨(dú)特的三階段預(yù)訓(xùn)練體系:首階段凍結(jié)視覺與語言模塊,專注特征對(duì)齊;次階段全參數(shù)訓(xùn)練;末階段通過退火訓(xùn)練強(qiáng)化細(xì)粒度感知。整個(gè)過程僅使用300B高質(zhì)量數(shù)據(jù),相比其他動(dòng)輒萬億級(jí)的數(shù)據(jù)規(guī)模,展現(xiàn)出更高的訓(xùn)練效率。
后訓(xùn)練階段采用創(chuàng)新的混合數(shù)據(jù)策略,將指令數(shù)據(jù)與長思維鏈(Long-CoT)數(shù)據(jù)按特定比例融合。實(shí)驗(yàn)表明,這種組合使模型在保持指令響應(yīng)能力的同時(shí),顯著提升復(fù)雜推理的穩(wěn)定性。技術(shù)團(tuán)隊(duì)開發(fā)的嚴(yán)格數(shù)據(jù)篩選流程,有效過濾了冗余反思內(nèi)容,確保思維鏈數(shù)據(jù)的精煉性。在強(qiáng)化學(xué)習(xí)環(huán)節(jié),模型采用阿里Qwen3系列同源的GSPO算法,通過序列層建模提升訓(xùn)練穩(wěn)定性,并配備專用Verifier模型驗(yàn)證推理邏輯,使答案準(zhǔn)確率提升顯著。
該模型現(xiàn)已在Hugging Face和GitHub平臺(tái)開放下載,開發(fā)者可訪問指定鏈接獲取完整代碼庫。其視覺編碼器繼承自今年9月開源的Keye-VL-1.5模型,該80億參數(shù)版本已支持128k tokens上下文擴(kuò)展。技術(shù)文檔顯示,新模型在多模態(tài)數(shù)學(xué)數(shù)據(jù)集上的平均準(zhǔn)確率提升達(dá)1.33%,在開源感知基準(zhǔn)測(cè)試中提升1.45%,展現(xiàn)出強(qiáng)大的跨領(lǐng)域適應(yīng)能力。
通過持續(xù)優(yōu)化數(shù)據(jù)管線,快手構(gòu)建了覆蓋OCR、圖表、表格等復(fù)雜格式的自動(dòng)化處理流程。這種系統(tǒng)化訓(xùn)練方法使模型能準(zhǔn)確解析視覺信號(hào)中的關(guān)鍵信息,為后續(xù)開發(fā)多模態(tài)Agent能力奠定基礎(chǔ)。當(dāng)前版本已具備基礎(chǔ)工具調(diào)用能力,未來將強(qiáng)化在真實(shí)場景中的自主推理與任務(wù)執(zhí)行能力,推動(dòng)多模態(tài)系統(tǒng)向更實(shí)用的方向發(fā)展。














