近日,科技領(lǐng)域迎來一項重要突破——DeepSeek團隊在GitHub平臺正式開源其最新研發(fā)的DeepSeek-OCR模型,該成果聚焦于光學(xué)字符識別技術(shù)的革新應(yīng)用。
作為針對長文本場景設(shè)計的創(chuàng)新方案,該模型采用約30億參數(shù)的輕量化架構(gòu),首次系統(tǒng)驗證了"光學(xué)二維映射壓縮"技術(shù)在復(fù)雜上下文處理中的可行性。研究團隊通過模塊化設(shè)計,將核心功能拆解為視覺編碼與文本解碼兩大組件。
在視覺處理環(huán)節(jié),DeepEncoder模塊展現(xiàn)出獨特優(yōu)勢。該組件能夠在接收高分辨率圖像輸入時,自動維持低激活狀態(tài),通過動態(tài)壓縮算法將視覺信息轉(zhuǎn)化為精簡的token序列。這種設(shè)計既保證了信息完整性,又顯著降低了計算資源消耗。
解碼部分則由改進型的DeepSeek3B-MoE-A570M架構(gòu)承擔(dān)。該解碼器通過混合專家系統(tǒng)(MoE)架構(gòu),實現(xiàn)了對視覺token的高效解析與文本重構(gòu)。實驗表明,當(dāng)視覺token與文本token的比例控制在1:10以內(nèi)時,模型識別準(zhǔn)確率可達97%;即使壓縮比例提升至20倍,仍能保持約60%的識別精度。
技術(shù)團隊特別指出,該模型的創(chuàng)新之處在于建立了視覺壓縮與文本生成的動態(tài)平衡機制。通過控制token壓縮比率,系統(tǒng)能夠在信息保留與計算效率間取得最優(yōu)解,這種特性為大語言模型的記憶管理提供了全新研究視角。
目前,開源版本已包含完整的訓(xùn)練框架與推理代碼,支持多種分辨率的文檔圖像處理。研究團隊表示,后續(xù)將重點優(yōu)化極端壓縮場景下的性能表現(xiàn),并探索該技術(shù)在多模態(tài)大模型中的擴展應(yīng)用。











