東北大學“小牛翻譯”團隊近日宣布開源其最新研發的多語言翻譯大模型NiuTrans.LMT,該模型支持60種語言的雙向互譯,覆蓋234個翻譯方向,不僅構建了以中文和英文為核心的全語種橋梁,更在藏語、阿姆哈拉語等29種低資源語言翻譯領域實現重大突破,為全球語言平等提供了關鍵技術支撐。
與傳統翻譯模型依賴英語作為單一樞紐不同,NiuTrans.LMT采用中-英雙中心架構設計。這一創新模式支持中文與58種語言、英文與59種語言的直接高質量互譯,避免了傳統“中文→英文→小語種”路徑可能導致的語義失真。尤其對“一帶一路”沿線國家而言,該架構顯著提升了中文與當地語言的溝通效率,推動了跨文化交流的去中介化進程。
在語言資源覆蓋方面,模型通過三級分層策略實現效率與公平的平衡:針對法語、阿拉伯語等13種高資源語言,翻譯質量已達到人類水平;印地語、芬蘭語等18種中資源語言的翻譯在專業術語和語法結構上保持高度準確性;針對藏語、斯瓦希里語等29種低資源語言,通過數據增強和遷移學習技術,成功突破了“不可譯”的技術瓶頸,使這些語言的翻譯從“無法使用”提升至“可用”水平。
該模型在FLORES-200多語言基準測試中表現優異,位居全球開源模型首位。其卓越性能源于獨特的兩階段訓練方法:在包含900億tokens的多語言語料庫中進行均衡預訓練,確保小語種數據不被稀釋;隨后通過整合FLORES-200、WMT等權威數據集(含56.7萬條樣本、覆蓋117個翻譯方向)進行監督微調,優化翻譯準確性和風格一致性。
為滿足不同應用場景需求,團隊同步開源了四種參數規模的模型版本,包括0.6B、1.7B、4B和8B。其中輕量級版本可在消費級GPU上運行,適用于移動端部署;8B版本則面向企業級高精度需求,支持API集成和私有化部署。所有模型均已在GitHub和Hugging Face平臺開放下載。
行業觀察人士指出,NiuTrans.LMT的開源不僅代表技術突破,更體現了對語言多樣性保護的實際行動。當AI能夠精準傳遞藏語詩歌的韻律、非洲諺語的智慧或北歐古語的內涵時,技術才真正具備了人文溫度。這項成果為構建無語言障礙的數字世界奠定了重要基礎。
項目開源地址:https://github.com/NiuTrans/LMT










