阿布扎比人工智能企業(yè)G42近日宣布,正式推出名為NANDA87B的開源多語言模型。這款擁有87億參數(shù)的模型以印地語和英語為核心開發(fā),現(xiàn)已通過穆罕默德?本?扎耶德人工智能大學(MBZUAI)的Hugging Face平臺向全球開發(fā)者開放權重文件,允許自由使用與二次開發(fā)。
該模型由MBZUAI聯(lián)合G42旗下Inception公司及芯片制造商Cerebras共同研發(fā),其技術架構基于Llama-3.170B模型優(yōu)化而成。研發(fā)團隊在超過650億個印地語數(shù)據(jù)標記上完成訓練,并采用定制化分詞器提升處理效率。據(jù)介紹,這種設計使模型能更精準地識別印地語特有的語法結構與表達習慣。
G42印度業(yè)務負責人馬努?賈因強調,這款模型承載著推動印度本土技術發(fā)展的戰(zhàn)略意義。"印度需要掌握自主語言技術的世界級解決方案,NANDA87B的推出標志著這個進程的重要突破。"他透露,模型將重點支持教育、媒體娛樂和商業(yè)創(chuàng)新三大領域的應用開發(fā)。
技術文檔顯示,NANDA87B具備處理三種印地語變體的能力:包括標準書面語、日常口語以及融合英語的混合表達(Hinglish)。在功能測試中,該模型成功完成文本翻譯、內容摘要、指令響應和語音轉寫等復雜任務。研發(fā)團隊特別指出,模型內置了文化適配機制和安全過濾系統(tǒng),確保輸出內容符合當?shù)厣鐣?guī)范。
支撐這項技術突破的是G42與Cerebras聯(lián)合搭建的Condor Galaxy超級計算集群。該系統(tǒng)為模型訓練提供了前所未有的算力支持,使得大規(guī)模多語言數(shù)據(jù)處理成為可能。MBZUAI基礎模型研究所執(zhí)行董事理查德?莫頓評價稱,這次發(fā)布顯著提升了先進語言技術的普及程度,"為全球使用人口最多的語言社區(qū)之一打開了高質量技術資源的大門"。
目前,開發(fā)者社區(qū)已開始基于NANDA87B進行應用開發(fā)。有技術人員測試發(fā)現(xiàn),該模型在處理區(qū)域性方言和行業(yè)術語時表現(xiàn)出色,特別是在醫(yī)療、法律等專業(yè)領域的文本生成中展現(xiàn)出實用價值。隨著開源生態(tài)的完善,預計將涌現(xiàn)出更多針對印度市場的定制化AI解決方案。











