阿布扎比的人工智能集團 G42于周二正式發(fā)布了 NANDA87B,這是一款擁有87億參數(shù)的開源印英大型語言模型,標志著其早期版本 NANDA 的升級。NANDA87B 現(xiàn)已在 MBZUAI 的 Hugging Face 頁面上以開放權(quán)重的形式提供,開發(fā)者、創(chuàng)作者和企業(yè)可以自由使用并擴展其功能。
這款模型由穆罕默德?本?扎耶德人工智能大學(MBZUAI)與 G42旗下的 Inception 公司及芯片制造商 Cerebras 合作開發(fā)。NANDA87B 是基于 Llama-3.170B 模型構(gòu)建的,并在超過650億個印地語標記上進行訓(xùn)練,采用印地語專用的分詞器,以提高訓(xùn)練和推理的效率。
G42印度首席執(zhí)行官馬努?賈因表示:“印度應(yīng)當擁有能夠說其語言的世界級技術(shù)。NANDA87B 是朝著這一目標邁出的重要一步。” 他補充說,該模型旨在支持印度 AI 生態(tài)系統(tǒng)中的教育、娛樂和企業(yè)等多個領(lǐng)域的創(chuàng)新。
G42表示,NANDA87B 設(shè)計能夠處理正式印地語、日常口語和混合印地語(Hinglish),并能夠執(zhí)行翻譯、摘要、指令跟隨和音譯等多項任務(wù)。該公司還強調(diào),模型的設(shè)計過程中考慮了安全性和文化一致性,以確保輸出結(jié)果的責任性。
穆罕默德?本?扎耶德人工智能大學基礎(chǔ)模型研究所執(zhí)行董事理查德?莫頓表示,此次發(fā)布標志著擴展高級語言技術(shù)可及性的重大進展。“NANDA 標志著為全球最大語言社區(qū)之一提供高質(zhì)量、開放訪問語言技術(shù)的重要里程碑,” 他說。
NANDA87B 的訓(xùn)練是在 G42和 Cerebras 聯(lián)合打造的 Condor Galaxy 超級計算系統(tǒng)上進行的。
劃重點:












