人工智能領(lǐng)域迎來(lái)一項(xiàng)重要突破,華為研究團(tuán)隊(duì)開(kāi)發(fā)出名為EMMA的統(tǒng)一多模態(tài)架構(gòu)系統(tǒng),在圖像理解、文本到圖像生成和圖像編輯三大任務(wù)中展現(xiàn)出卓越性能。這項(xiàng)成果已發(fā)表于學(xué)術(shù)預(yù)印本平臺(tái),為構(gòu)建通用型AI助手提供了全新思路。
傳統(tǒng)AI系統(tǒng)往往存在明顯局限,就像專業(yè)技師只能精通單一領(lǐng)域。多數(shù)模型要么擅長(zhǎng)圖像識(shí)別等理解任務(wù),要么專注于圖像生成等創(chuàng)作任務(wù),鮮有能在兩方面都表現(xiàn)突出的案例。EMMA的出現(xiàn)打破了這種壁壘,其核心創(chuàng)新在于通過(guò)統(tǒng)一架構(gòu)實(shí)現(xiàn)多任務(wù)協(xié)同處理,僅用40億參數(shù)就超越了參數(shù)規(guī)模更大的專用模型。
技術(shù)實(shí)現(xiàn)層面包含四大關(guān)鍵突破。首先是高效壓縮技術(shù),其開(kāi)發(fā)的DCAE自動(dòng)編碼器可將圖像信息壓縮至原大小的1/32,既減少計(jì)算量又保持信息完整性。例如處理1024×1024分辨率圖像時(shí),傳統(tǒng)方法需要數(shù)千個(gè)信息單元,而EMMA僅需1024個(gè)單元。其次是通道級(jí)連接機(jī)制,通過(guò)融合核心信息提升處理效率,在圖像編輯任務(wù)中僅需傳統(tǒng)方法1/5的視覺(jué)信息量就能達(dá)到同等效果。
網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)采用共享與解耦的混合模式,淺層參數(shù)共享促進(jìn)任務(wù)協(xié)同,深層參數(shù)獨(dú)立滿足特殊需求。這種設(shè)計(jì)使理解任務(wù)專注語(yǔ)義提取,生成任務(wù)兼顧語(yǔ)義與細(xì)節(jié)處理。專家混合機(jī)制則通過(guò)智能調(diào)度系統(tǒng),針對(duì)不同場(chǎng)景調(diào)用專業(yè)模塊,僅增加約5000萬(wàn)參數(shù)就顯著提升了專業(yè)領(lǐng)域表現(xiàn)。
訓(xùn)練數(shù)據(jù)構(gòu)建堪稱精密工程,研究團(tuán)隊(duì)準(zhǔn)備了三大類數(shù)據(jù)體系。多模態(tài)理解數(shù)據(jù)包含540萬(wàn)個(gè)樣本,覆蓋文檔解析、圖表識(shí)別等20余個(gè)領(lǐng)域;文本生成數(shù)據(jù)經(jīng)過(guò)嚴(yán)格篩選,確保圖像分辨率和美學(xué)質(zhì)量達(dá)標(biāo);圖像編輯數(shù)據(jù)通過(guò)智能流水線生成,涵蓋對(duì)象添加、背景轉(zhuǎn)換等6大類操作。特別開(kāi)發(fā)的文本編輯流水線,能精準(zhǔn)識(shí)別圖像中的文字信息進(jìn)行定向修改。
訓(xùn)練策略采用五階段漸進(jìn)式學(xué)習(xí)。初始階段建立基礎(chǔ)連接,隨后通過(guò)預(yù)訓(xùn)練構(gòu)建核心能力,監(jiān)督微調(diào)階段引入復(fù)雜任務(wù),質(zhì)量調(diào)優(yōu)階段使用精選數(shù)據(jù)提升表現(xiàn),最終通過(guò)專家調(diào)優(yōu)強(qiáng)化專業(yè)能力。這種分階段訓(xùn)練確保了系統(tǒng)能力的穩(wěn)步提升,同時(shí)避免任務(wù)間的相互干擾。
性能測(cè)試顯示,EMMA在11個(gè)多模態(tài)理解基準(zhǔn)測(cè)試中平均超越強(qiáng)基線模型2.6個(gè)百分點(diǎn),文本生成任務(wù)在權(quán)威評(píng)估中取得0.91分,超越參數(shù)規(guī)模更大的競(jìng)品模型。圖像編輯任務(wù)展現(xiàn)精確控制能力,處理效率達(dá)到傳統(tǒng)方法的5倍。值得注意的是,系統(tǒng)未經(jīng)中文專項(xiàng)訓(xùn)練卻能理解中文指令,這得益于多模態(tài)數(shù)據(jù)中包含的中文文本信息。
技術(shù)細(xì)節(jié)方面,視覺(jué)編碼器采用雙軌設(shè)計(jì),理解分支使用SigLIP2模型支持原生分辨率輸入,生成分支通過(guò)DCAE實(shí)現(xiàn)32倍壓縮。混合注意力機(jī)制根據(jù)任務(wù)特性動(dòng)態(tài)調(diào)整,理解任務(wù)采用因果掩碼確保邏輯性,生成任務(wù)允許空間信息交換保持連貫性。參數(shù)共享機(jī)制在淺層促進(jìn)知識(shí)遷移,深層保持任務(wù)獨(dú)立性,專家模塊僅增加少量參數(shù)就實(shí)現(xiàn)專業(yè)能力躍升。
這項(xiàng)成果對(duì)多個(gè)領(lǐng)域產(chǎn)生深遠(yuǎn)影響。內(nèi)容創(chuàng)作者可在單一平臺(tái)完成從構(gòu)思到實(shí)現(xiàn)的全流程,教育領(lǐng)域獲得多語(yǔ)言教學(xué)支持工具,企業(yè)用戶降低AI系統(tǒng)部署成本。研究團(tuán)隊(duì)特別指出,系統(tǒng)展現(xiàn)的復(fù)雜指令處理能力預(yù)示著AI向更高層次智能演進(jìn),但同時(shí)也提醒需完善評(píng)估體系以應(yīng)對(duì)技術(shù)進(jìn)步帶來(lái)的新挑戰(zhàn)。
針對(duì)公眾關(guān)注的問(wèn)題,研究團(tuán)隊(duì)解釋稱EMMA的中文理解能力源于多模態(tài)訓(xùn)練數(shù)據(jù)的自然遷移,這種智能涌現(xiàn)現(xiàn)象為AI發(fā)展提供新思路。雖然目前仍處于研究階段,但考慮到技術(shù)成熟度和產(chǎn)業(yè)轉(zhuǎn)化能力,相關(guān)功能有望在消費(fèi)級(jí)產(chǎn)品中逐步實(shí)現(xiàn),可能率先應(yīng)用于智能設(shè)備的圖像處理功能。










