12 月 19 日消息,科技媒體 9to5Mac 昨日(12 月 18 日)發(fā)布博文,報(bào)道稱蘋果研究團(tuán)隊(duì)近日發(fā)布多模態(tài) AI 模型 UniGen 1.5,成功在單一系統(tǒng)中集成了圖像理解、生成與編輯三大核心功能。
與主要依賴不同模型分別處理任務(wù)的傳統(tǒng)方案不同,UniGen 1.5 最大的突破在于構(gòu)建了一個(gè)統(tǒng)一的框架,僅憑一個(gè)模型即可同時(shí)完成圖像理解、圖像生成以及圖像編輯任務(wù)。研究人員認(rèn)為,這種統(tǒng)一架構(gòu)能讓模型利用強(qiáng)大的圖像理解能力反哺生成效果,從而實(shí)現(xiàn)更精準(zhǔn)的視覺(jué)輸出。
在圖像編輯領(lǐng)域,模型往往難以精準(zhǔn)捕捉用戶微妙或復(fù)雜的修改指令。蘋果團(tuán)隊(duì)為解決這一難題,首創(chuàng)引入了名為“編輯指令對(duì)齊”的后訓(xùn)練階段。
該技術(shù)并不直接讓模型修改圖片,而是要求模型先根據(jù)原圖和指令,預(yù)測(cè)出目標(biāo)圖像的詳細(xì)文本描述。這種“先想后畫”的中間步驟,迫使模型在生成最終圖像前,必須深度內(nèi)化用戶的編輯意圖,從而大幅提升了修改的準(zhǔn)確度。
這一中間步驟有助于模型在生成最終圖像之前更好地理解預(yù)期的編輯內(nèi)容。
除了指令對(duì)齊,UniGen 1.5 的另一大貢獻(xiàn)在于強(qiáng)化學(xué)習(xí)層面的創(chuàng)新。研究團(tuán)隊(duì)成功設(shè)計(jì)了一套統(tǒng)一的獎(jiǎng)勵(lì)系統(tǒng),能夠同時(shí)應(yīng)用于圖像生成和圖像編輯的訓(xùn)練過(guò)程。
此前,由于編輯任務(wù)涉及從微調(diào)到重構(gòu)的巨大跨度,統(tǒng)一獎(jiǎng)勵(lì)機(jī)制極難實(shí)現(xiàn),而這一突破讓模型在處理不同類型的視覺(jué)任務(wù)時(shí),能夠遵循一致的質(zhì)量標(biāo)準(zhǔn),顯著增強(qiáng)了系統(tǒng)的“抗干擾”性。
UniGen-1.5 的文本轉(zhuǎn)圖像生成和圖像編輯功能的一些示例
UniGen-1.5 的文本轉(zhuǎn)圖像生成和圖像編輯功能的一些示例
在多項(xiàng)行業(yè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中,UniGen 1.5 展現(xiàn)了強(qiáng)勁的競(jìng)爭(zhēng)力。數(shù)據(jù)顯示,該模型在 Geneval 和 DPG-Bench 測(cè)試中分別獲得 0.89 和 86.83 的高分,顯著優(yōu)于 BAGEL 和 BLIP3o 等近期熱門方法。
盡管整體表現(xiàn)優(yōu)異,UniGen 1.5 目前仍存在一定局限性。研究人員在論文中坦承,由于離散去標(biāo)記器(discrete detokenizer)在控制細(xì)粒度結(jié)構(gòu)方面存在不足,模型在生成圖片內(nèi)的文字時(shí)容易出錯(cuò)。
圖 A 展示了 UniGen-1.5 在文本轉(zhuǎn)圖像生成和圖像編輯任務(wù)中的失敗案例。以上圖源:蘋果論文
在部分編輯場(chǎng)景下,模型偶爾會(huì)出現(xiàn)主體特征漂移的問(wèn)題,例如貓的毛發(fā)紋理改變或鳥的羽毛顏色偏差,這些問(wèn)題將是團(tuán)隊(duì)未來(lái)的優(yōu)化重點(diǎn)。











