蘋果研究團隊近日在人工智能領域取得重要進展,推出多模態AI模型UniGen 1.5。該模型突破傳統架構,首次將圖像理解、生成與編輯三大核心功能整合至單一系統,為視覺任務處理開辟了新路徑。
傳統方案通常依賴多個獨立模型分別處理圖像理解、生成與編輯任務,而UniGen 1.5通過構建統一框架,實現了三大功能的協同運作。研究人員指出,這種架構設計使模型能夠利用圖像理解能力優化生成效果,從而輸出更精準的視覺內容。例如,在圖像編輯場景中,模型可同時理解用戶意圖并生成符合要求的圖像,而非簡單執行預設操作。
針對圖像編輯中指令理解難的問題,研究團隊創新性地引入“編輯指令對齊”后訓練階段。該技術要求模型先根據原圖與用戶指令生成目標圖像的詳細文本描述,再據此完成編輯。這一“先理解后執行”的流程迫使模型深度解析編輯意圖,顯著提升了修改準確性。實驗數據顯示,該技術使模型對復雜指令的響應精度提高了約30%。
在強化學習機制方面,UniGen 1.5同樣取得突破。研究團隊設計了一套統一獎勵系統,可同時應用于圖像生成與編輯訓練過程。此前,由于編輯任務涵蓋從微調到重構的廣泛需求,統一獎勵機制難以實現。而新系統通過量化不同任務的質量標準,使模型在處理各類視覺任務時保持一致性,有效增強了抗干擾能力。
盡管成績顯著,UniGen 1.5仍存在部分局限性。研究團隊在論文中承認,由于離散去標記器在控制細粒度結構方面存在不足,模型在生成圖片內文字時易出現錯誤。例如,在包含復雜文本的場景中,模型可能生成模糊或錯位的字符。部分編輯場景下會出現主體特征漂移問題,如動物毛發紋理或羽毛顏色異常,這些問題將成為后續優化重點。









