AI圖像生成領域迎來重大突破——港科大賈佳亞團隊研發的DreamOmni2模型,成功攻克了多模態指令編輯與生成的技術瓶頸。該成果論文《DreamOmni2: Multimodal Instruction-based Editing and Generation》在GitHub發布兩周即收獲1600顆星,引發YouTube創作者群體熱議,更被國外技術論壇稱為"智能創作工具的里程碑"。
傳統AI創作工具的局限性日益凸顯。當用戶試圖將照片中背包替換為波西米亞風格圖案時,語言描述的乏力暴露無遺;而要模仿老照片的復古膠片光影或特定畫家的筆觸風格,現有模型更是束手無策。這種"語言失語"現象,正是DreamOmni2要解決的核心問題。
研究團隊構建的三階段數據訓練體系堪稱創新典范。通過特征混合方案生成高質量圖像對,解決傳統拼接法導致的邊緣模糊問題;利用提取模型與編輯模型聯動,自動生成(源圖+指令+參考圖)→目標圖的完整訓練數據;最終形成支持多參考圖像輸入的綜合性數據集。這種從零開始的數據構建方法,為模型提供了精準理解抽象概念的"教材"。
模型架構的革新同樣引人注目。針對多圖像輸入的混淆難題,團隊開發的索引編碼與位置編碼偏移技術,使模型能準確區分不同參考圖像。聯合訓練視覺語言模型(VLM)與生成模型的方案,則顯著提升了指令理解能力。通過LoRA微調技術,模型在保持原有功能的基礎上,新增了多模態處理能力。
實測數據印證技術突破。在風格遷移測試中,DreamOmni2將像素風、二次元等復雜風格完美復現,對比GPT-4o僅遷移色調、Nano Banana僅輕微變色的表現形成碾壓優勢。多圖編輯測試更顯實力:讓鸚鵡佩戴指定帽子并復刻火箭圖氛圍時,模型精準還原了羽毛紋理、帽子顏色與背景光影。
基準測試揭示技術代差。在205個多模態編輯測試用例中,DreamOmni2的物體遷移準確率與抽象屬性一致性均領先GPT-4o和Nano Banana。定量分析顯示,該模型在生成準確性指標上超越開源模型37%,在對象一致性方面領先29%。特別是在處理四圖組合生成梵高風格畫作時,人物特征與筆觸色彩均得到忠實呈現。
技術社區的反響印證實用價值。海外創作者制作的教程視頻中,DreamOmni2被冠以"最強免費工作流"稱號。用戶實測顯示,模型能精準復刻人物表情的嘴角弧度與眼睛瞇縫程度,甚至能處理發型改變帶來的頸部陰影變化。這種超越語言描述的創作能力,正在重新定義智能工具的邊界。











