在此前的多個公開基準測試中,Qwen-Image系列已展現出較強的圖像編輯性能,共獲得12項SOTA(最佳表現)。在中文文字生成評測ChineseWord與LongText-Bench中分別領先GPT Image 1、Seedream 3.0等主流模型。新版本則聚焦圖像生成過程中的人物一致性問題,在單人連拍、多人物融合等任務中顯著提升面部特征與風格的穩定性,同時集成了多個LoRA子模型,增強了圖像編輯中的幾何構造、光照控制、材質替換等能力。智東西也在第一時間進行了實測。整體來看,Qwen-Image-Edit-2511在人像融合、LoRA光照控制、風格一致性方面表現出色,生成結果自然。但在鏡頭旋轉、空間構圖與幾何推理類操作上仍存在明顯誤差。Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit-2511魔搭社區:https://www.modelscope.cn/models/Qwen/Qwen-Image-Edit-2511技術報告:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf01.新版本聚焦人物一致性與風格遷移拓展多場景圖像編輯能力
除了單人任務,Qwen-Image-Edit-2511還顯著優化了多人圖像融合表現。相比此前版本,它可以更自然地將兩張不同人像合成為同一張合影圖像,保留人物原貌的同時,自動調整姿態與構圖,生成結果在整體風格與角色協調性上更為連貫。這為AI情侶照、群像圖等應用提供了更高質量的基礎。▲Qwen官方案例
同時,Qwen-Image-Edit-2511首次在基礎模型中內置了部分高頻使用的LoRA子模型。用戶無需加載外部權重,即可直接啟用如光照增強、新視角生成、材質替換等功能。例如,用戶可通過LoRA控制自然光線方向變化,重現柔光照明效果,也可以在工業設計場景中完成木材紋理或布料風格的替換操作。在結構理解方面,該版本還加入了幾何構造輔助能力,支持在輸入圖像的基礎上添加輔助線、延長線等幾何元素,適用于教學、工程圖生成或圖像標注任務。02.實測:人物融合穩定、風格控制可用但精細控制仍有邊界
在實際體驗中,我們圍繞人物一致性、LoRA光照、材質替換、文字渲染以及幾何推理等能力,對Qwen-Image-Edit-2511進行了多組測試。整體來看,模型在人物類合成與風格表達方面表現穩定,輸出結果具備較高可用性,但在鏡頭級控制與幾何邏輯執行上仍存在一定局限。案例1:情侶寫真合影(人物一致性與互動姿態測試)4:3,韓系情侶寫真風格,背景為純色暖調低飽和暗綠色磨砂質感墻面,正面柔光打光,人物面部形成柔和陰影過渡。一對年輕東亞情侶,女性人臉參考第一張圖,長頭發妝容精致帶項鏈耳環,米白色露肩上衣;男性人臉參考第二張圖,發型不變,黑色短袖。人物姿態互動感強(臉貼臉),表情靈動俏皮微笑,男生搞怪委屈,女生搞怪可愛笑瞇瞇,整體甜酷親昵,膠片風格帶顆粒感柔光暖調,注重互動細節與服飾質感。原比例。
▲參考圖
生成結果中,兩位人物的面部特征與細節保持良好一致性,互動姿態自然,光影符合寫真風格,整體效果穩定且可用。
▲Qwen-Image-Edit-2511生成效果圖
案例2:雙人俯拍自拍(高角度合成與人物一致性測試)請將圖1和圖2融合成一張雙人俯拍自拍照,畫面構圖緊湊,兩位主體靠得很近,頭部略微上仰,眼神直視鏡頭,營造出強烈的視覺沖擊力。左側人物站得略靠前,參考我圖1的主體形象特征造型保持不變,需要保持人臉相似度;右側人物參考圖2的主體形象特征保持造型不變,需要保持人臉相似度,略微內扣身體,拍攝角度為高角度俯拍,使頭部比例被夸張放大,符合典型的日韓視覺自拍風格。背景為純白色,簡潔干凈,進一步凸顯人物主體。畫面風格偏向日系視覺系,整體畫面清晰度高,用iphone前置自拍,最終呈現出精致、時尚、略帶的合影效果。要求人物實現無縫融進畫面,視覺過渡自然,整體畫面光線明亮且均勻。合成結果中,兩位人物在高角度俯拍構圖下保持了較高的人臉相似度,自拍風格成立,背景干凈,整體效果表現良好。
▲Qwen-Image-Edit-2511生成效果圖
案例3:軟光LoRA與鏡頭控制(光照重構與視角操作測試)對上傳的室內家居圖進行重新打光,加入柔和光線、側面光照效果,突出空間質感,整體光線要自然不過曝。
▲參考圖
在該任務中,該模型成功完成柔光重新照明,側光層次自然,整體光線控制穩定。
▲Qwen-Image-Edit-2511生成效果圖
將鏡頭移至桌面特寫。生成結果中,鏡頭確實發生變化,但桌面毛筆數量與書本打開狀態與原圖存在偏差,結構并不夠嚴格。
▲Qwen-Image-Edit-2511生成效果圖
將鏡頭向左旋轉60度。該指令未能被有效執行,畫面視角未出現明顯旋轉變化,該模型在精確鏡頭控制方面仍有限制。
▲Qwen-Image-Edit-2511生成效果圖
案例4:材質替換(工業設計場景測試)將家具圖片中桌面與椅子的木質紋理替換為另一張圖中的淺色松木材質,保持結構不變,僅替換材質貼圖。
▲參考圖
生成結果中,桌椅整體結構保持穩定,木質紋理替換自然貼合,觀感統一。
▲Qwen-Image-Edit-2511生成效果圖
案例5:文字渲染與風格融合(中英文文字測試)生成豎版3:4畫面比例的“真人與其對應卡通壁畫合影”場景圖像:將上傳的真實人物照片以原樣保留服裝、發型、妝容置于畫面左側/前方,調整人物的動作和拍攝視角,以確保畫面和諧。在真人背后墻面繪制1:1對應卡通壁畫,厚涂質感且采用動漫風格大眼、柔和輪廓五官,完整復刻發型、服裝及配飾細節如耳環、項鏈等,色彩飽和度高并帶有涂鴉式筆觸效果。墻面添加彩色涂鴉愛心、笑臉圖案元素,地面點綴飛濺顏料裝飾細節,壁畫區域融入如“2026新年快樂”的中文字元素,字體風格契合涂鴉美學。確保真人與壁畫比例、角度自然銜接,光照方向統一符合場景邏輯,保持整體色彩風格一致呈現生動、連貫且視覺和諧效果。
▲參考圖
生成結果中,真人與卡通壁畫在風格和鏡頭方向上銜接自然,中文文字“2026新年快樂”渲染清晰。
▲Qwen-Image-Edit-2511生成效果圖
然后,把文字部分換成如“Merry Christmas”的英文元素和“圣誕快樂”的中文字元素中英文混合的文字。在中英文混排場景下,模型依然能夠正確生成文字內容,風格與畫面保持一致,文字渲染穩定,未出現明顯錯字。
▲Qwen-Image-Edit-2511生成效果圖
案例6:幾何推理(輔助構造能力測試)過A作$DE$的垂線,延長$ED$交于G。
▲參考圖(左)與Qwen-Image-Edit-2511生成效果圖(右)
該任務中模型生成的幾何關系存在明顯錯誤,垂線與交點位置不符合要求,其幾何推理能力尚不足以支撐嚴謹的數學或工程制圖任務。03.內置LoRA模型增強實用性覆蓋光照、視角與工業材質替換
在Qwen-Image-Edit-2511中,官方首次將部分社區高頻使用的LoRA子模型直接內置于基礎模型中,用戶無需加載額外權重即可調用對應能力。這一機制顯著降低了LoRA功能的使用門檻,也提升了模型在專業應用場景下的實用性。例如,在圖像風格調控任務中,用戶可通過光照增強LoRA控制自然光線的角度、強度與方向,生成具有真實光影層次的畫面效果。當前版本已可實現“柔光—側光”等典型照明風格的生成。在視角調控方面,用戶還可調用新視角LoRA,直接以同一主體為基準生成不同拍攝角度下的圖像,可減少重復拍攝與人工調整角度所需成本。在工業設計任務中,LoRA機制也可被用于批量圖像生成、元素刪改與材質替換流程中。這類能力已初步具備在產品草圖階段進行測試的潛力。綜合來看,內置LoRA的集成設計提升了Qwen-Image-Edit-2511在具體任務中的可用性,尤其在光照控制、材質替換、多視角生成等高頻需求中展現出更高的商用適配性,為設計、營銷、內容生成等場景提供了更低成本的圖像處理方案。04.結語:國產開源模型朝商用化邁進了一步
綜合來看,Qwen-Image-Edit-2511在人物一致性、多人物合成與LoRA風格控制方面展現出穩定表現,實用性比前一版本有明顯進步。對于需要連貫角色形象輸出、控制局部風格遷移、進行材質替換等圖像生成任務的用戶來說,它已經具備一定的落地能力。不過,在鏡頭變換、構圖調整、幾何推理等涉及空間理解與強邏輯執行的任務中,模型仍存在穩定性與精度上的短板,與當前頂尖的多模態生成模型相比,仍有一定差距。作為一款面向開源社區的圖像編輯模型,Qwen-Image-Edit-2511正將模型能力朝向可控性與商用型場景聚焦,這也為國內開源路線提供了一個新的樣本。











