阿里通義Qwen團(tuán)隊(duì)近日在視覺(jué)生成領(lǐng)域取得新突破,正式發(fā)布Qwen-Image-Edit-2511圖像編輯模型。該模型基于前代版本優(yōu)化升級(jí),重點(diǎn)解決了圖像編輯中的核心痛點(diǎn)——在保持原圖主體結(jié)構(gòu)完整的前提下,實(shí)現(xiàn)特定區(qū)域的精準(zhǔn)修改。這一特性使其區(qū)別于傳統(tǒng)文生圖模型,為開(kāi)發(fā)者與設(shè)計(jì)從業(yè)者提供了更高效的AI輔助工具。
模型的核心優(yōu)勢(shì)在于其強(qiáng)大的指令理解能力。用戶無(wú)需掌握專(zhuān)業(yè)圖像處理技術(shù),僅需通過(guò)自然語(yǔ)言描述需求,例如“將畫(huà)面中的汽車(chē)替換為自行車(chē)”或“調(diào)整背景色調(diào)為暖黃色”,系統(tǒng)即可自動(dòng)識(shí)別圖像語(yǔ)義并執(zhí)行操作。這種交互方式顯著降低了技術(shù)門(mén)檻,使非專(zhuān)業(yè)用戶也能快速完成復(fù)雜編輯任務(wù)。
技術(shù)層面,該模型通過(guò)深度融合視覺(jué)編碼器與語(yǔ)言模型,實(shí)現(xiàn)了對(duì)圖像語(yǔ)義對(duì)象的精準(zhǔn)識(shí)別。在修改目標(biāo)物體的過(guò)程中,系統(tǒng)能夠自動(dòng)保留原圖的光影效果、紋理細(xì)節(jié)及背景一致性。例如在人物編輯場(chǎng)景中,模型可在保持主體身份特征與視覺(jué)風(fēng)格的基礎(chǔ)上,實(shí)現(xiàn)富有想象力的創(chuàng)意修改。
針對(duì)多人合影場(chǎng)景,新模型展現(xiàn)出顯著提升的融合能力。通過(guò)高保真技術(shù)處理,系統(tǒng)可將兩張獨(dú)立人物圖像無(wú)縫合成為自然協(xié)調(diào)的群像照片,有效解決了傳統(tǒng)編輯中的人物比例失調(diào)、光影不匹配等問(wèn)題。這一特性在商業(yè)攝影、廣告設(shè)計(jì)等領(lǐng)域具有廣泛應(yīng)用前景。
模型創(chuàng)新性地集成了熱門(mén)LoRA模塊,用戶無(wú)需額外微調(diào)即可直接調(diào)用預(yù)設(shè)效果。以光照增強(qiáng)LoRA為例,系統(tǒng)可自動(dòng)實(shí)現(xiàn)逼真的光影控制,從柔和的自然光到強(qiáng)烈的舞臺(tái)光效均可快速生成。這種開(kāi)箱即用的設(shè)計(jì)極大提升了創(chuàng)作效率,滿足多樣化場(chǎng)景需求。
在工業(yè)設(shè)計(jì)領(lǐng)域,新模型引入的幾何推理能力成為重要突破。系統(tǒng)能夠自動(dòng)生成輔助構(gòu)造線,幫助設(shè)計(jì)師快速完成建筑草圖、產(chǎn)品輪廓等精準(zhǔn)繪制。例如在機(jī)械設(shè)計(jì)場(chǎng)景中,模型可自動(dòng)識(shí)別部件結(jié)構(gòu)并生成標(biāo)準(zhǔn)化的輔助線,將設(shè)計(jì)周期縮短約40%。
技術(shù)團(tuán)隊(duì)透露,該模型在訓(xùn)練過(guò)程中采用了多維度優(yōu)化策略。通過(guò)減輕圖像漂移現(xiàn)象,系統(tǒng)在連續(xù)編輯過(guò)程中能保持更高的穩(wěn)定性;人物一致性算法的升級(jí),使得面部特征識(shí)別準(zhǔn)確率提升至98.7%;幾何推理模塊則通過(guò)引入三維空間建模技術(shù),實(shí)現(xiàn)了對(duì)復(fù)雜結(jié)構(gòu)的精準(zhǔn)解析。











