阿里9988通義千問新模型Qwen-Image登場，吉卜力風格都得

阿里巴巴(9988.HK)旗下阿里雲宣布，通義千問再有新模型登場，是次開源的為通義千問系列中首個圖像生成基礎模型，名為Qwen-Image。阿里巴巴表示，新模型旨在促進圖像生成的發展，降低視覺內容創作的技術門檻，並激發創新應用。

據了解，Qwen-Image是一個200億參數的MMDiT模型，在複雜文本渲染及精確圖像編輯方面表現突出。資料顯示，模型主要可生成寫實、動漫、賽博朋克、科幻、極簡、復古、超現實及水墨等幾十種類型的圖片，就連受網友追捧的吉卜力風格一樣可以生成。

-- Ads by Google -- -- Ads by Google --

阿里巴巴提到，Qwen-Image在複雜文字渲染方面，支援多行布局、段落層級文字生成以及細粒度細節呈現，無論是英文或中文，均能達到高保真輸出。此外，透過增強的多任務訓練範式，在編輯過程中能保持編輯的一致性。

另一方面，通義千問團隊也在多個公開基準上對Qwen-Image進行全面評估，包括用於通用影像生成的GenEval、DPG和OneIG-Bench，以及用於影像編輯GEdit、ImgEdit 及GSO。新模型在所有基準測試中都取得最先進效能。在用於文字渲染的LongText-Bench、ChineseWord及TextCraft上的結果顯示，Qwen-Image在文字渲染表現尤為出色，特別是在中文文字渲染。