阿里9988通義千問新模型Qwen-Image登場,吉卜力風格都得

阿里巴巴(9988.HK)旗下阿里雲宣布,通義千問再有新模型登場,是次開源的為通義千問系列中首個圖像生成基礎模型,名為Qwen-Image。阿里巴巴表示,新模型旨在促進圖像生成的發展,降低視覺內容創作的技術門檻,並激發創新應用。

據了解,Qwen-Image是一個200億參數的MMDiT模型,在複雜文本渲染及精確圖像編輯方面表現突出。資料顯示,模型主要可生成寫實、動漫、賽博朋克、科幻、極簡、復古、超現實及水墨等幾十種類型的圖片,就連受網友追捧的吉卜力風格一樣可以生成。

阿里巴巴提到,Qwen-Image在複雜文字渲染方面,支援多行布局、段落層級文字生成以及細粒度細節呈現,無論是英文或中文,均能達到高保真輸出。此外,透過增強的多任務訓練範式,在編輯過程中能保持編輯的一致性。

另一方面,通義千問團隊也在多個公開基準上對Qwen-Image進行全面評估,包括用於通用影像生成的GenEval、DPG和OneIG-Bench,以及用於影像編輯GEdit、ImgEdit 及GSO。新模型在所有基準測試中都取得最先進效能。在用於文字渲染的LongText-Bench、ChineseWord及TextCraft上的結果顯示,Qwen-Image在文字渲染表現尤為出色,特別是在中文文字渲染。

Disclaimer © 2025 TASTY MONEY
以上資訊僅供參考,相關內容純屬個人意見,不代表本台立場。投資涉及風險,股票和結構性產品如窩輪、牛熊證之價格可升可跌,投資者可能會損失全部本金,請自行注意風險。

訂閱及追蹤 Tasty Money 財經節目、主持人及專欄作家的最新動向
https://www.tastymoney.hk/subscribe/