阿里巴巴(9988) 週一發佈並開源通義千問3.0(Qwen3)系列模型,並指佢喺數學同編程等多方面嘅表現都同DeepSeek有得揮,仲大幅降低部署成本。據介紹,Qwen3整合兩種思考模式,支援119種語言,仲方便Agent調用,性能仲拍得住DeepSeek R1同OpenAI o1,仲全部開源㖭!
模型陣容超班 MoE設計慳成本
Qwen3系列包含兩個專家混合模型(MoE)同另外六款模型。其中旗艦版Qwen3-235B-A22B喺代碼、數學等測試中,同DeepSeek-R1、Grok-3等頂尖模型鬥得難分難解。而MoE模型Qwen3-30B-A3B嘅激活參數數量只係QwQ-32B嘅10%,細模型Qwen3-4B嘅表現仲勁過Qwen2.5-72B-Instruct。呢套系統模仿人類拆解問題嘅思路,將任務分畀專精唔同領域嘅「專家組」處理,效率即刻升呢。
阿里今次一炮過開源兩款MoE模型權重:總參數2350億嘅Qwen3-235B-A22B,同埋總參數300億嘅Qwen3-30B-A3B。另外仲有六款Dense模型開放,包括Qwen3-32B到Qwen3-0.6B等多個版本,全部用Apache 2.0授權。
雙模式切換 長短問題對應
Qwen3系列最大賣點係「混合型」設計,設有兩種模式:
- 思考模式:用嚟處理複雜問題,會自我核實事實(類似OpenAI o3),不過反應會慢啲
- 非思考模式:即時應對簡單查詢,慳時間慳資源
開發團隊強調,呢種設計令用戶可以按任務難度分配「思考預算」,喺成本同質量之間搵到最佳平衡。例如數學題可以開長推理步驟,而問天氣呢類簡單嘸就即問即答。
訓練數據翻倍 Agent調用更順
Qwen3用咗近36萬億token做訓練,數據量係Qwen2.5嘅兩倍,涵蓋教材、代碼片段等內容。訓練分三階段:
- 基礎階段:用30萬億token訓練4K上下文長度
- 專精階段:加入STEM同編程數據,再練5萬億token
- 擴容階段:將上下文長度拉到32K,處理長文本無難度
官方指,即使係Qwen3-1.7B呢類細模型,表現都同舊版Qwen2.5-3B睇齊,STEM同編程領域仲要超班。MoE模型更加慳料,用10%激活參數就做到舊版Dense模型嘅效果。
AGI之路再進一步
面對OpenAI、谷歌等對手近期連推新模型,阿里表明Qwen3係邁向通用人工智能(AGI)嘅重要里程碑。CEO吳泳銘今年初已明言,公司首要目標係研發出具人類智力水平嘅AI系統。下一步計劃會從五大方向升級:擴數據規模、加大模型體積、延伸上下文長度、增加多模態支援,同埋用環境反饋強化推理能力。