2月24日,中國AI公司DeepSeek啟動「開源周」,首個開源專案FlashMLA正式發佈。這一針對英偉達Hopper架構(如H800 GPU)優化的高效解碼內核,通過創新設計顯著提升大模型推理效率,尤其在處理變長序列(如對話、長文本生成)場景中表現突出,有望進一步降低大模型部署成本。
技術亮點與性能突破
結合FlashAttention 2&3的高效注意力機制與英偉達cutlass專案的計算優化,專為Hopper GPU設計。
針對大模型推理階段的解碼環節(如文本逐詞生成),通過演算法與硬體協同優化,突破H800的顯存帶寬與算力瓶頸。官方數據顯示,在H800 GPU上,FlashMLA可實現3000 GB/s帶寬(接近理論峰值1.8倍)與580 TFLOPS算力,網友實測速度達行業平均的8倍。
支持CUDA 12.3+和PyTorch 2.0+,僅需一行命令即可安裝,已通過生產環境驗證。
成本效益顯著
傳統大模型推理依賴堆疊GPU以應對高延遲,而FlashMLA通過單卡效率躍升,允許企業以更少伺服器完成同等任務量。例如,即時聊天機器人、長上下文交互等場景的回應速度提升,可降低硬體採購與運維成本。DeepSeek透露,其自研的MLA注意力架構(核心創新之一)已在內部模型中實現成本大幅壓縮,此次開源或推動行業級降本。
開源生態佈局
DeepSeek計畫一周內連續開源5個代碼庫,涵蓋模型訓練、推理優化等環節,強調「社區共築」理念。此舉可能加速國產大模型技術迭代,降低中小企業研發門檻。
爭議與展望
儘管FlashMLA性能數據亮眼,但需注意其僅適配Hopper架構(如H800),且網友提及的「超傳輸峰值」或指優化後有效利用率突破,而非硬體參數變更。未來若擴展至更多GPU型號,或將進一步擴大應用場景。這一開源動作也標誌著AI競爭從單純模型規模轉向底層算力優化與工程化落地能力。