DeepSeek「開源周」公開H800 GPU化的高效解碼內核

2月24日，中國AI公司DeepSeek啟動「開源周」，首個開源專案FlashMLA正式發佈。這一針對英偉達Hopper架構（如H800 GPU）優化的高效解碼內核，通過創新設計顯著提升大模型推理效率，尤其在處理變長序列（如對話、長文本生成）場景中表現突出，有望進一步降低大模型部署成本。

技術亮點與性能突破
結合FlashAttention 2&3的高效注意力機制與英偉達cutlass專案的計算優化，專為Hopper GPU設計。

-- Ads by Google -- -- Ads by Google --

針對大模型推理階段的解碼環節（如文本逐詞生成），通過演算法與硬體協同優化，突破H800的顯存帶寬與算力瓶頸。官方數據顯示，在H800 GPU上，FlashMLA可實現3000 GB/s帶寬（接近理論峰值1.8倍）與580 TFLOPS算力，網友實測速度達行業平均的8倍。

支持CUDA 12.3+和PyTorch 2.0+，僅需一行命令即可安裝，已通過生產環境驗證。

成本效益顯著
傳統大模型推理依賴堆疊GPU以應對高延遲，而FlashMLA通過單卡效率躍升，允許企業以更少伺服器完成同等任務量。例如，即時聊天機器人、長上下文交互等場景的回應速度提升，可降低硬體採購與運維成本。DeepSeek透露，其自研的MLA注意力架構（核心創新之一）已在內部模型中實現成本大幅壓縮，此次開源或推動行業級降本。

開源生態佈局
DeepSeek計畫一周內連續開源5個代碼庫，涵蓋模型訓練、推理優化等環節，強調「社區共築」理念。此舉可能加速國產大模型技術迭代，降低中小企業研發門檻。

爭議與展望
儘管FlashMLA性能數據亮眼，但需注意其僅適配Hopper架構（如H800），且網友提及的「超傳輸峰值」或指優化後有效利用率突破，而非硬體參數變更。未來若擴展至更多GPU型號，或將進一步擴大應用場景。這一開源動作也標誌著AI競爭從單純模型規模轉向底層算力優化與工程化落地能力。