DeepSeek「開源周」 公開H800 GPU化的高效解碼內核

2月24日,中國AI公司DeepSeek啟動「開源周」,首個開源專案FlashMLA正式發佈。這一針對英偉達Hopper架構(如H800 GPU)優化的高效解碼內核,通過創新設計顯著提升大模型推理效率,尤其在處理變長序列(如對話、長文本生成)場景中表現突出,有望進一步降低大模型部署成本。

技術亮點與性能突破
結合FlashAttention 2&3的高效注意力機制與英偉達cutlass專案的計算優化,專為Hopper GPU設計。

針對大模型推理階段的解碼環節(如文本逐詞生成),通過演算法與硬體協同優化,突破H800的顯存帶寬與算力瓶頸。官方數據顯示,在H800 GPU上,FlashMLA可實現3000 GB/s帶寬(接近理論峰值1.8倍)與580 TFLOPS算力,網友實測速度達行業平均的8倍。

支持CUDA 12.3+和PyTorch 2.0+,僅需一行命令即可安裝,已通過生產環境驗證。

成本效益顯著
傳統大模型推理依賴堆疊GPU以應對高延遲,而FlashMLA通過單卡效率躍升,允許企業以更少伺服器完成同等任務量。例如,即時聊天機器人、長上下文交互等場景的回應速度提升,可降低硬體採購與運維成本。DeepSeek透露,其自研的MLA注意力架構(核心創新之一)已在內部模型中實現成本大幅壓縮,此次開源或推動行業級降本。

開源生態佈局
DeepSeek計畫一周內連續開源5個代碼庫,涵蓋模型訓練、推理優化等環節,強調「社區共築」理念。此舉可能加速國產大模型技術迭代,降低中小企業研發門檻。

爭議與展望
儘管FlashMLA性能數據亮眼,但需注意其僅適配Hopper架構(如H800),且網友提及的「超傳輸峰值」或指優化後有效利用率突破,而非硬體參數變更。未來若擴展至更多GPU型號,或將進一步擴大應用場景。這一開源動作也標誌著AI競爭從單純模型規模轉向底層算力優化與工程化落地能力。

Disclaimer © 2025 TASTY MONEY
以上資訊僅供參考,相關內容純屬個人意見,不代表本台立場。投資涉及風險,股票和結構性產品如窩輪、牛熊證之價格可升可跌,投資者可能會損失全部本金,請自行注意風險。

訂閱及追蹤 Tasty Money 財經節目、主持人及專欄作家的最新動向
https://www.tastymoney.hk/subscribe/