DeepSeek公佈新研究論文 速度提11.6倍降低算力門檻

18日,DeepSeek CEO公佈了一項由梁文鋒親自參與的研究論文成果——原生稀疏注意力(Native Sparse Attention, NSA)機制。

NSA採用動態分層稀疏策略,結合粗粒度Token壓縮和細粒度Token選擇,兼顧全局上下文感知和局部資訊精確性。這種策略通過分層處理,既保留了全局資訊,又確保了局部細節的準確性。

算術強度平衡設計
NSA針對現代硬體進行了優化,通過算術強度平衡演算法設計,顯著提升了計算速度。這種設計使得NSA在硬體上表現更加高效,尤其在處理長文本時,能夠大幅降低計算成本。

NSA支持端到端訓練,減少了預訓練計算量,同時保持了模型性能。這一特性使得NSA在訓練階段更加高效,且不會犧牲模型的最終表現。

NSA的實驗表現
在通用基準測試、長文本任務和指令推理任務中,使用NSA預訓練的模型性能不僅沒有下降,反而超越了傳統的全注意力模型。在處理64k長度的序列時,NSA在解碼、前向傳播和反向傳播等各個階段都實現了顯著的速度提升,最高可達11.6倍。

降低算力門檻

NSA通過優化設計,降低了浮點算力和記憶體佔用門檻。這使得長文本生成的即時性更高,適用於邊緣設備或低延遲場景。

NSA的硬體友好設計使其在實際應用中更具優勢,有望加速下一代大語言模型在長文本處理領域的應用落地。

未來展望

目前NSA尚未應用於DeepSeek V3的訓練中,這意味著如果後續整合到模型訓練中,DeepSeek的基座模型能力有望實現顯著提升。

與DeepSeek的NSA機制不同,xAI選擇了對工程規模的極致追求。例如,xAI發佈的Grok3使用了20萬塊GPU集群,而未來的Grok4更是計畫使用百萬塊GPU、1.2GW的集群。這種「財大氣粗」的做法與DeepSeek的技術創新形成了鮮明對比。

DeepSeek的NSA機制通過演算法創新和硬體優化,為長文本建模帶來了新的突破。它不僅在性能上超越了傳統的全注意力模型,更在效率方面實現了顯著提升。這一技術有望成為未來大語言模型發展的重要方向。

Disclaimer © 2025 TASTY MONEY
以上資訊僅供參考,相關內容純屬個人意見,不代表本台立場。投資涉及風險,股票和結構性產品如窩輪、牛熊證之價格可升可跌,投資者可能會損失全部本金,請自行注意風險。

訂閱及追蹤 Tasty Money 財經節目、主持人及專欄作家的最新動向
https://www.tastymoney.hk/subscribe/