2025年2月25日,DeepSeek在開源周第二日宣佈推出全球首個專為MoE(Mixture of Experts)模型設計的開源通信庫——EP通信庫,旨在解決大規模AI模型訓練與推理中的通信效率問題,延續其「透明化AGI探索」理念。
高性能通信內核
EP通信庫支持節點內與節點間的NVLink(160GB/s)和RDMA(50GB/s)技術,實現極速數據傳輸。針對MoE模型的「分發」與「聚合」操作優化,顯著降低通信延遲。
原生FP8調度數據量減少50%,精度保持不變,適用於千億參數模型,降低顯存佔用與能耗。
智能通信優化
動態調整計算與通信的重疊策略,適配訓練與推理場景,兼顧吞吐量與延遲。
推理解碼引擎延遲低至163微秒,滿足即時交互需求。
H800 GPU節點內分發/合併帶寬達153-158GB/s(單節點秒傳30部高清電影)。跨節點RDMA帶寬穩定在45GB/s,較傳統方法快3倍以上。RDMA帶寬保持39-46GB/s,延遲僅163微秒,適用於即時應用。
行業影響與評價
通過硬體級優化(NVLink/RDMA)與低精度支持,顯著提升大規模模型訓練與推理效率。作為「開源周」第二項成果,DeepSeek再次展現開放姿態,獲網友贊評「真正的OpenAI」。
當前僅支持英偉達Hopper架構GPU(如H800),未來相容性待擴展。該通信庫的發佈為AI社區提供了高效工具,加速了千卡級MoE模型落地,進一步推動通用人工智慧(AGI)的研究與應用。