DeepSeek 的“开源周”活動今日已經來到第二天,今天發布的是首個开源的用於 MoE 模型訓練和推理的 EP 通信庫 ——DeepEP。

官方表示其具備如下特徵:

高效優化的全到全通信方式

支持節點內外通信,兼容 NVLink 和 RDMA 技術

提供高吞吐量的內核,提升訓練和推理前期填充效率

提供低延遲內核,優化推理解碼速度

完全支持 FP8 數據格式調度

提供靈活的 GPU 資源管理,支持計算與通信的重疊執行

據介紹,DeepEP 是一款專爲混合專家(MoE)和專家並行(EP)設計的通信庫,提供了高吞吐量和低延遲的 all-to-all GPU 內核,常用於 MoE 派發和合並操作。該庫還支持低精度計算,包括 FP8。

爲了與 DeepSeek-V3 論文中提出的組限制門控算法兼容,DeepEP 提供了一些針對不對稱帶寬轉發優化的內核,比如將數據從 NVLink 域轉發到 RDMA 域。這些優化的內核能夠提供高吞吐量,適合用於訓練和推理的預填充任務,同時支持 SM(流式多處理器)數量控制。

對於延遲敏感型的推理解碼任務,DeepEP 提供了一套低延遲內核,採用純 RDMA 技術以最大程度減少延遲。此外,該庫還採用了一種基於 Hook 的通信與計算重疊方法,不會佔用任何 SM 資源。


鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。


標題:DeepSeek第二炸!开源首個用於MoE模型訓練通信庫

地址:https://www.newsipad.com/article/189660.html