Subscribe to get weekly email with the most promising tools 🚀

DeepEP-image-0
DeepEP-image-1
DeepEP-image-2

描述

DeepEP 是一个专门为专家混合(MoE)和专家并行(EP)设计的通信库。它提供高吞吐量和低延迟的全到全 GPU 内核,针对训练和推理任务进行了优化。该库支持低精度操作,包括 FP8,并具有针对非对称域带宽转发优化的内核,使其适用于各种 GPU 架构和网络配置。

如何使用 DeepEP?

要使用 DeepEP,请安装所需的依赖项,包括 NVSHMEM,并将库导入到您的 Python 项目中。配置通信缓冲区并设置要使用的流处理器(SM)的数量。在模型训练或推理期间,利用提供的函数进行调度和组合操作。

核心功能 DeepEP:

1️⃣

为 MoE 和 EP 提供高吞吐量和低延迟的 GPU 内核

2️⃣

支持包括 FP8 在内的低精度操作

3️⃣

针对非对称域带宽转发进行了优化

4️⃣

用于推理解码的低延迟内核

5️⃣

基于钩子的通信-计算重叠方法

为什么要使用 DeepEP?

#使用案例状态
# 1使用普通内核进行模型训练
# 2推理预填充阶段
# 3延迟敏感的推理解码

开发者 DeepEP?

DeepEP 由一组研究人员和工程师开发,包括赵承刚、周尚彦、张丽月等,他们专注于推动深度学习应用中高效专家并行处理的通信库的发展。

常见问题 DeepEP