DeepEP
DeepEP是一个为Mixture-of-Experts (MoE)和Expert Parallelism (EP)设计的通信库。它提供低延迟和高吞吐量的GPU内核用于数据处理。
列在类别中:
GitHub开源人工智能


描述
DeepEP 是一个专门为专家混合(MoE)和专家并行(EP)设计的通信库。它提供高吞吐量和低延迟的全到全 GPU 内核,针对训练和推理任务进行了优化。该库支持低精度操作,包括 FP8,并具有针对非对称域带宽转发优化的内核,使其适用于各种 GPU 架构和网络配置。
如何使用 DeepEP?
要使用 DeepEP,请安装所需的依赖项,包括 NVSHMEM,并将库导入到您的 Python 项目中。配置通信缓冲区并设置要使用的流处理器(SM)的数量。在模型训练或推理期间,利用提供的函数进行调度和组合操作。
核心功能 DeepEP:
1️⃣
为 MoE 和 EP 提供高吞吐量和低延迟的 GPU 内核
2️⃣
支持包括 FP8 在内的低精度操作
3️⃣
针对非对称域带宽转发进行了优化
4️⃣
用于推理解码的低延迟内核
5️⃣
基于钩子的通信-计算重叠方法
为什么要使用 DeepEP?
# | 使用案例 | 状态 | |
---|---|---|---|
# 1 | 使用普通内核进行模型训练 | ✅ | |
# 2 | 推理预填充阶段 | ✅ | |
# 3 | 延迟敏感的推理解码 | ✅ |
开发者 DeepEP?
DeepEP 由一组研究人员和工程师开发,包括赵承刚、周尚彦、张丽月等,他们专注于推动深度学习应用中高效专家并行处理的通信库的发展。