DeepGEMM
DeepGEMM是一个旨在进行干净高效的FP8通用矩阵乘法(GEMMs)的库,具有细粒度缩放,使用CUDA编写。
列在类别中:
GitHub人工智能开源


描述
DeepGEMM是一个旨在实现干净高效的FP8通用矩阵乘法(GEMM)的库,具有细粒度的缩放功能,正如DeepSeekV3中所提出的。它支持正常和专家混合(MoE)分组GEMM。该库使用CUDA编写,在运行时通过轻量级的即时编译(JIT)模块编译所有内核,安装时无需编译。DeepGEMM专门支持NVIDIA Hopper张量核心,并采用CUDA核心的两级累积提升来解决不精确的FP8张量核心累积。尽管设计轻量,DeepGEMM的性能与专家调优的库在各种矩阵形状下相匹配或超过。
如何使用 DeepGEMM?
要使用DeepGEMM,请通过Python安装库,使用'python setup.py install'。在您的Python项目中导入'deepgemm',并调用适合您矩阵操作的GEMM函数。确保您的环境满足CUDA和PyTorch版本的要求。
核心功能 DeepGEMM:
1️⃣
支持正常和专家混合(MoE)分组GEMM
2️⃣
使用CUDA编写,支持运行时内核编译
3️⃣
针对NVIDIA Hopper张量核心进行了优化
4️⃣
利用两级累积提升实现FP8
5️⃣
轻量级设计,具有单核心内核功能
为什么要使用 DeepGEMM?
# | 使用案例 | 状态 | |
---|---|---|---|
# 1 | 深度学习模型的高效矩阵乘法 | ✅ | |
# 2 | 优化推理任务中的性能 | ✅ | |
# 3 | 利用FP8精度进行内存高效计算 | ✅ |
开发者 DeepGEMM?
DeepGEMM由包括赵承刚、赵亮、李佳诗和许哲安在内的团队开发,他们专注于为深度学习应用中的矩阵乘法提供高效解决方案。