Subscribe to get weekly email with the most promising tools 🚀

DeepGEMM-image-0
DeepGEMM-image-1
DeepGEMM-image-2

描述

DeepGEMM是一个旨在实现干净高效的FP8通用矩阵乘法(GEMM)的库,具有细粒度的缩放功能,正如DeepSeekV3中所提出的。它支持正常和专家混合(MoE)分组GEMM。该库使用CUDA编写,在运行时通过轻量级的即时编译(JIT)模块编译所有内核,安装时无需编译。DeepGEMM专门支持NVIDIA Hopper张量核心,并采用CUDA核心的两级累积提升来解决不精确的FP8张量核心累积。尽管设计轻量,DeepGEMM的性能与专家调优的库在各种矩阵形状下相匹配或超过。

如何使用 DeepGEMM?

要使用DeepGEMM,请通过Python安装库,使用'python setup.py install'。在您的Python项目中导入'deepgemm',并调用适合您矩阵操作的GEMM函数。确保您的环境满足CUDA和PyTorch版本的要求。

核心功能 DeepGEMM:

1️⃣

支持正常和专家混合(MoE)分组GEMM

2️⃣

使用CUDA编写,支持运行时内核编译

3️⃣

针对NVIDIA Hopper张量核心进行了优化

4️⃣

利用两级累积提升实现FP8

5️⃣

轻量级设计,具有单核心内核功能

为什么要使用 DeepGEMM?

#使用案例状态
# 1深度学习模型的高效矩阵乘法
# 2优化推理任务中的性能
# 3利用FP8精度进行内存高效计算

开发者 DeepGEMM?

DeepGEMM由包括赵承刚、赵亮、李佳诗和许哲安在内的团队开发,他们专注于为深度学习应用中的矩阵乘法提供高效解决方案。

常见问题 DeepGEMM