DeepGEMM
DeepGEMMは、CUDAで書かれたクリーンで効率的なFP8一般行列乗算(GEMMs)を実現するためのライブラリです。
カテゴリーにリストされています:
GitHub人工知能オープンソース


説明
DeepGEMMは、DeepSeekV3で提案されたように、細かいスケーリングを持つクリーンで効率的なFP8一般行列積(GEMM)用に設計されたライブラリです。通常のGEMMとMix-of-Experts(MoE)グループ化されたGEMMの両方をサポートしています。CUDAで記述されており、ライブラリは軽量のJIT(Just-In-Time)モジュールを使用してランタイムで全てのカーネルをコンパイルし、インストール時にコンパイルは不要です。DeepGEMMはNVIDIA Hopperテンソルコアのみをサポートし、FP8テンソルコアの不正確な蓄積に対処するためにCUDAコアの二段階蓄積昇格を採用しています。その軽量な設計にもかかわらず、DeepGEMMのパフォーマンスは、さまざまな行列形状において専門家が調整したライブラリと同等またはそれ以上です。
使い方 DeepGEMM?
DeepGEMMを使用するには、'python setup.py install'を使用してPython経由でライブラリをインストールします。Pythonプロジェクトで'deepgemm'をインポートし、行列操作に適したGEMM関数を呼び出します。環境がCUDAおよびPyTorchのバージョンの要件を満たしていることを確認してください。
の主な機能 DeepGEMM:
1️⃣
通常のGEMMとMix-of-Experts(MoE)グループ化されたGEMMをサポート
2️⃣
CUDAで記述され、ランタイムカーネルコンパイルを実施
3️⃣
NVIDIA Hopperテンソルコアに最適化
4️⃣
FP8のための二段階蓄積昇格を利用
5️⃣
単一コアカーネル関数を持つ軽量設計
なぜ使用するのか DeepGEMM?
# | ユースケース | ステータス | |
---|---|---|---|
# 1 | 深層学習モデルのための効率的な行列積 | ✅ | |
# 2 | 推論タスクにおけるパフォーマンスの最適化 | ✅ | |
# 3 | メモリ効率の良い計算のためのFP8精度の利用 | ✅ |
開発者 DeepGEMM?
DeepGEMMは、深層学習アプリケーションにおける行列積の効率的なソリューションを提供することに焦点を当てたChenggang Zhao、Liang Zhao、Jiashi Li、Zhean Xuを含むチームによって開発されました。