DeepEP
DeepEPは、Mixture-of-Experts (MoE)およびExpert Parallelism (EP)向けに設計された通信ライブラリです。データ処理のための低遅延で高スループットのGPUカーネルを提供します.
カテゴリーにリストされています:
GitHubオープンソース人工知能


説明
DeepEPは、Mixture of Experts(MoE)およびエキスパート並列処理(EP)専用に設計された通信ライブラリです。トレーニングおよび推論タスクの両方に最適化された、高スループットかつ低遅延の全対全GPUカーネルを提供します。このライブラリは、FP8を含む低精度演算をサポートし、非対称ドメイン帯域幅転送に最適化されたカーネルを特徴としており、さまざまなGPUアーキテクチャやネットワーク構成に適しています。
使い方 DeepEP?
DeepEPを使用するには、NVSHMEMを含む必要な依存関係をインストールし、ライブラリをPythonプロジェクトにインポートします。通信バッファを構成し、使用するストリーミングマルチプロセッサ(SM)の数を設定します。モデルのトレーニングや推論中に操作をディスパッチおよび結合するために提供された関数を利用します。
の主な機能 DeepEP:
1️⃣
MoEおよびEP用の高スループットかつ低遅延のGPUカーネル
2️⃣
FP8を含む低精度演算のサポート
3️⃣
非対称ドメイン帯域幅転送に最適化
4️⃣
推論デコーディング用の低遅延カーネル
5️⃣
フックベースの通信計算オーバーラップ手法
なぜ使用するのか DeepEP?
# | ユースケース | ステータス | |
---|---|---|---|
# 1 | 通常のカーネルを使用したモデルのトレーニング | ✅ | |
# 2 | 推論のプレフィリングフェーズ | ✅ | |
# 3 | 遅延に敏感な推論デコーディング | ✅ |
開発者 DeepEP?
DeepEPは、深層学習アプリケーションにおける効率的なエキスパート並列処理のための通信ライブラリの進展に焦点を当てた研究者およびエンジニアのチームによって開発されました。メンバーには、Chenggang Zhao、Shangyan Zhou、Liyue Zhangなどが含まれます。