DeepEP
DeepEP est une bibliothèque de communication conçue pour les Mixture-of-Experts (MoE) et le parallélisme d'experts (EP). Elle fournit des noyaux GPU à faible latence et à haut débit pour le traitement des données.
Listé dans les catégories:
GitHubOpen SourceIntelligence artificielle


Description
DeepEP est une bibliothèque de communication conçue spécifiquement pour le Mixture of Experts (MoE) et le parallélisme d'experts (EP). Elle fournit des noyaux GPU à haut débit et à faible latence, optimisés pour les tâches d'entraînement et d'inférence. La bibliothèque prend en charge les opérations à faible précision, y compris FP8, et propose des noyaux optimisés pour le transfert de bande passante dans des domaines asymétriques, ce qui la rend adaptée à diverses architectures GPU et configurations réseau.
Comment utiliser DeepEP?
Pour utiliser DeepEP, installez les dépendances requises, y compris NVSHMEM, et importez la bibliothèque dans votre projet Python. Configurez les tampons de communication et définissez le nombre de multiprocesseurs de streaming (SM) à utiliser. Utilisez les fonctions fournies pour dispatcher et combiner les opérations lors de l'entraînement ou de l'inférence du modèle.
Fonctionnalités principales de DeepEP:
1️⃣
Noyaux GPU à haut débit et à faible latence pour MoE et EP
2️⃣
Prise en charge des opérations à faible précision, y compris FP8
3️⃣
Optimisé pour le transfert de bande passante dans des domaines asymétriques
4️⃣
Noyaux à faible latence pour le décodage d'inférence
5️⃣
Méthode de chevauchement communication-computation basée sur des hooks
Pourquoi pourrait-il être utilisé DeepEP?
# | Cas d'utilisation | Statut | |
---|---|---|---|
# 1 | Entraînement de modèles utilisant des noyaux normaux | ✅ | |
# 2 | Phase de pré-remplissage d'inférence | ✅ | |
# 3 | Décodage d'inférence sensible à la latence | ✅ |
Développé par DeepEP?
DeepEP est développé par une équipe de chercheurs et d'ingénieurs, y compris Chenggang Zhao, Shangyan Zhou, Liyue Zhang, et d'autres, qui se concentrent sur l'avancement des bibliothèques de communication pour un traitement efficace en parallèle d'experts dans les applications d'apprentissage profond.