Subscribe to get weekly email with the most promising tools 🚀

DeepEP ist eine Kommunikationsbibliothek, die für Mixture-of-Experts (MoE) und Expert Parallelism (EP) entwickelt wurde. Sie bietet hochdurchsatzfähige und latenzarme GPU-Kerne für die Datenverarbeitung.

Aufgeführt in Kategorien:

GitHubOpen SourceKünstliche Intelligenz
DeepEP-image-0
DeepEP-image-1
DeepEP-image-2

Beschreibung

DeepEP ist eine Kommunikationsbibliothek, die speziell für Mixture of Experts (MoE) und Expert Parallelismus (EP) entwickelt wurde. Sie bietet hochdurchsatzfähige und latenzarme All-to-All-GPU-Kerne, die sowohl für Trainings- als auch für Inferenzaufgaben optimiert sind. Die Bibliothek unterstützt Operationen mit niedriger Präzision, einschließlich FP8, und verfügt über Kerne, die für die Weiterleitung von Bandbreite im asymmetrischen Bereich optimiert sind, was sie für verschiedene GPU-Architekturen und Netzwerk-Konfigurationen geeignet macht.

Wie man benutzt DeepEP?

Um DeepEP zu verwenden, installieren Sie die erforderlichen Abhängigkeiten, einschließlich NVSHMEM, und importieren Sie die Bibliothek in Ihr Python-Projekt. Konfigurieren Sie die Kommunikationspuffer und legen Sie die Anzahl der zu verwendenden Streaming-Multiprozessoren (SMs) fest. Nutzen Sie die bereitgestellten Funktionen zum Dispatchen und Kombinieren von Operationen während des Modelltrainings oder der Inferenz.

Hauptmerkmale von DeepEP:

1️⃣

Hochdurchsatzfähige und latenzarme GPU-Kerne für MoE und EP

2️⃣

Unterstützung für Operationen mit niedriger Präzision, einschließlich FP8

3️⃣

Optimiert für die Weiterleitung von Bandbreite im asymmetrischen Bereich

4️⃣

Latenzarme Kerne für Inferenzdekodierung

5️⃣

Hook-basierte Methode zur Überlappung von Kommunikation und Berechnung

Warum könnte verwendet werden DeepEP?

#AnwendungsfallStatus
# 1Modelltraining mit normalen Kernen
# 2Inferenz-Vorbefüllungsphase
# 3Latenzempfindliche Inferenzdekodierung

Wer hat entwickelt DeepEP?

DeepEP wird von einem Team von Forschern und Ingenieuren entwickelt, darunter Chenggang Zhao, Shangyan Zhou, Liyue Zhang und andere, die sich darauf konzentrieren, Kommunikationsbibliotheken für effizientes Expert-Paralleles Verarbeiten in Deep-Learning-Anwendungen voranzutreiben.

FAQ von DeepEP