Subscribe to get weekly email with the most promising tools 🚀

DeepEP è una libreria di comunicazione progettata per Mixture-of-Experts (MoE) e Expert Parallelism (EP). Fornisce kernel GPU a bassa latenza e ad alta capacità per l'elaborazione dei dati.

Elencato nelle categorie:

GitHubOpen SourceIntelligenza artificiale
DeepEP-image-0
DeepEP-image-1
DeepEP-image-2

Descrizione

DeepEP è una libreria di comunicazione progettata specificamente per Mixture of Experts (MoE) e parallelismo degli esperti (EP). Fornisce kernel GPU ad alta capacità e bassa latenza all-to-all, ottimizzati sia per compiti di addestramento che di inferenza. La libreria supporta operazioni a bassa precisione, inclusi FP8, e presenta kernel ottimizzati per l'inoltro della larghezza di banda del dominio asimmetrico, rendendola adatta a varie architetture GPU e configurazioni di rete.

Come usare DeepEP?

Per utilizzare DeepEP, installa le dipendenze richieste, inclusa NVSHMEM, e importa la libreria nel tuo progetto Python. Configura i buffer di comunicazione e imposta il numero di multiprocessori di streaming (SM) da utilizzare. Utilizza le funzioni fornite per dispatchare e combinare le operazioni durante l'addestramento del modello o l'inferenza.

Funzionalità principali di DeepEP:

1️⃣

Kernel GPU ad alta capacità e bassa latenza per MoE e EP

2️⃣

Supporto per operazioni a bassa precisione, inclusi FP8

3️⃣

Ottimizzato per l'inoltro della larghezza di banda del dominio asimmetrico

4️⃣

Kernel a bassa latenza per la decodifica dell'inferenza

5️⃣

Metodo di sovrapposizione comunicazione-computazione basato su hook

Perché potrebbe essere usato DeepEP?

#Caso d'usoStato
# 1Addestramento del modello utilizzando kernel normali
# 2Fase di precompilazione dell'inferenza
# 3Decodifica dell'inferenza sensibile alla latenza

Sviluppato da DeepEP?

DeepEP è sviluppato da un team di ricercatori e ingegneri, tra cui Chenggang Zhao, Shangyan Zhou, Liyue Zhang e altri, che si concentrano sul miglioramento delle librerie di comunicazione per un'elaborazione esperta-parallela efficiente nelle applicazioni di deep learning.

Domande frequenti di DeepEP