Subscribe to get weekly email with the most promising tools 🚀

DeepEP adalah pustaka komunikasi yang dirancang untuk Mixture-of-Experts (MoE) dan Expert Parallelism (EP). Ini menyediakan inti GPU dengan latensi rendah dan throughput tinggi untuk pemrosesan data.

Terdaftar dalam kategori:

GitHubSumber TerbukaKecerdasan buatan
DeepEP-image-0
DeepEP-image-1
DeepEP-image-2

Deskripsi

DeepEP adalah pustaka komunikasi yang dirancang khusus untuk Mixture of Experts (MoE) dan parallelisme ahli (EP). Ini menyediakan kernel GPU all-to-all dengan throughput tinggi dan latensi rendah, dioptimalkan untuk tugas pelatihan dan inferensi. Pustaka ini mendukung operasi presisi rendah, termasuk FP8, dan memiliki kernel yang dioptimalkan untuk pengalihan bandwidth domain asimetris, menjadikannya cocok untuk berbagai arsitektur GPU dan konfigurasi jaringan.

Cara menggunakan DeepEP?

Untuk menggunakan DeepEP, instal dependensi yang diperlukan termasuk NVSHMEM, dan impor pustaka ke dalam proyek Python Anda. Konfigurasikan buffer komunikasi dan atur jumlah multiprosesor streaming (SM) yang akan digunakan. Manfaatkan fungsi yang disediakan untuk mengirim dan menggabungkan operasi selama pelatihan model atau inferensi.

Fitur inti dari DeepEP:

1️⃣

Kernel GPU dengan throughput tinggi dan latensi rendah untuk MoE dan EP

2️⃣

Dukungan untuk operasi presisi rendah termasuk FP8

3️⃣

Dioptimalkan untuk pengalihan bandwidth domain asimetris

4️⃣

Kernel latensi rendah untuk decoding inferensi

5️⃣

Metode tumpang tindih komunikasi-perhitungan berbasis hook

Mengapa bisa digunakan DeepEP?

#Kasus PenggunaanStatus
# 1Pelatihan model menggunakan kernel normal
# 2Fase prefilling inferensi
# 3Decoding inferensi yang sensitif terhadap latensi

Dikembangkan oleh DeepEP?

DeepEP dikembangkan oleh tim peneliti dan insinyur, termasuk Chenggang Zhao, Shangyan Zhou, Liyue Zhang, dan lainnya, yang fokus pada pengembangan pustaka komunikasi untuk pemrosesan paralel ahli yang efisien dalam aplikasi pembelajaran mendalam.

FAQ dari DeepEP