Subscribe to get weekly email with the most promising tools 🚀

DeepEP là một thư viện giao tiếp được thiết kế cho Mixture-of-Experts (MoE) và Expert Parallelism (EP). Nó cung cấp các lõi GPU có độ trễ thấp và thông lượng cao cho việc xử lý dữ liệu.

Liệt kê trong các danh mục:

GitHubMã nguồn mởTrí tuệ nhân tạo
DeepEP-image-0
DeepEP-image-1
DeepEP-image-2

Mô tả

DeepEP là một thư viện giao tiếp được thiết kế đặc biệt cho Mixture of Experts (MoE) và expert parallelism (EP). Nó cung cấp các kernel GPU với thông lượng cao và độ trễ thấp, được tối ưu hóa cho cả nhiệm vụ đào tạo và suy diễn. Thư viện hỗ trợ các phép toán độ chính xác thấp, bao gồm FP8, và có các kernel được tối ưu hóa cho việc chuyển tiếp băng thông miền không đối xứng, làm cho nó phù hợp với nhiều kiến trúc GPU và cấu hình mạng khác nhau.

Cách sử dụng DeepEP?

Để sử dụng DeepEP, hãy cài đặt các phụ thuộc cần thiết bao gồm NVSHMEM, và nhập thư viện vào dự án Python của bạn. Cấu hình các bộ đệm giao tiếp và đặt số lượng các bộ xử lý đa luồng (SMs) để sử dụng. Sử dụng các hàm được cung cấp để phân phối và kết hợp các phép toán trong quá trình đào tạo mô hình hoặc suy diễn.

Tính năng chính của DeepEP:

1️⃣

Các kernel GPU với thông lượng cao và độ trễ thấp cho MoE và EP

2️⃣

Hỗ trợ các phép toán độ chính xác thấp bao gồm FP8

3️⃣

Tối ưu hóa cho việc chuyển tiếp băng thông miền không đối xứng

4️⃣

Các kernel độ trễ thấp cho suy diễn

5️⃣

Phương pháp chồng chéo giao tiếp-tính toán dựa trên hook

Tại sao nên sử dụng DeepEP?

#Trường hợp sử dụngTrạng thái
# 1Đào tạo mô hình sử dụng các kernel bình thường
# 2Giai đoạn tiền lấp đầy suy diễn
# 3Giải mã suy diễn nhạy cảm với độ trễ

Do ai phát triển DeepEP?

DeepEP được phát triển bởi một nhóm các nhà nghiên cứu và kỹ sư, bao gồm Chenggang Zhao, Shangyan Zhou, Liyue Zhang và những người khác, những người tập trung vào việc phát triển các thư viện giao tiếp cho việc xử lý song song chuyên gia hiệu quả trong các ứng dụng học sâu.

Câu hỏi thường gặp DeepEP