DeepEP
DeepEP - это библиотека связи, разработанная для Mixture-of-Experts (MoE) и Expert Parallelism (EP). Она предоставляет ядра GPU с низкой задержкой и высокой пропускной способностью для обработки данных.
Перечислено в категориях:
GitHubОткрытый исходный кодИскусственный интеллект


Описание
DeepEP — это библиотека для связи, разработанная специально для смеси экспертов (MoE) и параллелизма экспертов (EP). Она предоставляет высокопроизводительные и низколатентные ядра GPU для всех-всех, оптимизированные как для задач обучения, так и для вывода. Библиотека поддерживает операции с низкой точностью, включая FP8, и включает ядра, оптимизированные для передачи пропускной способности в асимметричных доменах, что делает ее подходящей для различных архитектур GPU и сетевых конфигураций.
Как использовать DeepEP?
Чтобы использовать DeepEP, установите необходимые зависимости, включая NVSHMEM, и импортируйте библиотеку в ваш проект на Python. Настройте буферы связи и установите количество потоковых мультипроцессоров (SM), которые нужно использовать. Используйте предоставленные функции для распределения и комбинирования операций во время обучения модели или вывода.
Основные функции DeepEP:
1️⃣
Высокопроизводительные и низколатентные ядра GPU для MoE и EP
2️⃣
Поддержка операций с низкой точностью, включая FP8
3️⃣
Оптимизация для передачи пропускной способности в асимметричных доменах
4️⃣
Низколатентные ядра для декодирования вывода
5️⃣
Метод перекрытия связи и вычислений на основе хуков
Почему использовать DeepEP?
# | Сценарий использования | Статус | |
---|---|---|---|
# 1 | Обучение модели с использованием обычных ядер | ✅ | |
# 2 | Фаза предварительного заполнения вывода | ✅ | |
# 3 | Декодирование вывода с чувствительностью к задержке | ✅ |
Разработано DeepEP?
DeepEP разработан командой исследователей и инженеров, включая Чэнгана Чжао, Шаньяна Чжоу, Лиюэ Чжан и других, которые сосредоточены на развитии библиотек связи для эффективной параллельной обработки экспертов в приложениях глубокого обучения.