vllm
Описание
A high-throughput and memory-efficient inference and serving engine for LLMs
Языки
- Python75,7%
- Cuda21,4%
- C++1,9%
- Shell0,5%
- Dockerfile0,2%
- C0,2%
- Остальные0,1%
2 года назад
год назад
год назад
README.md
A high-throughput and memory-efficient inference and serving engine for LLMs
Все инструменты для разработки на одной платформе
Для полного доступа зарегистрируйтесь или авторизуйтесь на GitVerse