vllm

0

Описание

A high-throughput and memory-efficient inference and serving engine for LLMs

Языки

  • Python75,7%
  • Cuda21,4%
  • C++1,9%
  • Shell0,5%
  • Dockerfile0,2%
  • C0,2%
  • Остальные0,1%
Сообщить о нарушении
README.md

Для полного доступа зарегистрируйтесь или авторизуйтесь на GitVerse

Войти