vllm

0

Описание

A high-throughput and memory-efficient inference and serving engine for LLMs

Языки

  • Python88,1%
  • Cuda6,4%
  • C++3,8%
  • Shell1%
  • CMake0,3%
  • C0,3%
  • Остальные0,1%

3 месяца назад
README.md