vllm

0

Описание

A high-throughput and memory-efficient inference and serving engine for LLMs

Языки

Python

  • Dockerfile
  • Cuda
  • C
  • C++
  • Shell
  • Jinja
Сообщить о нарушении
README.md