vllm

Форк

JC
Jason Cox
Add vLLM version info to logs and openai API server (#3161)
год назад
d65fac2

Описание

A high-throughput and memory-efficient inference and serving engine for LLMs

Языки

Python75,7%
Cuda21,4%
C++1,9%
Shell0,5%
Dockerfile0,2%
C0,2%
Остальные0,1%

Add LoRA support for Gemma (#3050)

год назад

.github

chore(vllm): codespell for spell checking (#2820)

2 года назад

benchmarks

Add Automatic Prefix Caching (#2762)

год назад

csrc

Integrate Marlin Kernels for Int4 GPTQ inference (#2497)

год назад

docs

Add Automatic Prefix Caching (#2762)

год назад

examples

Add Automatic Prefix Caching (#2762)

год назад

rocm_patch

[ROCm] Fix build problem resulted from previous commit related to FP8 kv-cache support (#2790)

2 года назад

tests

Add Automatic Prefix Caching (#2762)

год назад

vllm

Add vLLM version info to logs and openai API server (#3161)

год назад

.dockerignore

Build docker image with shared objects from "build" step (#2237)

2 года назад

.gitignore

Support OpenAI API server in `benchmark_serving.py` (#2172)

2 года назад

.readthedocs.yaml

Add .readthedocs.yaml (#136)

2 года назад

CONTRIBUTING.md

[Quality] Add code formatter and linter (#326)

2 года назад

Dockerfile

Fix docker python version (#2845)

2 года назад

Dockerfile.rocm

[ROCm] Dockerfile fix for flash-attention build (#2885)

2 года назад

LICENSE

Add Apache-2.0 license (#102)

2 года назад

MANIFEST.in

[PyPI] Packaging for PyPI distribution (#140)

2 года назад

README.md

Support starcoder2 architecture (#3089)

год назад

format.sh

chore(vllm): codespell for spell checking (#2820)

2 года назад

patch_xformers.rocm.sh

[ROCm] Upgrade xformers version for ROCm & update doc (#2079)

2 года назад

pyproject.toml

chore(vllm): codespell for spell checking (#2820)

2 года назад

requirements-build.txt

Pin PyTorch & xformers versions (#2155)

2 года назад

requirements-dev.txt

Integrate Marlin Kernels for Int4 GPTQ inference (#2497)

год назад

requirements-neuron.txt

Restrict prometheus_client >= 0.18.0 to prevent errors when importing pkgs (#3070)

год назад

requirements-rocm.txt

Restrict prometheus_client >= 0.18.0 to prevent errors when importing pkgs (#3070)

год назад

requirements.txt

Add guided decoding for OpenAI API server (#2819)

год назад

setup.py

Integrate Marlin Kernels for Int4 GPTQ inference (#2497)

год назад

Readme

README.md

Описание

A high-throughput and memory-efficient inference and serving engine for LLMs

Языки

Python75,7%
Cuda21,4%
C++1,9%
Shell0,5%
Dockerfile0,2%
C0,2%
Остальные0,1%

Сообщить о нарушении

vllm

JCJason CoxAdd vLLM version info to logs and openai API server (#3161)год назадd65fac2

Описание

Языки

Описание

Языки

JC
Jason Cox
Add vLLM version info to logs and openai API server (#3161)
год назад
d65fac2