quanto

Форк
0

README.md

Quanto generation benchmark

This repository contains scripts to evaluate the performances of quantized models using three metrics:

A evaluate_model.py utility script is also provided to evaluate the metrics on a specific model for several quantization configurations, and output the result to a png barchart and/or a json file.

The paragraphs below display results for some popular models on a NVIDIA A100 GPU.

facebook/opt-125m

facebook/opt-125m Lambada prediction accuracy
facebook/opt-125m WikiText perplexity

facebook/opt-350m

facebook/opt-350m Lambada prediction accuracy
facebook/opt-350m WikiText perplexity

facebook/opt-1.3b

facebook/opt-1.3bm Lambada prediction accuracy
facebook/opt-1.3bm WikiText perplexity

EleutherAI-pythia-1b

EleutherAI-pythia-1b Lambada prediction accuracy
EleutherAI-pythia-1b WikiText perplexity

princeton-nlp/Sheared-LLaMA-1.3B

princeton-nlp/Sheared-LLaMA-1.3B Lambada prediction accuracy
princeton-nlp/Sheared-LLaMA-1.3B WikiText perplexity

NousResearch/Llama-2-7b-hf

NousResearch/Llama-2-7b-hf Lambada prediction accuracy
NousResearch/Llama-2-7b-hf WikiText perplexity

mistralai/Mistral-7B-v0.1

mistralai/Mistral-7B-v0.1 Lambada prediction accuracy
mistralai/Mistral-7B-v0.1 Lambada prediction accuracy

HuggingFaceH4/zephyr-7b-beta

HuggingFaceH4/zephyr-7b-beta Lambada prediction accuracy
HuggingFaceH4/zephyr-7b-beta Lambada prediction accuracy

google/gemma-2b

google-gemma-2b Lambada prediction accuracy
google-gemma-2b Lambada prediction accuracy

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.