rulm

Форк
0
/
test_fix_tokenizer.py 
25 строк · 929.0 Байт
1
from transformers import AutoTokenizer, AutoConfig
2

3
from src.util.dl import fix_tokenizer
4

5

6
def test_fix_tokenizer():
7
    model_name = "TheBloke/Llama-2-7B-fp16"
8
    tokenizer = AutoTokenizer.from_pretrained(model_name)
9
    config = AutoConfig.from_pretrained(model_name)
10
    tokenizer = fix_tokenizer(tokenizer, config)
11
    assert tokenizer.bos_token_id == 1
12
    assert tokenizer.eos_token_id == 2
13
    assert tokenizer.pad_token_id == 0
14
    assert tokenizer.unk_token_id == 0
15
    assert tokenizer.model_max_length == 4096
16

17
    model_name = "ai-forever/ruGPT-3.5-13B"
18
    tokenizer = AutoTokenizer.from_pretrained(model_name)
19
    config = AutoConfig.from_pretrained(model_name)
20
    tokenizer = fix_tokenizer(tokenizer, config)
21
    assert tokenizer.pad_token_id == 0
22
    assert tokenizer.bos_token_id == 2
23
    assert tokenizer.eos_token_id == 3
24
    assert tokenizer.unk_token_id == 1
25
    assert tokenizer.model_max_length == 2048
26

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.