tokenizers

Форк
0
/
python.inc 
95 строк · 2.6 Кб
1
Input sequences
2
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
3

4
These types represent all the different kinds of sequence that can be used as input of a Tokenizer.
5
Globally, any sequence can be either a string or a list of strings, according to the operating
6
mode of the tokenizer: ``raw text`` vs ``pre-tokenized``.
7

8
.. autodata:: tokenizers.TextInputSequence
9

10
.. autodata:: tokenizers.PreTokenizedInputSequence
11

12
.. autodata:: tokenizers.InputSequence
13

14

15
Encode inputs
16
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
17

18
These types represent all the different kinds of input that a :class:`~tokenizers.Tokenizer` accepts
19
when using :meth:`~tokenizers.Tokenizer.encode_batch`.
20

21
.. autodata:: tokenizers.TextEncodeInput
22

23
.. autodata:: tokenizers.PreTokenizedEncodeInput
24

25
.. autodata:: tokenizers.EncodeInput
26

27

28
Tokenizer
29
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
30

31
.. autoclass:: tokenizers.Tokenizer
32
    :members:
33

34

35
Encoding
36
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
37

38
.. autoclass:: tokenizers.Encoding
39
    :members:
40

41

42
Added Tokens
43
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
44

45
.. autoclass:: tokenizers.AddedToken
46
    :members:
47

48

49
Models
50
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
51

52
.. automodule:: tokenizers.models
53
    :members:
54

55
Normalizers
56
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
57

58
.. automodule:: tokenizers.normalizers
59
    :members:
60

61

62
Pre-tokenizers
63
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
64

65
.. automodule:: tokenizers.pre_tokenizers
66
    :members:
67

68

69
Post-processor
70
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
71

72
.. automodule:: tokenizers.processors
73
    :members:
74

75

76
Trainers
77
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
78

79
.. automodule:: tokenizers.trainers
80
    :members:
81

82
Decoders
83
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
84

85
.. automodule:: tokenizers.decoders
86
    :members:
87

88
Visualizer
89
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
90

91
.. autoclass:: tokenizers.tools.Annotation
92
    :members:
93

94
.. autoclass:: tokenizers.tools.EncodingVisualizer
95
    :members: __call__
96

Использование cookies

Мы используем файлы cookie в соответствии с Политикой конфиденциальности и Политикой использования cookies.

Нажимая кнопку «Принимаю», Вы даете АО «СберТех» согласие на обработку Ваших персональных данных в целях совершенствования нашего веб-сайта и Сервиса GitVerse, а также повышения удобства их использования.

Запретить использование cookies Вы можете самостоятельно в настройках Вашего браузера.