tokenizers
95 строк · 2.6 Кб
1Input sequences
2~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
3
4These types represent all the different kinds of sequence that can be used as input of a Tokenizer.
5Globally, any sequence can be either a string or a list of strings, according to the operating
6mode of the tokenizer: ``raw text`` vs ``pre-tokenized``.
7
8.. autodata:: tokenizers.TextInputSequence
9
10.. autodata:: tokenizers.PreTokenizedInputSequence
11
12.. autodata:: tokenizers.InputSequence
13
14
15Encode inputs
16~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
17
18These types represent all the different kinds of input that a :class:`~tokenizers.Tokenizer` accepts
19when using :meth:`~tokenizers.Tokenizer.encode_batch`.
20
21.. autodata:: tokenizers.TextEncodeInput
22
23.. autodata:: tokenizers.PreTokenizedEncodeInput
24
25.. autodata:: tokenizers.EncodeInput
26
27
28Tokenizer
29~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
30
31.. autoclass:: tokenizers.Tokenizer
32:members:
33
34
35Encoding
36~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
37
38.. autoclass:: tokenizers.Encoding
39:members:
40
41
42Added Tokens
43~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
44
45.. autoclass:: tokenizers.AddedToken
46:members:
47
48
49Models
50~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
51
52.. automodule:: tokenizers.models
53:members:
54
55Normalizers
56~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
57
58.. automodule:: tokenizers.normalizers
59:members:
60
61
62Pre-tokenizers
63~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
64
65.. automodule:: tokenizers.pre_tokenizers
66:members:
67
68
69Post-processor
70~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
71
72.. automodule:: tokenizers.processors
73:members:
74
75
76Trainers
77~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
78
79.. automodule:: tokenizers.trainers
80:members:
81
82Decoders
83~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
84
85.. automodule:: tokenizers.decoders
86:members:
87
88Visualizer
89~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
90
91.. autoclass:: tokenizers.tools.Annotation
92:members:
93
94.. autoclass:: tokenizers.tools.EncodingVisualizer
95:members: __call__
96