Update README.md
Browse files
README.md
CHANGED
@@ -40,16 +40,29 @@ pip install git+https://github.com/Koziev/character-tokenizer
|
|
40 |
|
41 |
Кроме символов кириллицы и пунктуации, этот токенизатор знает про специальные токены ```<s>```, ```</s>```, ```<pad>``` и ```<unk>```.
|
42 |
|
43 |
-
Так как это нестандартный для transformers токенизатор, его надо загружать не через ```transformers.AutoTokenizer.from_pretrained```, а
|
44 |
|
45 |
```
|
46 |
import charactertokenizer
|
47 |
|
48 |
...
|
49 |
-
|
50 |
tokenizer = charactertokenizer.CharacterTokenizer.from_pretrained('inkoziev/charllama-35M')
|
51 |
```
|
52 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
53 |
### Использование
|
54 |
|
55 |
С библиотекой transformerts модель можно использовать штатным способом как обычную GPT'шку:
|
@@ -93,4 +106,4 @@ for o in output_sequences:
|
|
93 |
print('-'*80)
|
94 |
```
|
95 |
|
96 |
-
Также, будут работать все прочие инструменты для GPT моделей, например transformers.
|
|
|
40 |
|
41 |
Кроме символов кириллицы и пунктуации, этот токенизатор знает про специальные токены ```<s>```, ```</s>```, ```<pad>``` и ```<unk>```.
|
42 |
|
43 |
+
Так как это нестандартный для transformers токенизатор, его надо загружать не через ```transformers.AutoTokenizer.from_pretrained```, а примерно так:
|
44 |
|
45 |
```
|
46 |
import charactertokenizer
|
47 |
|
48 |
...
|
|
|
49 |
tokenizer = charactertokenizer.CharacterTokenizer.from_pretrained('inkoziev/charllama-35M')
|
50 |
```
|
51 |
|
52 |
+
Чтобы посмотреть на токенизацию, можно использовать такой фрагмент кода:
|
53 |
+
|
54 |
+
```
|
55 |
+
prompt = '<s>У Лукоморья дуб зеленый\n'
|
56 |
+
encoded_prompt = tokenizer.encode(prompt, return_tensors='pt')
|
57 |
+
print('Tokenized prompt:', ' | '.join(tokenizer.decode([t]) for t in encoded_prompt[0]))
|
58 |
+
```
|
59 |
+
|
60 |
+
Вы увидите список токенов, разделенных символом ```|```:
|
61 |
+
|
62 |
+
```
|
63 |
+
Tokenized prompt: <s> | У | | Л | у | к | о | м | о | р | ь | я | | д | у | б | | з | е | л | е | н | ы | й |
|
64 |
+
```
|
65 |
+
|
66 |
### Использование
|
67 |
|
68 |
С библиотекой transformerts модель можно использовать штатным способом как обычную GPT'шку:
|
|
|
106 |
print('-'*80)
|
107 |
```
|
108 |
|
109 |
+
Также, будут работать все прочие инструменты для GPT моделей, например transformers.AutoModelForSequenceClassification.
|