inkoziev commited on
Commit
3805c0c
1 Parent(s): ed1acf0

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +16 -3
README.md CHANGED
@@ -40,16 +40,29 @@ pip install git+https://github.com/Koziev/character-tokenizer
40
 
41
  Кроме символов кириллицы и пунктуации, этот токенизатор знает про специальные токены ```<s>```, ```</s>```, ```<pad>``` и ```<unk>```.
42
 
43
- Так как это нестандартный для transformers токенизатор, его надо загружать не через ```transformers.AutoTokenizer.from_pretrained```, а таким кодом:
44
 
45
  ```
46
  import charactertokenizer
47
 
48
  ...
49
-
50
  tokenizer = charactertokenizer.CharacterTokenizer.from_pretrained('inkoziev/charllama-35M')
51
  ```
52
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
53
  ### Использование
54
 
55
  С библиотекой transformerts модель можно использовать штатным способом как обычную GPT'шку:
@@ -93,4 +106,4 @@ for o in output_sequences:
93
  print('-'*80)
94
  ```
95
 
96
- Также, будут работать все прочие инструменты для GPT моделей, например transformers.GPT2ForSequenceClassification.
 
40
 
41
  Кроме символов кириллицы и пунктуации, этот токенизатор знает про специальные токены ```<s>```, ```</s>```, ```<pad>``` и ```<unk>```.
42
 
43
+ Так как это нестандартный для transformers токенизатор, его надо загружать не через ```transformers.AutoTokenizer.from_pretrained```, а примерно так:
44
 
45
  ```
46
  import charactertokenizer
47
 
48
  ...
 
49
  tokenizer = charactertokenizer.CharacterTokenizer.from_pretrained('inkoziev/charllama-35M')
50
  ```
51
 
52
+ Чтобы посмотреть на токенизацию, можно использовать такой фрагмент кода:
53
+
54
+ ```
55
+ prompt = '<s>У Лукоморья дуб зеленый\n'
56
+ encoded_prompt = tokenizer.encode(prompt, return_tensors='pt')
57
+ print('Tokenized prompt:', ' | '.join(tokenizer.decode([t]) for t in encoded_prompt[0]))
58
+ ```
59
+
60
+ Вы увидите список токенов, разделенных символом ```|```:
61
+
62
+ ```
63
+ Tokenized prompt: <s> | У | | Л | у | к | о | м | о | р | ь | я | | д | у | б | | з | е | л | е | н | ы | й |
64
+ ```
65
+
66
  ### Использование
67
 
68
  С библиотекой transformerts модель можно использовать штатным способом как обычную GPT'шку:
 
106
  print('-'*80)
107
  ```
108
 
109
+ Также, будут работать все прочие инструменты для GPT моделей, например transformers.AutoModelForSequenceClassification.