Spaces:
Sleeping
Sleeping
Update README_Ru.md
Browse files- README_Ru.md +43 -0
README_Ru.md
CHANGED
@@ -128,6 +128,49 @@
|
|
128 |
Результат обучения показан ниже
|
129 |

|
130 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
131 |
# Архитектура
|
132 |
|
133 |
- PrepareData.ipynb <- Парсер данных из Интернета, очистка, токенизация и подготовка к набору данных
|
|
|
128 |
Результат обучения показан ниже
|
129 |

|
130 |
|
131 |
+
### Генерация текста
|
132 |
+
|
133 |
+
После обучения, модель собирается в pipeline
|
134 |
+
|
135 |
+
```python
|
136 |
+
chef = pipeline('text-generation', model="./models/en_gpt2-large_rachel_replics", tokenizer=model_type)
|
137 |
+
```
|
138 |
+
|
139 |
+
Для генерации текста используется следующая команда
|
140 |
+
```python
|
141 |
+
out = model.generate(inpt.cuda(),
|
142 |
+
max_length=50,
|
143 |
+
repetition_penalty=5.0,
|
144 |
+
do_sample=True,
|
145 |
+
top_k=5,
|
146 |
+
top_p=0.95,
|
147 |
+
temperature=1)
|
148 |
+
```
|
149 |
+
Sure, let's break down each line of the code snippet:
|
150 |
+
|
151 |
+
```python
|
152 |
+
out = model.generate(inpt.cuda(),
|
153 |
+
max_length=50,
|
154 |
+
repetition_penalty=5.0,
|
155 |
+
do_sample=True,
|
156 |
+
top_k=5,
|
157 |
+
top_p=0.95,
|
158 |
+
temperature=1)
|
159 |
+
```
|
160 |
+
где
|
161 |
+
1. **max_length=50**: Этот параметр задает максимальную длину генерируемого вывода. В данном случае он равен 50 лексемам.
|
162 |
+
|
163 |
+
2. **repetition_penalty=5.0**: Этот параметр наказывает модель за повторение одного и того же токена в выводе. Более высокое значение увеличивает наказание за повторение лексем, что потенциально может привести к более разнообразным выводам.
|
164 |
+
|
165 |
+
3. **do_sample=True**: Этот параметр указывает, использовать ли выборку при генерации. Если `True`, модель будет делать выборку из своего выходного распределения для генерации текста, что приведет к более разнообразным результатам.
|
166 |
+
|
167 |
+
4. **top_k=5**: Этот параметр определяет количество лексем, которые будут рассматриваться для выборки на основе их вероятностей. Он ограничивает выборку k лексемами с наибольшей вероятностью.
|
168 |
+
|
169 |
+
5. **top_p=0.95**: Этот параметр, также известный как выборка по ядрам, управляет порогом кумулятивной вероятности для выборки по ядрам. Он ограничивает выборку подмножеством лексем, чья кумулятивная вероятность превышает этот порог.
|
170 |
+
|
171 |
+
6. **temperature=1**: Этот параметр масштабирует логиты перед применением softmax во время выборки. Более высокая температура приводит к большей случайности в генерируемом тексте.
|
172 |
+
Overall, this code snippet generates text using a GPT-2 model with the specified input prompt and generation parameters, producing diverse and contextually relevant outputs.
|
173 |
+
|
174 |
# Архитектура
|
175 |
|
176 |
- PrepareData.ipynb <- Парсер данных из Интернета, очистка, токенизация и подготовка к набору данных
|