File size: 2,690 Bytes
0b64e9a 9309d19 16afcd3 9309d19 f7c3502 9309d19 16afcd3 9309d19 0b64e9a 9309d19 0c2c30b 9309d19 bfb1acf 16afcd3 2109b59 9309d19 caf55da 9309d19 caf55da 9309d19 caf55da fd14579 16afcd3 bfb1acf 16afcd3 caf55da |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 |
---
license: apache-2.0
language:
- ru
tags:
- instruct
datasets:
- d0rj/OpenOrca-ru
- d0rj/dolphin-ru
- d0rj/gsm8k-ru
- d0rj/alpaca-cleaned-ru
- dwarf2/databricks-dolly-15k-ru
- AlexWortega/flan_translated_300k
base_model: ai-forever/FRED-T5-large
library_name: transformers
pipeline_tag: text2text-generation
inference:
parameters:
top_k: 3
repetition_penalty: 1.2
temperature: 1.07
max_new_tokens: 250
widget:
- text: <SC6>Ты - помощник ИИ. Тебе дадут задание. Ты должен дать подробный и длинный ответ. Придумай сказку про красную лягушку<extra_id_0>
example_title: Сочинить
- text: <SC6>Как у тебя дела?<extra_id_0>
example_title: Chit-chat
- text: <SC6>Ты - помощник ИИ. Тебе дадут задание. Ты должен дать подробный и длинный ответ. Как зовут первого президента Российской Федерации?<extra_id_0>
example_title: Фактология
---
# FRED-T5-large-instruct
[![](https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg)](https://wandb.ai/d0rj/fred-t5-instruct)
> 🚧 WIP, still training...
Модель [ai-forever/FRED-T5-large](https://huggingface.co/ai-forever/FRED-T5-large), обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.
Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.
## Usage
### Basic
```python
from transformers import pipeline
pipe = pipeline('text2text-generation', model='d0rj/FRED-T5-large-instruct')
pipe('<SC6>Придумай сказку про красную лягушку<extra_id_0>')
```
## Training
Пока что можно следить за обучением [здесь на WandB](https://wandb.ai/d0rj/fred-t5-instruct).
Учится в fp32.
### Data
Сконкатенировано из разных переведённых инструктивных датасетов.
Всего 1.1B токенов (1133146852) в обучающем сете, 7506075 примеров system_prompt-question-answer. По Chinchilla статье это ~ в 15 раз меньше, чем нужно (но Chinchilla про претрейн).
### Resources
Учится в Kaggle на одной P100. Медленно, но верно (лосс падает, а большего мне и не надо).
|