metadata
language:
- ru
tags:
- Simplification
- Summarization
- paraphrase
Данная модель является дообучнной версией "sberbank-ai/ruT5-base" на задаче упрощения текста (text simplification). Набор данных (https://drive.google.com/file/d/14lCIp0TJ78R8E9miVm5Ac88guEjCkgFR) был собран из материалов конференции "Dialog-21" (https://github.com/dialogue-evaluation/RuSimpleSentEval), корпуса "RuAdapt" (https://github.com/Digital-Pushkin-Lab/RuAdapt), а также уникальными данными, предоставленными институтом ИФиЯК СФУ. Параметры обучения: данные из файла "dia_train", Learning Rate = 3e-5, batch size = 1, optimizer = AdamW. Оценка SARI (среднее на файле "dia_test") = 33,14
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model_name = "DmitriyVasiliev/ruT5-base-simplification"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
input_text = "Хотя мечте Петра не суждено было сбыться, именно зарубежный опыт лёг в основу дальнейшей застройки."
ml = 2048
import re
def out_gen(input_line):
WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))
input_ids = tokenizer(
[WHITESPACE_HANDLER(input_line)],
return_tensors="pt",
padding="max_length",
truncation=True,
max_length=ml
)["input_ids"].to(device)
output_ids = model.generate(
input_ids=input_ids,
max_length=ml,
no_repeat_ngram_size=2,
num_beams=5,
)[0].to(device)
summary = tokenizer.decode(
output_ids,
skip_special_tokens=True,
clean_up_tokenization_spaces=False
)
return summary
answer = out_gen(input_text)