|
--- |
|
language: |
|
- uk |
|
datasets: |
|
- UberText |
|
metrics: |
|
- rouge |
|
max_length: |
|
- 128 |
|
pipeline_tag: summarization |
|
widget: |
|
- text: >- |
|
російські війська захопили запорізьку аес на початку повномасштабного вторгнення 4 березня 2022 року . |
|
попри оголошену окупантами «анексію» запорізької аес, на станції продовжують працювати українські фахівці . |
|
але для роботи окупанти змушують отримувати російські паспорти й підписувати договір з «росатомом» . за даними «енергоатому», |
|
зараз усі шість енергоблоків заес зупинені, а окупанти блокують їхнє ввімкнення . окупована станція продовжує постійно споживати електроенергію на власні потреби з енергосистеми україни . «російські окупанти продовжують перетворювати запорізьку аес на військову базу, мінуючи периметр довкола станції . |
|
і ці дії не можуть не мати наслідків», - зазначили там . |
|
--- |
|
|
|
### Model Description |
|
|
|
<!-- Provide a longer summary of what this model is. --> |
|
The dataset contains around 40K articles about politics, science, technology, social life collected until June 2021 from Hromadske.ua. |
|
|
|
##### Load the model and mt tokenizer : |
|
```python |
|
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline |
|
|
|
tokenizer = AutoTokenizer.from_pretrained("google/mt5-large") |
|
|
|
model = AutoModelForSeq2SeqLM.from_pretrained("SGaleshchuk/t5-large-ua-news") |
|
|
|
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer, framework="pt") |
|
##### Try on your example |
|
|
|
summary = summarizer("російські війська захопили запорізьку аес на початку повномасштабного вторгнення 4 березня 2022 року . попри оголошену окупантами «анексію» запорізької аес, на станції продовжують працювати українські фахівці . але для роботи окупанти змушують отримувати російські паспорти й підписувати договір з «росатомом» . за даними «енергоатому», зараз усі шість енергоблоків заес зупинені, а окупанти блокують їхнє ввімкнення . окупована станція продовжує постійно споживати електроенергію на власні потреби з енергосистеми україни . «російські окупанти продовжують перетворювати запорізьку аес на військову базу, мінуючи периметр довкола станції . і ці дії не можуть не мати наслідків», - зазначили там .", min_length=3, max_length = 128) |
|
print(summary) |
|
[{'summary_text': 'окупаційна влада рф продовжує перетворювати запорізьку атомну електростанцію на військову базу . '}] |
|
``` |
|
|
|
|
|
|
|
- **Model type:** sequence-to-sequence, summarization |
|
- **Language(s) (NLP):** Ukrainian |
|
- **Finetuned from model :** mT5-large |
|
|
|
### Model Sources |
|
|
|
- **Dataset:** [UberText](https://lang.org.ua/en/corpora/) |
|
- **Paper:** Svitlana Galeshchuk, Abstractive Summarization for the Ukrainian Language: Multi-Task Learning with Hromadske.ua News Dataset. Proceedings of UNLP Workshop at EACL 2023. |
|
- **Demo:** to be provided |
|
|
|
|
|
#### Preprocessing |
|
|
|
It is recommended to lowercase an input text. |
|
|
|
|
|
#### Metrics |
|
|
|
<!-- These are the evaluation metrics being used, ideally with a description of why. --> |
|
|
|
The benchmark metric for abstractive summarization tasks adopted by the research community is the ROUGE score. The metric compares a generated summary against a reference. We employ three sub-categories of the ROUGE score: |
|
|
|
• ROUGE-1: unigram overlap |
|
|
|
• ROUGE-2: bigram overlap |
|
|
|
• ROUGE-L: Longest Common Subsequence |
|
|
|
### Results |
|
|
|
• ROUGE-1: 22.09 |
|
|
|
• ROUGE-2: 7.04 |
|
|
|
• ROUGE-L: 22.12 |
|
|
|
|