docs: add README
Browse files
README.md
ADDED
@@ -0,0 +1,71 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- ru
|
4 |
+
- en
|
5 |
+
datasets:
|
6 |
+
- d0rj/samsum-ru
|
7 |
+
- IlyaGusev/gazeta
|
8 |
+
- zjkarina/matreshka
|
9 |
+
- rcp-meetings/rudialogsum_v2
|
10 |
+
- GEM/wiki_lingua
|
11 |
+
- mlsum
|
12 |
+
tags:
|
13 |
+
- summarization
|
14 |
+
- dialogue-summarization
|
15 |
+
- text2text-generation
|
16 |
+
- t5
|
17 |
+
widget:
|
18 |
+
- text: >
|
19 |
+
Актуальность проблемы. Электронная информация играет все большую роль во всех сферах жизни современного общества. В последние годы объем научно-технической текстовой информации в электронном виде возрос настолько, что возникает угроза обесценивания этой информации в связи с трудностями поиска необходимых сведений среди множества доступных текстов. Развитие информационных ресурсов Интернет многократно усугубило проблему информационной перегрузки. В этой ситуации особенно актуальными становятся методы автоматизации реферирования текстовой информации, то есть методы получения сжатого представления текстовых документов–рефератов (аннотаций). Постановка проблемы автоматического реферирования текста и соответственно попытки ее решения с использованием различных подходов предпринимались многими исследователями. История применения вычислительной техники для реферирования насчитывает уже более 50 лет и связана с именами таких исследователей, как Г.П. Лун, В.Е. Берзон, И.П. Cевбо, Э.Ф. Скороходько, Д.Г. Лахути, Р.Г. Пиотровский и др. За эти годы выработаны многочисленные подходы к решению данной проблемы, которые достаточно четко подразделяются на два направления: автоматическое реферирование, основанное на экстрагировании из первичных документов с помощью определенных формальных признаков «наиболее информативных» фраз (фрагментов), совокупность которых образует некоторый экстракт; автоматическое реферирование, основанное на выделении из текстов с помощью специальных информационных языков наиболее существенной информации и порождении новых текстов (рефератов), содержательно обобщающих первичные документы.
|
20 |
+
- text: >
|
21 |
+
Первую многоножку, у которой более тысячи ног, обнаружили в австралийских пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого перемещения и проникновения в труднодоступные места — ученые полагают, такая многоножка может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый вид исследователи назвали Eumillipes persephone, в честь Персефоны — древнегреческой богини подземного мира. У многоножки оказалось 1306 ног — больше, чем у любого другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны, — говорит биолог Бруно Бузатто. — Как только я понял, какой длины они были... Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте, эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью, выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)
|
22 |
+
---
|
23 |
+
|
24 |
+
# ru-mbart-large-summ
|
25 |
+
|
26 |
+
## Model
|
27 |
+
|
28 |
+
Finetuned [ai-forever/ruT5-base](https://huggingface.co/ai-forever/ruT5-base) for text and dialogue summarization.
|
29 |
+
|
30 |
+
## Data
|
31 |
+
|
32 |
+
- [d0rj/samsum-ru](https://huggingface.co/datasets/d0rj/samsum-ru)
|
33 |
+
- [IlyaGusev/gazeta](https://huggingface.co/datasets/IlyaGusev/gazeta)
|
34 |
+
- [zjkarina/matreshka](https://huggingface.co/datasets/zjkarina/matreshka)
|
35 |
+
- [rcp-meetings/rudialogsum_v2](https://huggingface.co/datasets/rcp-meetings/rudialogsum_v2)
|
36 |
+
- [GEM/wiki_lingua](https://huggingface.co/datasets/GEM/wiki_lingua)
|
37 |
+
- [mlsum](https://huggingface.co/datasets/mlsum)
|
38 |
+
|
39 |
+
All 'train' subsets was concatenated and shuffled with seed `1000 - 7`.
|
40 |
+
|
41 |
+
Train subset = 155678 rows.
|
42 |
+
|
43 |
+
## Metrics
|
44 |
+
|
45 |
+
Evaluation on 10% of concatenated 'validation' subsets = 1458 rows.
|
46 |
+
|
47 |
+
See [WandB logs](https://wandb.ai/d0rj/summarization/runs/5mmyskgi).
|
48 |
+
|
49 |
+
See report at **REPORT WIP**.
|
50 |
+
|
51 |
+
## Usage
|
52 |
+
|
53 |
+
```python
|
54 |
+
from transformers import pipeline
|
55 |
+
|
56 |
+
|
57 |
+
pipe = pipeline('summarization', model='d0rj/rut5-base-summ')
|
58 |
+
pipe(text)
|
59 |
+
```
|
60 |
+
|
61 |
+
```python
|
62 |
+
from transformers import T5Tokenizer, T5ForConditionalGeneration
|
63 |
+
|
64 |
+
|
65 |
+
tokenizer = T5Tokenizer.from_pretrained('d0rj/rut5-base-summ')
|
66 |
+
model = T5ForConditionalGeneration.from_pretrained('d0rj/rut5-base-summ').eval()
|
67 |
+
|
68 |
+
input_ids = tokenizer(text, return_tensors='pt').input_ids
|
69 |
+
outputs = model.generate(input_ids)
|
70 |
+
summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
|
71 |
+
```
|