File size: 9,837 Bytes
2127fb1
 
 
 
 
 
 
f4fffb0
18e8998
c1db168
18e8998
 
b5e5c66
 
2127fb1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7ee21f4
2127fb1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2a47380
2127fb1
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
---

language:
- ru
tags:
- summarization
license: apache-2.0
widget:
- text: "Комиссия Совета Федерации по информационной политике и взаимодействию со СМИ совместно с заинтересованными ведомствами думает над разработкой национального законодательства в области налогообложения глобальных интернет-компаний, таких как Google и Facebook. Об этом сообщил ТАСС председатель комиссии Алексей Пушков. «В настоящее время по линии ОЭСР [Организация экономического сотрудничества и развития] ведется разработка международной конвенции, однако работа над ней еще не завершена. В этих условиях мы исходим из того, что самая разумная позиция - начать разработку национального законодательства, не дожидаясь конвенции», — пояснил сенатор. Пушков отметил, что по такому пути пошли еще несколько стран, в числе которых Франция, Австралия и Турция. По его словам, в России важно задействовать в этой работе Минфин, ФНС, МИД РФ и Роскомнадзор. «Интернет-платформы не фигурируют у нас сейчас как отдельный объект налогообложения. Когда они откроют в России свои представительства в рамках закона о «приземлении», возникнет вопрос: как их официальное присутствие на территории России, которого сейчас нет, будет соотноситься с нашим налоговым режимом. Мы сейчас продумываем, как установить эту взаимосвязь», — сказал Пушков, добавляя, что вопрос внесения изменений в российское законодательство в части налогообложения крупных IT-компаний находится «на первой стадии изучения». Сам сенатор выступает за введение прогрессивной ставки налога в зависимости от прибыли IT-компаний на территории страны. При этом, подчеркнул он, одна из задач национальной системы налогообложения будет заключаться в подсчете налогооблагаемой базы. Сейчас крупные ИТ-компании самостоятельно отчитываются о своей прибыли. Однако России нужна собственная система подсчета их доходов, которая позволит определить их «реальную налогооблагаемую базу», считает Пушков. (https://www.gazeta.ru/tech/news/2021/12/17/n_17024239.shtml)"
  example_title: "Новость про налоги в IT"
- text: "Первую многоножку, у которой более тысячи ног, обнаружили в австралийских пещерах биологи, изучавшие там подземные воды. Предыдущей рекордсменкой по количеству ног была 700-ногая многоножка. Новый вид имеет длинное тонкое тело, похожее на нить, и большое количество конечностей, по-видимому, дает преимущества для быстрого перемещения и проникновения в труднодоступные места — ученые полагают, такая многоножка может спокойно перемещаться по трещинам в камнях. Австралия известна своими огромными и жутковатыми животными вроде 25-сантиметровых пауков. Теперь список пугающих членистоногих пополнился самой «многоногой» в мире многоножкой, у которой более тысячи ног. Необычное животное обнаружила группа исследователей из Австралии и США в пещерах на западе страны. Подробнее многоножку ученые описали в статье в журнале Scientific Reports. Исследователи занимались оценкой воздействия подземных вод на окружающую среду в зоне добычи полезных ископаемых на западе страны, когда наткнулись на новый вид многоножек. В отличие от большинства сородичей, живущих на поверхности, эти многоножки обитали в пещерах на глубине до 60 метров. Новый вид исследователи назвали Eumillipes persephone, в честь Персефоны — древнегреческой богини подземного мира. У многоножки оказалось 1306 ног — больше, чем у любого другого известного вида. Предыдущей рекордсменкой была калифорнийская Illacme plenipes, у которой насчитывалось до 750 ног. «Эти животные были настолько уникальны, — говорит биолог Бруно Бузатто. — Как только я понял, какой длины они были... Стало ясно, что это что-то совершенно новое». У Е. persephone нитевидное тело длиной около 9,5 см и шириной всего миллиметр, состоящее из 330 сегментов, короткие ноги и конусообразная голова. Как и другие животные, живущие в постоянной темноте, эти многоножки бледны и слепы. Энтомолог Пол Марек сравнивает ее с белой нитью, выдернутой из рубашки. Чтобы посчитать количество ног, ученым пришлось сначала снять многоножку в высоком разрешении, а затем закрашивать на фото каждый десяток ног другим цветом. (https://www.gazeta.ru/science/2021/12/17_a_14325355.shtml)"
  example_title: "Новость про многоножку"
- text: "Высота башни составляет 324 метра (1063 фута), примерно такая же высота, как у 81-этажного здания, и самое высокое сооружение в Париже. Его основание квадратно, размером 125 метров (410 футов) с любой стороны. Во время строительства Эйфелева башня превзошла монумент Вашингтона, став самым высоким искусственным сооружением в мире, и этот титул она удерживала в течение 41 года до завершения строительство здания Крайслер в Нью-Йорке в 1930 году. Это первое сооружение которое достигло высоты 300 метров. Из-за добавления вещательной антенны на вершине башни в 1957 году она сейчас выше здания Крайслер на 5,2 метра (17 футов). За исключением передатчиков, Эйфелева башня является второй самой высокой отдельно стоящей структурой во Франции после виадука Мийо."
  example_title: "Википедия"
---

# RuT5TelegramHeadlines

## Model description

Based on [rut5-base](https://huggingface.co/cointegrated/rut5-base) model

## Intended uses & limitations

#### How to use

```python
from transformers import AutoTokenizer, T5ForConditionalGeneration

model_name = "IlyaGusev/rut5_base_headline_gen_telegram"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

article_text = "..."

input_ids = tokenizer(
    [article_text],
    max_length=600,
    add_special_tokens=True,
    padding="max_length",
    truncation=True,
    return_tensors="pt"
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids
)[0]

headline = tokenizer.decode(output_ids, skip_special_tokens=True)
print(headline)
```

## Training data

- Dataset: [ru_all_split.tar.gz](https://www.dropbox.com/s/ykqk49a8avlmnaf/ru_all_split.tar.gz)

## Training procedure

- Training script: [train.py](https://github.com/IlyaGusev/summarus/blob/master/external/hf_scripts/train.py)