--- language: - ru tags: - summarization - token-classification - t5 datasets: - IlyaGusev/gazeta license: apache-2.0 inference: false widget: - text: "С 1 сентября в России вступают в силу поправки в закон «О банкротстве» — теперь должники смогут освобождаться от непосильных обязательств во внесудебном порядке, если сумма задолженности составляет не менее 50 тыс. рублей и не превышает 500 тыс. рублей без учета штрафов, пени, процентов за просрочку платежа и прочих имущественных или финансовых санкций.[SEP]У физлиц и индивидуальных предпринимателей появилась возможность пройти процедуру банкротства без участия суда и финансового управляющего — достаточно подать соответствующее заявление через МФЦ.[SEP]Сумму задолженности и список всех известных заявителю кредиторов нужно предоставить самостоятельно.[SEP]Если все условия соблюдены, сведения внесут в Единый федеральный реестр в течение трех рабочих дней.[SEP]При этом на момент подачи заявления в отношении заявителя должно быть окончено исполнительное производство с возвращением исполнительного документа взыскателю.[SEP]Это значит, что у потенциального банкрота не должно быть имущества, которое можно взыскать.[SEP]Кроме того, в отношении гражданина не должно быть возбуждено другое исполнительное производство.[SEP]В период всей процедуры заявитель не сможет брать займы, кредиты, выдавать поручительства, совершать иные обеспечительные сделки.[SEP]Внесудебное банкротство будет длиться шесть месяцев, в течение которых также будет действовать мораторий на удовлетворение требований кредиторов, отмеченных в заявлении должника, и мораторий об уплате обязательных платежей.[SEP]Кроме того, прекращается начисление неустоек и иных финансовых санкций; имущественные взыскания (кроме алиментов) также будут приостановлены.[SEP]По завершению процедуры заявителя освободят от дальнейшего выполнения требований кредиторов, указанных в заявлении о признании его банкротом, а эта задолженность признается безнадежной.[SEP]В прошлом месяце стало известно, что за первое полугодие 2020 года российские суды признали банкротами 42,7 тыс. граждан (в том числе индивидуальных предпринимателей) — по данным единого реестра «Федресурс», это на 47,2% больше показателя аналогичного периода 2019 года.[SEP]Рост числа обанкротившихся граждан во втором квартале по сравнению с первым замедлился — такая динамика обусловлена тем, что в период ограничений с 19 марта по 11 мая суды редко рассматривали банкротные дела компаний и меньше, чем обычно, в отношении граждан, объяснял руководитель проекта «Федресурс» Алексей Юхнин.[SEP]" example_title: "Новости" --- # RuBERTExtSumGazeta ## Model description Model for extractive summarization based on [rubert-base-cased](DeepPavlov/rubert-base-cased) ## Intended uses & limitations #### How to use Colab: [link](https://colab.research.google.com/drive/1Q8_v3H-kxdJhZIiyLYat7Kj02qDq7M1L) ```python import razdel from transformers import AutoTokenizer, BertForTokenClassification model_name = "IlyaGusev/rubert_ext_sum_gazeta" tokenizer = AutoTokenizer.from_pretrained(model_name) sep_token = tokenizer.sep_token sep_token_id = tokenizer.sep_token_id model = BertForTokenClassification.from_pretrained(model_name) article_text = "..." sentences = [s.text for s in razdel.sentenize(article_text)] article_text = sep_token.join(sentences) inputs = tokenizer( [article_text], max_length=500, padding="max_length", truncation=True, return_tensors="pt", ) sep_mask = inputs["input_ids"][0] == sep_token_id # Fix token_type_ids current_token_type_id = 0 for pos, input_id in enumerate(inputs["input_ids"][0]): inputs["token_type_ids"][0][pos] = current_token_type_id if input_id == sep_token_id: current_token_type_id = 1 - current_token_type_id # Infer model with torch.no_grad(): outputs = model(**inputs) logits = outputs.logits[0, :, 1] # Choose sentences logits = logits[sep_mask] logits, indices = logits.sort(descending=True) logits, indices = logits.cpu().tolist(), indices.cpu().tolist() pairs = list(zip(logits, indices)) pairs = pairs[:3] indices = list(sorted([idx for _, idx in pairs])) summary = " ".join([sentences[idx] for idx in indices]) print(summary) ``` #### Limitations and bias - The model should work well with Gazeta.ru articles, but for any other agencies it can suffer from domain shift ## Training data - Dataset: [Gazeta](https://huggingface.co/datasets/IlyaGusev/gazeta) ## Training procedure TBD ## Eval results TBD Evaluation: https://github.com/IlyaGusev/summarus/blob/master/evaluate.py Flags: --language ru --tokenize-after --lower