NeuroSpaceX commited on
Commit
ff2438f
·
verified ·
1 Parent(s): f04015a

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +17 -5
app.py CHANGED
@@ -3,6 +3,7 @@ from transformers import AutoModelForSequenceClassification, AutoTokenizer
3
  import torch
4
  import os
5
  import re
 
6
 
7
  MODEL_NAME = "NeuroSpaceX/ruSpamNS"
8
  TOKEN = os.getenv("HF_TOKEN")
@@ -14,11 +15,22 @@ device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
14
  model.to(device)
15
 
16
  def clean_text(text):
17
- text = text.strip()
18
- text = text.replace('\n', ' ')
19
- text = re.sub(r'[^\w\s,.!?]', '', text, flags=re.UNICODE)
20
- text = re.sub(r'[!?]', '', text)
21
- return text.lower()
 
 
 
 
 
 
 
 
 
 
 
22
 
23
  def classify_text(text):
24
  message = clean_text(text)
 
3
  import torch
4
  import os
5
  import re
6
+ import emoji
7
 
8
  MODEL_NAME = "NeuroSpaceX/ruSpamNS"
9
  TOKEN = os.getenv("HF_TOKEN")
 
15
  model.to(device)
16
 
17
  def clean_text(text):
18
+ # Удаляем эмодзи
19
+ text = emoji.replace_emoji(text, replace='')
20
+
21
+ # Удаляем цифры и символы, кроме букв, пробела, точки и запятой
22
+ text = re.sub(r'[^a-zA-Zа-яА-ЯёЁ .,]', '', text, flags=re.UNICODE)
23
+
24
+ # Приводим текст в нижний регистр
25
+ text = text.lower()
26
+
27
+ # Делаем первую букву заглавной
28
+ text = text.capitalize()
29
+
30
+ # Убираем лишние пробелы
31
+ text = re.sub(r'\s+', ' ', text).strip()
32
+
33
+ return text
34
 
35
  def classify_text(text):
36
  message = clean_text(text)