Spaces:

NeuroSpaceX
/

ForModelTest

Sleeping

NeuroSpaceX commited on Mar 20

Commit

ff2438f

verified ·

1 Parent(s): f04015a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ from transformers import AutoModelForSequenceClassification, AutoTokenizer
 import torch
 import os
 import re
 MODEL_NAME = "NeuroSpaceX/ruSpamNS"
 TOKEN = os.getenv("HF_TOKEN")
@@ -14,11 +15,22 @@ device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 model.to(device)
 def clean_text(text):
-    text = text.strip()
-    text = text.replace('\n', ' ')
-    text = re.sub(r'[^\w\s,.!?]', '', text, flags=re.UNICODE)
-    text = re.sub(r'[!?]', '', text)
-    return text.lower()
 def classify_text(text):
     message = clean_text(text)

 import torch
 import os
 import re
+import emoji
 MODEL_NAME = "NeuroSpaceX/ruSpamNS"
 TOKEN = os.getenv("HF_TOKEN")
 model.to(device)
 def clean_text(text):
+    # Удаляем эмодзи
+    text = emoji.replace_emoji(text, replace='')
+    # Удаляем цифры и символы, кроме букв, пробела, точки и запятой
+    text = re.sub(r'[^a-zA-Zа-яА-ЯёЁ .,]', '', text, flags=re.UNICODE)
+    # Приводим текст в нижний регистр
+    text = text.lower()
+    # Делаем первую букву заглавной
+    text = text.capitalize()
+    # Убираем лишние пробелы
+    text = re.sub(r'\s+', ' ', text).strip()
+    return text
 def classify_text(text):
     message = clean_text(text)