Spaces:

DaviLima
/

Portuguese-offensive-lenguage

Sleeping

DaviLima commited on Jun 1, 2023

Commit

07847cc

1 Parent(s): 1d365d4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from sklearn.model_selection import train_test_split
 from sklearn.metrics import classification_report
 from tqdm import tqdm
 import gradio as gr
 model_name = 'neuralmind/bert-base-portuguese-cased'
 tokenizer = BertTokenizer.from_pretrained(model_name)
@@ -25,7 +26,16 @@ def predict(model, loader):
     return predictions
 def generate_predictions(text):
     input_encodings = tokenizer(
         text, truncation=True, padding=True, max_length=512, return_tensors='pt'
     )

 from sklearn.metrics import classification_report
 from tqdm import tqdm
 import gradio as gr
+import string
 model_name = 'neuralmind/bert-base-portuguese-cased'
 tokenizer = BertTokenizer.from_pretrained(model_name)
     return predictions
+def preprocess_text(text):
+    # Remove pontuação
+    text = text.translate(str.maketrans("", "", string.punctuation))
+    # Converter para letras minúsculas
+    text = text.lower()
+    return text
 def generate_predictions(text):
+    text = preprocess_text(text)
     input_encodings = tokenizer(
         text, truncation=True, padding=True, max_length=512, return_tensors='pt'
     )