Spaces:

dayannex
/

anonimizador_V2

Running

App Files Files Community

dayannex commited on Aug 22, 2024

Commit

0d7bc87

1 Parent(s): e16e7b5

dataset model csv ingles

Browse files

Files changed (1) hide show

app.py +6 -5

app.py CHANGED Viewed

@@ -67,7 +67,7 @@ class Model:
         new_tokens=[]
         ig_tokens=[]
         for token in tokens:
-            print('token_texto:',token,caracter)
             ind=len(new_tokens)
             if i<len(tokens):
                  if not token.startswith(caracter):
@@ -324,14 +324,14 @@ class ModeloDataset:
         self.idioma=""
         self.modelo_ner=""
         self.categoria_texto=""
-        self.tokenizer  = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
     def reordenacion_tokens(self,tokens,caracter):
         i=0
         new_tokens=[]
         ig_tokens=[]
         for token in tokens:
-            print('token_texto:',token,caracter)
             ind=len(new_tokens)
             if i<len(tokens):
                  if not token.startswith(caracter):
@@ -477,7 +477,7 @@ class ModeloDataset:
             print('idioma:',idioma)
             self.tokenizer = AutoTokenizer.from_pretrained("dayannex/distilbert-tuned-4labels")
             self.model = AutoModelForTokenClassification.from_pretrained("dayannex/distilbert-tuned-4labels")
-            sentences_list = _sentences.tolist()  # Convertir a lista si ya no es una lista
             inputs = self.tokenizer(sentences_list, padding=True, truncation=True, return_tensors="pt", max_length=512)
             with torch.no_grad():
                 outputs = self.model(**inputs)
@@ -662,7 +662,8 @@ def procesar(texto,archivo, etiquetas):
         if archivo.name.split(".")[1]=="csv":
             print('csv')
-            df=pd.read_csv(archivo.name,delimiter=";",encoding='latin-1')
             df_new = pd.DataFrame( columns=df.columns.values)
             model.identificacion_idioma(df.iloc[0][0])

         new_tokens=[]
         ig_tokens=[]
         for token in tokens:
+            #print('token_texto:',token,caracter)
             ind=len(new_tokens)
             if i<len(tokens):
                  if not token.startswith(caracter):
         self.idioma=""
         self.modelo_ner=""
         self.categoria_texto=""
+        #self.tokenizer  = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
     def reordenacion_tokens(self,tokens,caracter):
         i=0
         new_tokens=[]
         ig_tokens=[]
         for token in tokens:
             ind=len(new_tokens)
             if i<len(tokens):
                  if not token.startswith(caracter):
             print('idioma:',idioma)
             self.tokenizer = AutoTokenizer.from_pretrained("dayannex/distilbert-tuned-4labels")
             self.model = AutoModelForTokenClassification.from_pretrained("dayannex/distilbert-tuned-4labels")
+            sentences_list = _sentences.tolist()
             inputs = self.tokenizer(sentences_list, padding=True, truncation=True, return_tensors="pt", max_length=512)
             with torch.no_grad():
                 outputs = self.model(**inputs)
         if archivo.name.split(".")[1]=="csv":
             print('csv')
+            #df=pd.read_csv(archivo.name,delimiter=";",encoding='latin-1')
+            df=pd.read_csv(archivo.name,delimiter=";")
             df_new = pd.DataFrame( columns=df.columns.values)
             model.identificacion_idioma(df.iloc[0][0])