Spaces:

dayannex
/

anonimizador_V2

Running

App Files Files Community

dayannex commited on Aug 21, 2024

Commit

5f1c9c8

1 Parent(s): 4756d93

correcion etiquetas español/ingles

Browse files

Files changed (1) hide show

app.py +35 -2

app.py CHANGED Viewed

@@ -261,12 +261,45 @@ class Model:
         if (self.idioma=='es'):
-            new_tokens,ig_tokens=self.reordenacion_tokens_es(tokens,'Ġ')
         else:
-            new_tokens,ig_tokens=self.reordenacion_tokens(tokens,'#')
         new_identificadores = self.reordenacion_identificadores(ig_tokens,predicted_tokens_classes)
         out1 = self.salida_json(new_tokens,new_identificadores)

         if (self.idioma=='es'):
+                inputs = self.tokenizer(self.texto, return_tensors="pt",max_length=512, truncation=True)
+                with torch.no_grad():
+                    outputs = self.model(**inputs)
+                logits = outputs.logits
+                predictions = torch.argmax(logits, dim=2)
+                predicted_token_class_ids =  predictions[0].tolist()
+                predicted_tokens_classes = [self.model.config.id2label[label_id] for label_id in predicted_token_class_ids]
+                tokens = self.tokenizer.convert_ids_to_tokens(inputs.input_ids[0])
+                predicted_tokens_classes.pop(0)
+                predicted_tokens_classes.pop(len(predicted_tokens_classes)-1)
+                tokens.pop(0)
+                tokens.pop(len(tokens)-1)
+                new_tokens,ig_tokens=self.reordenacion_tokens_es(tokens,'Ġ')
         else:
+                inputs = self.tokenizer(self.texto, return_tensors="pt")
+                with torch.no_grad():
+                    outputs = self.model(**inputs)
+                logits = outputs.logits
+                predictions = torch.argmax(logits, dim=2)
+                predicted_token_class_ids =  predictions[0].tolist()
+                predicted_tokens_classes = [self.model.config.id2label[label_id] for label_id in predicted_token_class_ids]
+                tokens = self.tokenizer.convert_ids_to_tokens(inputs.input_ids[0])
+                predicted_tokens_classes.pop(0)
+                predicted_tokens_classes.pop(len(predicted_tokens_classes)-1)
+                tokens.pop(0)
+                tokens.pop(len(tokens)-1)
+                new_tokens,ig_tokens=self.reordenacion_tokens(tokens,'#')
         new_identificadores = self.reordenacion_identificadores(ig_tokens,predicted_tokens_classes)
         out1 = self.salida_json(new_tokens,new_identificadores)