Spaces:

dayannex
/

anonimizador

Sleeping

App Files Files Community

dayannex commited on Jul 3, 2024

Commit

dc19c13

1 Parent(s): ef0edc1

app modified

Browse files

Files changed (1) hide show

app.py +10 -8

app.py CHANGED Viewed

@@ -258,16 +258,16 @@ class ModeloDataset:
         self.tokenizer  = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
     def aplicar_modelo(self,_sentences,idioma):
         if idioma=="es":
-            tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
-            tokenized_text=[tokenizer.tokenize(sentence) for sentence in _sentences]
-            ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_text]
             MAX_LEN=128
             ids=pad_sequences(ids,maxlen=MAX_LEN,dtype="long",truncating="post", padding="post")
             input_ids = torch.tensor(ids)
             #model = RobertaForTokenClassification.from_pretrained("BSC-LT/roberta_model_for_anonimization")
-            model = RobertaForTokenClassification.from_pretrained("BSC-LT/roberta_model_for_anonimization")
             with torch.no_grad():
              logits = model(input_ids).logits
             predicted_token_class_ids = logits.argmax(-1)
@@ -283,16 +283,18 @@ class ModeloDataset:
         else:
             print('idioma:',idioma)
-            tokenizer = AutoTokenizer.from_pretrained("FacebookAI/xlm-roberta-large-finetuned-conll03-english")
-            tokenized_text=[tokenizer.tokenize(sentence) for sentence in _sentences]
-            ids = [tokenizer.convert_tokens_to_ids(x) for x in tokenized_text]
             MAX_LEN=128
             ids=pad_sequences(ids,maxlen=MAX_LEN,dtype="long",truncating="post", padding="post")
             input_ids = torch.tensor(ids)
-            model = AutoModelForTokenClassification.from_pretrained("FacebookAI/xlm-roberta-large-finetuned-conll03-english")
             with torch.no_grad():
              logits = model(input_ids).logits
             predicted_token_class_ids = logits.argmax(-1)

         self.tokenizer  = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
     def aplicar_modelo(self,_sentences,idioma):
         if idioma=="es":
+            self.tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
+            tokenized_text=[self.tokenizer.tokenize(sentence) for sentence in _sentences]
+            ids = [self.tokenizer.convert_tokens_to_ids(x) for x in tokenized_text]
             MAX_LEN=128
             ids=pad_sequences(ids,maxlen=MAX_LEN,dtype="long",truncating="post", padding="post")
             input_ids = torch.tensor(ids)
             #model = RobertaForTokenClassification.from_pretrained("BSC-LT/roberta_model_for_anonimization")
+            self.model = RobertaForTokenClassification.from_pretrained("BSC-LT/roberta_model_for_anonimization")
             with torch.no_grad():
              logits = model(input_ids).logits
             predicted_token_class_ids = logits.argmax(-1)
         else:
             print('idioma:',idioma)
+            self.tokenizer = AutoTokenizer.from_pretrained("FacebookAI/xlm-roberta-large-finetuned-conll03-english")
+            tokenized_text=[self.tokenizer.tokenize(sentence) for sentence in _sentences]
+            ids = [self.tokenizer.convert_tokens_to_ids(x) for x in tokenized_text]
+            print('ids',ids)
             MAX_LEN=128
             ids=pad_sequences(ids,maxlen=MAX_LEN,dtype="long",truncating="post", padding="post")
             input_ids = torch.tensor(ids)
+            self.model = AutoModelForTokenClassification.from_pretrained("FacebookAI/xlm-roberta-large-finetuned-conll03-english")
             with torch.no_grad():
              logits = model(input_ids).logits
             predicted_token_class_ids = logits.argmax(-1)