Spaces:

nam194
/

Review_company_analysis_and_Resume_parsing

Running

nam194 commited on Jun 18, 2023

Commit

246d50e

1 Parent(s): ebfa8f4

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,21 +31,18 @@ model_topic.resize_token_embeddings(len(tokenizer_topic))
 def sentiment(sent: str):
-    try:
-        sent_ = normalize(text=sent_) # segment input sentence, maybe raise ConnectionError: HTTPConnectionPool())
-    except:
-        pass
     input_sent = torch.tensor([tokenizer_sent.encode(sent_)]).to(device)
     with torch.no_grad():
         out_sent = model_sent(input_sent)
         logits_sent = out_sent.logits.softmax(dim=-1).tolist()[0]
         pred_sent = dict_[np.argmax(logits_sent)]
-    try:
-        sent = replace_all(text=sent) # segment input sentence, maybe raise ConnectionError: HTTPConnectionPool())
-    except:
-        pass
-    sent_segment = rdrsegmenter.tokenize(sent)
     dump = [[i, 'O'] for s in sent_segment for i in s]
     dump_set = NerDataset(feature_for_phobert([dump], tokenizer=tokenizer_topic, use_crf=True))
     dump_iter = DataLoader(dump_set, batch_size=1)

 def sentiment(sent: str):
+    sent_ = normalize(text=sent) # segment input sentence, maybe raise ConnectionError: HTTPConnectionPool())
     input_sent = torch.tensor([tokenizer_sent.encode(sent_)]).to(device)
     with torch.no_grad():
         out_sent = model_sent(input_sent)
         logits_sent = out_sent.logits.softmax(dim=-1).tolist()[0]
         pred_sent = dict_[np.argmax(logits_sent)]
+    sent = replace_all(text=sent) # segment input sentence, maybe raise ConnectionError: HTTPConnectionPool())
+    sent_segment = sent.split(".")
+    for i, s in enumerate(sent_segment):
+        s = s.strip()
+        sent_segment[i] = underthesea.word_tokenize(s, format="text").split()
     dump = [[i, 'O'] for s in sent_segment for i in s]
     dump_set = NerDataset(feature_for_phobert([dump], tokenizer=tokenizer_topic, use_crf=True))
     dump_iter = DataLoader(dump_set, batch_size=1)