Spaces:

polygraf-ai
/

copyright_checker

Runtime error

eljanmahammadli commited on Mar 26, 2024

Commit

7c28462

1 Parent(s): a00beed

integrated isolation regression calibration to the bc model

Files changed (1) hide show

predictors.py CHANGED Viewed

@@ -269,19 +269,23 @@ def predict_bc_scores(input):
     samples_len_bc = len(split_text_allow_complete_sentences_nltk(input, type_det="bc"))
     segments_bc = split_text_allow_complete_sentences_nltk(input, type_det="bc")
     for i in range(samples_len_bc):
-        cleaned_text_bc = remove_special_characters(segments_bc[i])
         bc_score = predict_bc(text_bc_model, text_bc_tokenizer, cleaned_text_bc)
         bc_scores.append(bc_score)
     bc_scores_array = np.array(bc_scores)
     average_bc_scores = np.mean(bc_scores_array, axis=0)
     bc_score_list = average_bc_scores.tolist()
-    bc_score = {"AI": bc_score_list[1], "HUMAN": bc_score_list[0]}
-    # print(f"Original BC scores: AI: {bc_score_list[1]}, HUMAN: {bc_score_list[0]}")
     # isotonic regression calibration
-    # ai_score = iso_reg.predict([bc_score_list[1]])[0]
-    # human_score = 1 - ai_score
-    # bc_score = {"AI": ai_score, "HUMAN": human_score}
-    # print(f"Calibration BC scores: AI: {ai_score}, HUMAN: {human_score}")
     return bc_score

     samples_len_bc = len(split_text_allow_complete_sentences_nltk(input, type_det="bc"))
     segments_bc = split_text_allow_complete_sentences_nltk(input, type_det="bc")
     for i in range(samples_len_bc):
+        cleaned_text_bc = (
+            segments_bc[i].replace("<s>", "").replace("</s>", "")
+        )  # this is caused by above
+        cleaned_text_bc = remove_special_characters(cleaned_text_bc)
         bc_score = predict_bc(text_bc_model, text_bc_tokenizer, cleaned_text_bc)
         bc_scores.append(bc_score)
     bc_scores_array = np.array(bc_scores)
     average_bc_scores = np.mean(bc_scores_array, axis=0)
     bc_score_list = average_bc_scores.tolist()
+    print(f"Original BC scores: AI: {bc_score_list[1]}, HUMAN: {bc_score_list[0]}")
     # isotonic regression calibration
+    ai_score = iso_reg.predict([bc_score_list[1]])[0]
+    human_score = 1 - ai_score
+    bc_score = {"AI": ai_score, "HUMAN": human_score}
+    print(f"Calibration BC scores: AI: {ai_score}, HUMAN: {human_score}")
     return bc_score