Spaces:

polygraf-ai
/

copyright_checker

Runtime error

Ali Asgarov commited on Feb 16, 2024

Commit

65029fb

1 Parent(s): 6af6f76

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -238,9 +238,9 @@ def split_text_allow_complete_sentences_nltk(text, max_length=256, tolerance=10,
     encoded_segments = []
     for seg, _ in final_segments:
         encoded_segment = tokenizer.encode(' '.join(seg), add_special_tokens=True, max_length=max_length+tolerance, truncation=True)
-        # decoded_segment = tokenizer.decode(encoded_segment)
-        encoded_segments.append(encoded_segment)
-    return encoded_segments
 def predict_bc(model, tokenizer, text):
@@ -266,11 +266,12 @@ def ai_generated_test(ai_option, input):
     bc_scores = []
     mc_scores = []
-    cleaned_text = remove_special_characters(input)
     samples_len = len(split_text_allow_complete_sentences_nltk(input))
     for i in samples_len:
-        bc_score = predict_bc(text_bc_model, text_bc_tokenizer, cleaned_text)
         mc_score = predict_mc(text_mc_model, text_mc_tokenizer, cleaned_text)
         bc_scores.append(bc_score)
         mc_scores.append(mc_score)

     encoded_segments = []
     for seg, _ in final_segments:
         encoded_segment = tokenizer.encode(' '.join(seg), add_special_tokens=True, max_length=max_length+tolerance, truncation=True)
+        decoded_segment = tokenizer.decode(encoded_segment)
+        decoded_segments.append(decoded_segment)
+    return decoded_segments
 def predict_bc(model, tokenizer, text):
     bc_scores = []
     mc_scores = []
     samples_len = len(split_text_allow_complete_sentences_nltk(input))
+    segments = split_text_allow_complete_sentences_nltk(input)
     for i in samples_len:
+        cleaned_text = remove_special_characters(segments[i])
+        bc_score = predict_bc(text_bc_model, text_bc_tokenizer,cleaned_text )
         mc_score = predict_mc(text_mc_model, text_mc_tokenizer, cleaned_text)
         bc_scores.append(bc_score)
         mc_scores.append(mc_score)