Spaces:

polygraf-ai
/

copyright_checker

Runtime error

aliasgerovs commited on Feb 23, 2024

Commit

4451e36

2 Parent(s): f53c349 4df475b

Merge branch 'demo'

Files changed (1) hide show

app.py CHANGED Viewed

@@ -213,7 +213,7 @@ def update_character_count(text):
     return f"{len(text)} characters"
-def split_text_allow_complete_sentences_nltk(text, max_length=256, tolerance=40, min_last_segment_length=170, type_det='bc'):
     sentences = nltk.sent_tokenize(text)
     segments = []
     current_segment = []
@@ -269,7 +269,7 @@ def split_text_allow_complete_sentences_nltk(text, max_length=256, tolerance=40,
 def predict_bc(model, tokenizer, text):
     tokens = text_bc_tokenizer(
-        text, padding='max_length', truncation=True, max_length=256, return_tensors="pt"
     ).to(device)["input_ids"]
     output = model(tokens)
@@ -279,7 +279,7 @@ def predict_bc(model, tokenizer, text):
 def predict_mc(model, tokenizer, text):
     tokens = text_mc_tokenizer(
-        text, padding='max_length', truncation=True, return_tensors="pt", max_length=512
     ).to(device)["input_ids"]
     output = model(tokens)
     output_norm = softmax(output.logits.detach().cpu().numpy(), 1)[0]

     return f"{len(text)} characters"
+def split_text_allow_complete_sentences_nltk(text, max_length=256, tolerance=30, min_last_segment_length=100, type_det='bc'):
     sentences = nltk.sent_tokenize(text)
     segments = []
     current_segment = []
 def predict_bc(model, tokenizer, text):
     tokens = text_bc_tokenizer(
+        text, padding='max_length', truncation=True, max_length=512, return_tensors="pt"
     ).to(device)["input_ids"]
     output = model(tokens)
 def predict_mc(model, tokenizer, text):
     tokens = text_mc_tokenizer(
+        text, padding='max_length', truncation=True, return_tensors="pt", max_length=256
     ).to(device)["input_ids"]
     output = model(tokens)
     output_norm = softmax(output.logits.detach().cpu().numpy(), 1)[0]