Spaces:

ML-unipi
/

TermsOfServiceSummarization

Runtime error

tommasobaldi commited on Aug 28, 2022

Commit

b21075f

1 Parent(s): 2d14981

update requirements.txt

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,8 @@ import os
 from typing import AnyStr
 import nltk
 import streamlit as st
 import validators
 from transformers import pipeline
@@ -96,20 +98,20 @@ def main() -> None:
     #         return tuple(summarizer.abstractive_summary(list(summary_sentence)))
     def split_text(text: str) -> list:
-        tokens = nltk.tokenize(text)
-        sentences = []
         token_count = 0
-        sentence = ""
-        for token in tokens:
-            if token_count < 1024:
-                sentence += "".join(token + " ")
-                token_count += 1
             else:
-                sentences.append(sentence)
-                token_count = 0
-                sentence = ""
-        return sentences
     pipe = create_pipeline()

 from typing import AnyStr
 import nltk
+from nltk.tokenize import sent_tokenize
+from nltk.tokenize import word_tokenize
 import streamlit as st
 import validators
 from transformers import pipeline
     #         return tuple(summarizer.abstractive_summary(list(summary_sentence)))
     def split_text(text: str) -> list:
+        sentences = sent_tokenize(text)
         token_count = 0
+        text_block = ""
+        result = []
+        for sentence in sentences:
+            tokens = word_tokenize(sentence)
+            if token_count + len(tokens) < 1024:
+                token_count += len(tokens)
+                text_block += " ".join(sentence)
             else:
+                result.append(text_block)
+                text_block = "".join(sentence)
+                token_count = len(tokens)
+        return result
     pipe = create_pipeline()