Spaces:

m-ric
/

chunk_visualizer

Running

Aymeric Roucher commited on Jan 11, 2024

Commit

2e055d7

verified ·

1 Parent(s): cb842ed

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -30,6 +30,7 @@ def chunk(text, words, splitter_selection):
         text_splitter = CharacterTextSplitter(
             separator="",
             chunk_size=words,
             length_function=len,
             is_separator_regex=False,
         )
@@ -38,6 +39,7 @@ def chunk(text, words, splitter_selection):
     elif splitter_selection == "Langchain's RecursiveCharacterTextSplitter - vanilla":
         text_splitter = RecursiveCharacterTextSplitter(
             chunk_size=words,
             length_function=len,
             add_start_index=True,
         )
@@ -46,6 +48,7 @@ def chunk(text, words, splitter_selection):
     elif splitter_selection == "Langchain's RecursiveCharacterTextSplitter - with '.'":
         text_splitter = RecursiveCharacterTextSplitter(
             chunk_size=words,
             length_function=len,
             add_start_index=True,
             separators=["\n\n", "\n", ".", " ", ""],
@@ -53,9 +56,6 @@ def chunk(text, words, splitter_selection):
         splits = text_splitter.create_documents([text])
         text_splits = [split.page_content for split in splits]
-    if slider_overlap > 0:
-        output = extract_overlaps(text_splits)
     else:
         output = [(split, str(i)) for i, split in enumerate(text_splits)]
     return output

         text_splitter = CharacterTextSplitter(
             separator="",
             chunk_size=words,
+            chunk_verlap=0,
             length_function=len,
             is_separator_regex=False,
         )
     elif splitter_selection == "Langchain's RecursiveCharacterTextSplitter - vanilla":
         text_splitter = RecursiveCharacterTextSplitter(
             chunk_size=words,
+            chunk_verlap=0,
             length_function=len,
             add_start_index=True,
         )
     elif splitter_selection == "Langchain's RecursiveCharacterTextSplitter - with '.'":
         text_splitter = RecursiveCharacterTextSplitter(
             chunk_size=words,
+            chunk_verlap=0,
             length_function=len,
             add_start_index=True,
             separators=["\n\n", "\n", ".", " ", ""],
         splits = text_splitter.create_documents([text])
         text_splits = [split.page_content for split in splits]
     else:
         output = [(split, str(i)) for i, split in enumerate(text_splits)]
     return output