Spaces:

seanpedrickcase
/

data_text_search

Sleeping

App Files Files Community

seanpedrickcase commited on Jan 5, 2024

Commit

ceb8617

1 Parent(s): 2cb9977

Added semantic search using Jina

Browse files

Files changed (5) hide show

.gitignore +2 -0
app.py +359 -139
requirements.txt +1 -0
search_funcs/clean_funcs.py +69 -30
search_funcs/ingest.py +71 -18

.gitignore CHANGED Viewed

@@ -11,6 +11,8 @@
 *.pkl
 *.spec
 *.ipynb
 build/*
 dist/*
 __pycache__/*

 *.pkl
 *.spec
 *.ipynb
+*.npy
+*.npz
 build/*
 dist/*
 __pycache__/*

app.py CHANGED Viewed

@@ -10,16 +10,32 @@ from search_funcs.clean_funcs import initial_clean, get_lemma_tokens#, stem_sent
 from nltk import word_tokenize
 #from sentence_transformers import SentenceTransformer
 PandasDataFrame = TypeVar('pd.core.frame.DataFrame')
 import gradio as gr
 import pandas as pd
 import os
 import time
 from chromadb.config import Settings
 from transformers import AutoModel
 # model = AutoModel.from_pretrained('./model_and_tokenizer/int8-model.onnx', use_embedding_runtime=True)
 # sentence_embeddings = model.generate(engine_input)['last_hidden_state:0']
@@ -33,7 +49,7 @@ import chromadb
 #from typing_extensions import Protocol
 #from chromadb import Documents, EmbeddingFunction, Embeddings
-from torch import cuda, backends
 # Check for torch cuda
 print(cuda.is_available())
@@ -51,17 +67,90 @@ chromadb_file = "chroma.sqlite3"
 if os.path.isfile(chromadb_file):
     os.remove(chromadb_file)
 def prepare_input_data(in_file, text_column, clean="No", progress=gr.Progress()):
-    filename = in_file.name
-    # Import data
-    df = read_file(filename)
     #df = pd.read_parquet(file_in.name)
-    df_list = list(df[text_column].astype(str))
     #df_list = df
     if clean == "Yes":
         df_list_clean = initial_clean(df_list)
@@ -69,23 +158,84 @@ def prepare_input_data(in_file, text_column, clean="No", progress=gr.Progress())
         out_file_name = save_prepared_data(in_file, df_list_clean, df, text_column)
         #corpus = [word_tokenize(doc.lower()) for doc in df_list_clean]
-        corpus = [word_tokenize(doc.lower()) for doc in progress.tqdm(df_list_clean, desc = "Tokenising text", unit = "rows")]
     else:
         #corpus = [word_tokenize(doc.lower()) for doc in df_list]
-        corpus = [word_tokenize(doc.lower()) for doc in progress.tqdm(df_list, desc = "Tokenising text", unit = "rows")]
         out_file_name = None
-    print("Finished data clean")
     if len(df_list) >= 20:
         message = "Data loaded"
     else:
         message = "Data loaded. Warning: dataset may be too short to get consistent search results."
     return corpus, message, df, out_file_name
@@ -236,11 +386,17 @@ def put_columns_in_df(in_file, in_bm25_column):
     When file is loaded, update the column dropdown choices and change 'clean data' dropdown option to 'no'.
     '''
     new_choices = []
     concat_choices = []
-    df = read_file(in_file.name)
     new_choices = list(df.columns)
     #print(new_choices)
@@ -279,38 +435,6 @@ def dummy_function(gradio_component):
 def display_info(info_component):
     gr.Info(info_component)
-# class MyEmbeddingFunction(EmbeddingFunction):
-#     def __call__(self, input) -> Embeddings:
-#         embeddings = []
-#         for text in input:
-#             embeddings.append(embeddings_model.encode(text))
-#         return embeddings
-def load_embeddings(embeddings_name = "jinaai/jina-embeddings-v2-small-en"):
-    '''
-    Load embeddings model and create a global variable based on it.
-    '''
-    # Import Chroma and instantiate a client. The default Chroma client is ephemeral, meaning it will not save to disk.
-    #else:
-    embeddings_func = AutoModel.from_pretrained(embeddings_name, trust_remote_code=True, device_map="auto")
-    global embeddings
-    embeddings = embeddings_func
-    return embeddings
-# Load embeddings
-#embeddings_name =
-embeddings_model = AutoModel.from_pretrained("jinaai/jina-embeddings-v2-small-en", trust_remote_code=True, device_map="auto")
-#embeddings_model = SentenceTransformer("BAAI/bge-small-en-v1.5")
-#embeddings_model = SentenceTransformer("paraphrase-MiniLM-L3-v2")
-embeddings = embeddings_model#load_embeddings(embeddings_name)
 def docs_to_chroma_save(docs_out, embeddings = embeddings, progress=gr.Progress()):
     '''
     Takes a Langchain document class and saves it into a Chroma sqlite file.
@@ -318,7 +442,7 @@ def docs_to_chroma_save(docs_out, embeddings = embeddings, progress=gr.Progress(
     print(f"> Total split documents: {len(docs_out)}")
-    print(docs_out)
     page_contents = [doc.page_content for doc in docs_out]
     page_meta = [doc.metadata for doc in docs_out]
@@ -330,13 +454,15 @@ def docs_to_chroma_save(docs_out, embeddings = embeddings, progress=gr.Progress(
     #for page in progress.tqdm(page_contents, desc = "Preparing search index", unit = "rows"):
     #    embeddings_list.append(embeddings.encode(sentences=page, max_length=1024).tolist())
-    embeddings_list = embeddings.encode(sentences=page_contents, max_length=256).tolist() # For Jina embeddings
     #embeddings_list = embeddings.encode(sentences=page_contents, normalize_embeddings=True).tolist() # For BGE embeddings
     #embeddings_list = embeddings.encode(sentences=page_contents).tolist() # For minilm
     toc = time.perf_counter()
     time_out = f"The embedding took {toc - tic:0.1f} seconds"
     # Jina tiny
     # This takes about 300 seconds for 240,000 records = 800 / second, 1024 max length
     # For 50k records:
@@ -345,6 +471,8 @@ def docs_to_chroma_save(docs_out, embeddings = embeddings, progress=gr.Progress(
     # 43 seconds at 256 max length
     # 31 seconds at 128 max length
     # BGE small
     # 96 seconds for 50k records at 512 length
@@ -360,7 +488,7 @@ def docs_to_chroma_save(docs_out, embeddings = embeddings, progress=gr.Progress(
     chroma_tic = time.perf_counter()
     # Create a new Chroma collection to store the documents and metadata. We don't need to specify an embedding fuction, and the default will be used.
-    client = chromadb.PersistentClient(path="./db", settings=Settings(
     anonymized_telemetry=False))
     try:
@@ -408,117 +536,203 @@ def docs_to_chroma_save(docs_out, embeddings = embeddings, progress=gr.Progress(
     return out_message, collection
-def jina_simple_retrieval(new_question_kworded, vectorstore, docs, k_val, out_passages,
-                           vec_score_cut_off, vec_weight): # ,vectorstore, embeddings
-            from numpy.linalg import norm
-            cos_sim = lambda a,b: (a @ b.T) / (norm(a)*norm(b))
-            query = embeddings.encode(new_question_kworded)
-            # Calculate cosine similarity with each string in the list
-            cosine_similarities = [cos_sim(query, string_vector) for string_vector in vectorstore]
-            print(cosine_similarities)
-            return cosine_similarities
-def chroma_retrieval(new_question_kworded:str, vectorstore, docs, orig_df_col:str, k_val:int, out_passages:int,
-                           vec_score_cut_off:float, vec_weight:float, in_join_file = None, in_join_column = None, search_df_join_column = None): # ,vectorstore, embeddings
-            query = embeddings.encode(new_question_kworded).tolist()
-            docs = vectorstore.query(
-            query_embeddings=query,
-            n_results= k_val # No practical limit on number of responses returned
-            #where={"metadata_field": "is_equal_to_this"},
-            #where_document={"$contains":"search_string"}
-            )
-            df_docs = pd.DataFrame(data={'ids': docs['ids'][0],
-                                    'documents': docs['documents'][0],
-                                    'metadatas':docs['metadatas'][0],
-                                    'distances':docs['distances'][0]#,
-                                    #'embeddings': docs['embeddings']
-                                    })
-            def create_docs_keep_from_df(df):
-                dict_out = {'ids' : [df['ids']],
-                            'documents': [df['documents']],
-                            'metadatas': [df['metadatas']],
-                            'distances': [round(df['distances'].astype(float), 2)],
-                            'embeddings': None
-                            }
-                return dict_out
-            # Prepare the DataFrame by transposing
-            #df_docs = df#.apply(lambda x: x.explode()).reset_index(drop=True)
-            # Keep only documents with a certain score
-            print(df_docs)
-            docs_scores = df_docs["distances"] #.astype(float)
-            # Only keep sources that are sufficiently relevant (i.e. similarity search score below threshold below)
-            score_more_limit = df_docs.loc[docs_scores < vec_score_cut_off, :]
-            #docs_keep = create_docs_keep_from_df(score_more_limit) #list(compress(docs, score_more_limit))
-            #print(docs_keep)
-            if score_more_limit.empty:
-                return 'No result found!', None
-            # Only keep sources that are at least 100 characters long
-            docs_len = score_more_limit["documents"].str.len() >= 100
-            print(docs_len)
-            length_more_limit = score_more_limit.loc[docs_len == True, :] #pd.Series(docs_len) >= 100
-            #docs_keep = create_docs_keep_from_df(length_more_limit) #list(compress(docs_keep, length_more_limit))
-            #print(length_more_limit)
-            if length_more_limit.empty:
-                return 'No result found!', None
-            length_more_limit['ids'] = length_more_limit['ids'].astype(int)
-            #length_more_limit.to_csv("length_more_limit.csv", index = None)
-            # Explode the 'metadatas' dictionary into separate columns
-            df_metadata_expanded = length_more_limit['metadatas'].apply(pd.Series)
-            print(length_more_limit)
-            print(df_metadata_expanded)
-            # Concatenate the original DataFrame with the expanded metadata DataFrame
-            results_df_out = pd.concat([length_more_limit.drop('metadatas', axis=1), df_metadata_expanded], axis=1)
-            results_df_out = results_df_out.rename(columns={"documents":orig_df_col})
-            results_df_out = results_df_out.drop(["page_section", "row", "source", "id"], axis=1, errors="ignore")
-            results_df_out['distances'] = round(results_df_out['distances'].astype(float), 2)
-            # Join back to original df
-            # results_df_out = orig_df.merge(length_more_limit[['ids', 'distances']], left_index = True, right_on = "ids", how="inner").sort_values("distances")
-            # Join on additional files
-            if in_join_file:
-                join_filename = in_join_file.name
-                # Import data
-                join_df = read_file(join_filename)
-                join_df[in_join_column] = join_df[in_join_column].astype(str).str.replace("\.0$","", regex=True)
-                # Duplicates dropped so as not to expand out dataframe
-                join_df = join_df.drop_duplicates(in_join_column)
-                results_df_out[search_df_join_column] = results_df_out[search_df_join_column].astype(str).str.replace("\.0$","", regex=True)
-                results_df_out = results_df_out.merge(join_df,left_on=search_df_join_column, right_on=in_join_column, how="left").drop(in_join_column, axis=1)
             results_df_name = "semantic_search_result.csv"
             results_df_out.to_csv(results_df_name, index= None)
@@ -526,6 +740,7 @@ def chroma_retrieval(new_question_kworded:str, vectorstore, docs, orig_df_col:st
             return results_first_text, results_df_name
 ## Gradio app - BM25 search
 block = gr.Blocks(theme = gr.themes.Base())
@@ -539,7 +754,7 @@ with block:
     k_val = gr.State(9999)
     out_passages = gr.State(9999)
-    vec_score_cut_off = gr.State(70)
     vec_weight = gr.State(1)
     docs_keep_as_doc_state = gr.State()
@@ -572,10 +787,9 @@ depends on factors such as the type of documents or queries. Information taken f
             current_source = gr.Textbox(label="Current data source(s)", value="None")
         with gr.Accordion(label = "Load in data", open=True):
-            in_bm25_file = gr.File(label="Upload your search data here")
             with gr.Row():
-                in_bm25_column = gr.Dropdown(label="Enter the name of the text column in the data file to search")
                 load_bm25_data_button = gr.Button(value="Load data")
             with gr.Row():
@@ -583,10 +797,10 @@ depends on factors such as the type of documents or queries. Information taken f
         with gr.Accordion(label = "Search data", open=True):
             with gr.Row():
-                in_query = gr.Textbox(label="Enter your search term")
                 mod_query = gr.Textbox(label="Cleaned search term (the terms that are passed to the search engine)")
-            search_button = gr.Button(value="Search text")
             with gr.Row():
                 output_single_text = gr.Textbox(label="Top result")
@@ -597,11 +811,14 @@ depends on factors such as the type of documents or queries. Information taken f
             current_source_semantic = gr.Textbox(label="Current data source(s)", value="None")
         with gr.Accordion("Load in data", open = True):
-            in_semantic_file = gr.File(label="Upload data file for semantic search")
-            in_semantic_column = gr.Dropdown(label="Enter the name of the text column in the data file to search")
-            load_semantic_data_button = gr.Button(value="Load in data file", variant="secondary", scale=0)
-        ingest_embed_out = gr.Textbox(label="File/web page preparation progress")
         semantic_query = gr.Textbox(label="Enter semantic search query here")
         semantic_submit = gr.Button(value="Start semantic search", variant="secondary", scale = 1)
@@ -642,7 +859,7 @@ depends on factors such as the type of documents or queries. Information taken f
     in_alpha_button.click(display_info, inputs=in_alpha_info)
     in_no_search_results_button.click(display_info, inputs=in_no_search_info)
     # Update dropdowns upon initial file load
     in_bm25_file.upload(put_columns_in_df, inputs=[in_bm25_file, in_bm25_column], outputs=[in_bm25_column, in_clean_data, search_df_join_column])
     in_join_file.upload(put_columns_in_join_df, inputs=[in_join_file, in_join_column], outputs=[in_join_column])
@@ -653,17 +870,20 @@ depends on factors such as the type of documents or queries. Information taken f
     then(fn=put_columns_in_df, inputs=[in_bm25_file, in_bm25_column], outputs=[in_bm25_column, in_clean_data, search_df_join_column])
     # BM25 search functions on click or enter
-    search_button.click(fn=bm25_search, inputs=[in_query, in_no_search_results, data_state, in_bm25_column, in_clean_data, in_join_file, in_join_column, search_df_join_column], outputs=[output_single_text, output_file, mod_query], api_name="search")
-    in_query.submit(fn=bm25_search, inputs=[in_query, in_no_search_results, data_state, in_bm25_column, in_clean_data, in_join_file, in_join_column, search_df_join_column], outputs=[output_single_text, output_file, mod_query])
     # Load in a csv/excel file for semantic search
     in_semantic_file.upload(put_columns_in_df, inputs=[in_semantic_file, in_semantic_column], outputs=[in_semantic_column, in_clean_data, search_df_join_column])
-    load_semantic_data_button.click(ing.parse_csv_or_excel, inputs=[in_semantic_file, in_semantic_column], outputs=[ingest_text, current_source_semantic]).\
-             then(ing.csv_excel_text_to_docs, inputs=[ingest_text, in_semantic_column], outputs=[ingest_docs, load_finished_message]).\
-             then(docs_to_chroma_save, inputs=[ingest_docs], outputs=[ingest_embed_out, vectorstore_state])
     # Semantic search query
-    semantic_submit.click(chroma_retrieval, inputs=[semantic_query, vectorstore_state, ingest_docs, in_semantic_column, k_val, out_passages, vec_score_cut_off, vec_weight, in_join_file, in_join_column, search_df_join_column], outputs=[semantic_output_single_text, semantic_output_file], api_name="semantic")
     # Dummy functions just to get dropdowns to work correctly with Gradio 3.50
     in_bm25_column.change(dummy_function, in_bm25_column, None)

 from nltk import word_tokenize
 #from sentence_transformers import SentenceTransformer
+# Try SpaCy alternative tokeniser
 PandasDataFrame = TypeVar('pd.core.frame.DataFrame')
 import gradio as gr
 import pandas as pd
+import numpy as np
 import os
 import time
 from chromadb.config import Settings
 from transformers import AutoModel
+# Load the SpaCy mode
+from spacy.cli import download
+import spacy
+spacy.prefer_gpu()
+#os.system("python -m spacy download en_core_web_sm")
+try:
+    nlp = spacy.load("en_core_web_sm")
+except:
+    download("en_core_web_sm")
+    nlp = spacy.load("en_core_web_sm")
 # model = AutoModel.from_pretrained('./model_and_tokenizer/int8-model.onnx', use_embedding_runtime=True)
 # sentence_embeddings = model.generate(engine_input)['last_hidden_state:0']
 #from typing_extensions import Protocol
 #from chromadb import Documents, EmbeddingFunction, Embeddings
+from torch import cuda, backends, tensor, mm
 # Check for torch cuda
 print(cuda.is_available())
 if os.path.isfile(chromadb_file):
     os.remove(chromadb_file)
+def load_embeddings(embeddings_name = "jinaai/jina-embeddings-v2-small-en"):
+    '''
+    Load embeddings model and create a global variable based on it.
+    '''
+    # Import Chroma and instantiate a client. The default Chroma client is ephemeral, meaning it will not save to disk.
+    #else:
+    embeddings_func = AutoModel.from_pretrained(embeddings_name, trust_remote_code=True, device_map="auto")
+    global embeddings
+    embeddings = embeddings_func
+    return embeddings
+# Load embeddings
+embeddings_name = "jinaai/jina-embeddings-v2-small-en"
+embeddings_model = AutoModel.from_pretrained(embeddings_name, trust_remote_code=True, device_map="auto")
+#embeddings_model = SentenceTransformer("BAAI/bge-small-en-v1.5")
+#embeddings_model = SentenceTransformer("paraphrase-MiniLM-L3-v2")
+#tokenizer = AutoTokenizer.from_pretrained(embeddings_name, device_map = "auto")#to(torch_device) # From Jina
+# Construction 2 - from SpaCy - https://spacy.io/api/tokenizer
+#from spacy.lang.en import English
+#nlp = #English()
+# Create a Tokenizer with the default settings for English
+# including punctuation rules and exceptions
+tokenizer = nlp.tokenizer
+embeddings = embeddings_model#load_embeddings(embeddings_name)
 def prepare_input_data(in_file, text_column, clean="No", progress=gr.Progress()):
+    file_list = [string.name for string in in_file]
+    print(file_list)
+    data_file_names = [string for string in file_list if "tokenised" not in string]
+    df = read_file(data_file_names[0])
+    ## Load in pre-tokenised corpus if exists
+    tokenised_df = pd.DataFrame()
+    tokenised_file_names = [string for string in file_list if "tokenised" in string]
+    if tokenised_file_names:
+        tokenised_df = read_file(tokenised_file_names[0])
+        print("Tokenised df is: ", tokenised_df.head())
     #df = pd.read_parquet(file_in.name)
+    df_list = list(df[text_column].astype(str).str.lower())
     #df_list = df
+    import math
+    def get_total_batches(my_list, batch_size):
+        return math.ceil(len(my_list) / batch_size)
+    from itertools import islice
+    def batch(iterable, batch_size):
+        iterator = iter(iterable)
+        for first in iterator:
+            yield [first] + list(islice(iterator, batch_size - 1))
+    #def batch(my_list, batch_size):
+    # Splitting the list into batches
+    #    for i in range(0, len(my_list), batch_size):
+    #        batch = my_list[i:i + batch_size]
+            # Process each batch
+            # Replace this with your processing logic
+            #print("Processing batch:", batch)
+    batch_size = 256
+    tic = time.perf_counter()
     if clean == "Yes":
         df_list_clean = initial_clean(df_list)
         out_file_name = save_prepared_data(in_file, df_list_clean, df, text_column)
         #corpus = [word_tokenize(doc.lower()) for doc in df_list_clean]
+        #corpus = [word_tokenize(doc.lower()) for doc in progress.tqdm(df_list_clean, desc = "Tokenising text", unit = "rows")]
+        #total_batches = get_total_batches(df_list_clean, batch_size)
+        #data_batched = batch(df_list_clean, batch_size)
+        #print(data_batched)
+        #print(df_list_clean[0])
+        # Using encode_batch
+        #encodings = tokenizer.encode_batch(texts)
+        # Extracting tokens
+        #tokens_list = [encoding.tokens for encoding in encodings]
+        #corpus = [tokenizer(doc.lower()) for doc in progress.tqdm(df_list_clean, desc = "Tokenising text", unit = "rows")]
+        #corpus = [tokenizer.encode(doc_batch) for doc_batch in progress.tqdm(data_batched, desc = "Tokenising text", unit = "batches out of " + str(total_batches))] # for jina
+        # print(df_list_clean)
+        # corpus = tokenizer.batch_encode_plus(df_list_clean).tokens
+        #corpus = [[token.text for token in nlp(text)] for text in df_list_clean]
+        # Tokenize texts in batches
+        if not tokenised_df.empty:
+            corpus = tokenised_df.iloc[:,0].tolist()
+            print("Corpus is: ", corpus[0:5])
+        else:
+            corpus = []
+            for doc in tokenizer.pipe(progress.tqdm(df_list_clean, desc = "Tokenising text", unit = "rows"), batch_size=batch_size):
+                corpus.append([token.text for token in doc])
+            #for doc in nlp.pipe(progress.tqdm(df_list_clean, desc = "Tokenising text", unit = "batches out of " + str(total_batches)), batch_size=batch_size):  # You can adjust batch_size based on your requirement
+            #    corpus.append([token.text for token in doc])
     else:
+        #total_batches = get_total_batches(df_list, batch_size)
+        #data_batched = batch(df_list, batch_size)
+        #print(data_batched)
         #corpus = [word_tokenize(doc.lower()) for doc in df_list]
+        #corpus = [word_tokenize(doc.lower()) for doc in progress.tqdm(df_list, desc = "Tokenising text", unit = "rows")]
+        #corpus = [tokenizer.encode(doc_batch) for doc_batch in progress.tqdm(data_batched, desc = "Tokenising text", unit = "batches out of " + str(total_batches))] # for jina
+        #corpus = tokenizer.batch_encode_plus(df_list).tokens # for jina
+        print(df_list[0])
+        #corpus = [[token.text for token in nlp(text)] for text in df_list]
+        # Tokenize texts in batches
+        if not tokenised_df.empty:
+            corpus = tokenised_df.iloc[:,0].tolist()
+            print("Corpus is: ", corpus[0:5])
+        else:
+            corpus = []
+            for doc in tokenizer.pipe(progress.tqdm(df_list, desc = "Tokenising text", unit = "rows"), batch_size=batch_size):
+            #for doc in nlp.pipe(progress.tqdm(df_list, desc = "Tokenising text", unit = "batches out of " + str(total_batches)), #batch_size=batch_size):  # You can adjust batch_size based on your requirement
+                corpus.append([token.text for token in doc])
+        #corpus = tokenizer(df_list)
         out_file_name = None
+        print(corpus[0])
+    toc = time.perf_counter()
+    tokenizer_time_out = f"Tokenising the text took {toc - tic:0.1f} seconds"
+    print("Finished data clean. " + tokenizer_time_out)
     if len(df_list) >= 20:
         message = "Data loaded"
     else:
         message = "Data loaded. Warning: dataset may be too short to get consistent search results."
+    pd.DataFrame(data={"Corpus":corpus}).to_parquet("keyword_search_tokenised_data.parquet")
     return corpus, message, df, out_file_name
     When file is loaded, update the column dropdown choices and change 'clean data' dropdown option to 'no'.
     '''
+    file_list = [string.name for string in in_file]
+    print(file_list)
+    data_file_names = [string for string in file_list if "tokenised" not in string]
     new_choices = []
     concat_choices = []
+    df = read_file(data_file_names[0])
     new_choices = list(df.columns)
     #print(new_choices)
 def display_info(info_component):
     gr.Info(info_component)
 def docs_to_chroma_save(docs_out, embeddings = embeddings, progress=gr.Progress()):
     '''
     Takes a Langchain document class and saves it into a Chroma sqlite file.
     print(f"> Total split documents: {len(docs_out)}")
+    #print(docs_out)
     page_contents = [doc.page_content for doc in docs_out]
     page_meta = [doc.metadata for doc in docs_out]
     #for page in progress.tqdm(page_contents, desc = "Preparing search index", unit = "rows"):
     #    embeddings_list.append(embeddings.encode(sentences=page, max_length=1024).tolist())
+    embeddings_list = embeddings.encode(sentences=page_contents, max_length=256, show_progress_bar = True, batch_size = 32).tolist() # For Jina embeddings
     #embeddings_list = embeddings.encode(sentences=page_contents, normalize_embeddings=True).tolist() # For BGE embeddings
     #embeddings_list = embeddings.encode(sentences=page_contents).tolist() # For minilm
     toc = time.perf_counter()
     time_out = f"The embedding took {toc - tic:0.1f} seconds"
+    #pd.Series(embeddings_list).to_csv("embeddings_out.csv")
     # Jina tiny
     # This takes about 300 seconds for 240,000 records = 800 / second, 1024 max length
     # For 50k records:
     # 43 seconds at 256 max length
     # 31 seconds at 128 max length
+    # The embedding took 1372.5 seconds at 256 max length for 655,020 case notes
     # BGE small
     # 96 seconds for 50k records at 512 length
     chroma_tic = time.perf_counter()
     # Create a new Chroma collection to store the documents and metadata. We don't need to specify an embedding fuction, and the default will be used.
+    client = chromadb.PersistentClient(path="./last_year", settings=Settings(
     anonymized_telemetry=False))
     try:
     return out_message, collection
+def docs_to_np_array(docs_out, in_file, embeddings = embeddings, progress=gr.Progress()):
+    '''
+    Takes a Langchain document class and saves it into a Chroma sqlite file.
+    '''
+    print(f"> Total split documents: {len(docs_out)}")
+    #print(docs_out)
+    page_contents = [doc.page_content for doc in docs_out]
+    ## Load in pre-embedded file if exists
+    file_list = [string.name for string in in_file]
+    print(file_list)
+    embeddings_file_names = [string for string in file_list if "embedding" in string]
+    if embeddings_file_names:
+        embeddings_out = np.load(embeddings_file_names[0])
+        print("embeddings loaded: ", embeddings_out)
+    if not embeddings_file_names:
+        tic = time.perf_counter()
+        #embeddings_list = []
+        #for page in progress.tqdm(page_contents, desc = "Preparing search index", unit = "rows"):
+        #    embeddings_list.append(embeddings.encode(sentences=page, max_length=1024).tolist())
+        embeddings_out = embeddings.encode(sentences=page_contents, max_length=1024, show_progress_bar = True, batch_size = 32) # For Jina embeddings
+        #embeddings_list = embeddings.encode(sentences=page_contents, normalize_embeddings=True).tolist() # For BGE embeddings
+        #embeddings_list = embeddings.encode(sentences=page_contents).tolist() # For minilm
+        toc = time.perf_counter()
+        time_out = f"The embedding took {toc - tic:0.1f} seconds"
+        np.savez_compressed('semantic_search_embeddings.npz', embeddings_out)
+    out_message = "Document processing complete. Ready to search."
+    print(out_message)
+    return out_message, embeddings_out
+def process_data_from_scores_df(df_docs, in_join_file, out_passages, vec_score_cut_off, vec_weight, orig_df_col, in_join_column, search_df_join_column):
+    def create_docs_keep_from_df(df):
+        dict_out = {'ids' : [df['ids']],
+                    'documents': [df['documents']],
+                    'metadatas': [df['metadatas']],
+                    'distances': [round(df['distances'].astype(float), 3)],
+                    'embeddings': None
+                    }
+        return dict_out
+    # Prepare the DataFrame by transposing
+    #df_docs = df#.apply(lambda x: x.explode()).reset_index(drop=True)
+    # Keep only documents with a certain score
+    #print(df_docs)
+    docs_scores = df_docs["distances"] #.astype(float)
+    # Only keep sources that are sufficiently relevant (i.e. similarity search score below threshold below)
+    score_more_limit = df_docs.loc[docs_scores > vec_score_cut_off, :]
+    #docs_keep = create_docs_keep_from_df(score_more_limit) #list(compress(docs, score_more_limit))
+    #print(docs_keep)
+    if score_more_limit.empty:
+        return 'No result found!', None
+    # Only keep sources that are at least 100 characters long
+    docs_len = score_more_limit["documents"].str.len() >= 100
+    #print(docs_len)
+    length_more_limit = score_more_limit.loc[docs_len == True, :] #pd.Series(docs_len) >= 100
+    #docs_keep = create_docs_keep_from_df(length_more_limit) #list(compress(docs_keep, length_more_limit))
+    #print(length_more_limit)
+    if length_more_limit.empty:
+        return 'No result found!', None
+    length_more_limit['ids'] = length_more_limit['ids'].astype(int)
+    #length_more_limit.to_csv("length_more_limit.csv", index = None)
+    # Explode the 'metadatas' dictionary into separate columns
+    df_metadata_expanded = length_more_limit['metadatas'].apply(pd.Series)
+    #print(length_more_limit)
+    #print(df_metadata_expanded)
+    # Concatenate the original DataFrame with the expanded metadata DataFrame
+    results_df_out = pd.concat([length_more_limit.drop('metadatas', axis=1), df_metadata_expanded], axis=1)
+    results_df_out = results_df_out.rename(columns={"documents":orig_df_col})
+    results_df_out = results_df_out.drop(["page_section", "row", "source", "id"], axis=1, errors="ignore")
+    results_df_out['distances'] = round(results_df_out['distances'].astype(float), 3)
+    # Join back to original df
+    # results_df_out = orig_df.merge(length_more_limit[['ids', 'distances']], left_index = True, right_on = "ids", how="inner").sort_values("distances")
+    # Join on additional files
+    if in_join_file:
+        join_filename = in_join_file.name
+        # Import data
+        join_df = read_file(join_filename)
+        join_df[in_join_column] = join_df[in_join_column].astype(str).str.replace("\.0$","", regex=True)
+        # Duplicates dropped so as not to expand out dataframe
+        join_df = join_df.drop_duplicates(in_join_column)
+        results_df_out[search_df_join_column] = results_df_out[search_df_join_column].astype(str).str.replace("\.0$","", regex=True)
+        results_df_out = results_df_out.merge(join_df,left_on=search_df_join_column, right_on=in_join_column, how="left").drop(in_join_column, axis=1)
+    return results_df_out
+def jina_simple_retrieval(new_question_kworded, vectorstore, docs, orig_df_col:str, k_val:int, out_passages:int,
+                           vec_score_cut_off:float, vec_weight:float, in_join_file = None, in_join_column = None, search_df_join_column = None, device = torch_device, embeddings = embeddings, progress=gr.Progress()): # ,vectorstore, embeddings
+    print("vectorstore loaded: ", vectorstore)
+    # Convert it to a PyTorch tensor and transfer to GPU
+    vectorstore_tensor = tensor(vectorstore).to(device)
+    # Load the sentence transformer model and move it to GPU
+    embeddings = embeddings.to(device)
+    # Encode the query using the sentence transformer and convert to a PyTorch tensor
+    query = embeddings.encode(new_question_kworded)
+    query_tensor = tensor(query).to(device)
+    if query_tensor.dim() == 1:
+        query_tensor = query_tensor.unsqueeze(0)  # Reshape to 2D with one row
+    # Normalize the query tensor and vectorstore tensor
+    query_norm = query_tensor / query_tensor.norm(dim=1, keepdim=True)
+    vectorstore_norm = vectorstore_tensor / vectorstore_tensor.norm(dim=1, keepdim=True)
+    # Calculate cosine similarities (batch processing)
+    cosine_similarities = mm(query_norm, vectorstore_norm.T)
+    # Flatten the tensor to a 1D array
+    cosine_similarities = cosine_similarities.flatten()
+    # Convert to a NumPy array if it's still a PyTorch tensor
+    cosine_similarities = cosine_similarities.cpu().numpy()
+    # Create a Pandas Series
+    cosine_similarities_series = pd.Series(cosine_similarities)
+    # Pull out relevent info from docs
+    page_contents = [doc.page_content for doc in docs]
+    page_meta = [doc.metadata for doc in docs]
+    ids_range = range(0,len(page_contents))
+    ids = [str(element) for element in ids_range]
+    df_docs = pd.DataFrame(data={"ids": ids,
+                                "documents": page_contents,
+                                    "metadatas":page_meta,
+                                    "distances":cosine_similarities_series}).sort_values("distances", ascending=False).iloc[0:k_val,:]
+    results_df_out = process_data_from_scores_df(df_docs, in_join_file, out_passages, vec_score_cut_off, vec_weight, orig_df_col, in_join_column, search_df_join_column)
+    results_df_name = "semantic_search_result.csv"
+    results_df_out.to_csv(results_df_name, index= None)
+    results_first_text = results_df_out.iloc[0, 1]
+    return results_first_text, results_df_name
+def chroma_retrieval(new_question_kworded:str, vectorstore, docs, orig_df_col:str, k_val:int, out_passages:int,
+                           vec_score_cut_off:float, vec_weight:float, in_join_file = None, in_join_column = None, search_df_join_column = None): # ,vectorstore, embeddings
+            query = embeddings.encode(new_question_kworded).tolist()
+            docs = vectorstore.query(
+            query_embeddings=query,
+            n_results= k_val # No practical limit on number of responses returned
+            #where={"metadata_field": "is_equal_to_this"},
+            #where_document={"$contains":"search_string"}
+            )
+            df_docs = pd.DataFrame(data={'ids': docs['ids'][0],
+                                    'documents': docs['documents'][0],
+                                    'metadatas':docs['metadatas'][0],
+                                    'distances':docs['distances'][0]#,
+                                    #'embeddings': docs['embeddings']
+                                    })
+            results_df_out = process_data_from_scores_df(df_docs, in_join_file, out_passages, vec_score_cut_off, vec_weight, orig_df_col, in_join_column, search_df_join_column)
             results_df_name = "semantic_search_result.csv"
             results_df_out.to_csv(results_df_name, index= None)
             return results_first_text, results_df_name
 ## Gradio app - BM25 search
 block = gr.Blocks(theme = gr.themes.Base())
     k_val = gr.State(9999)
     out_passages = gr.State(9999)
+    vec_score_cut_off = gr.State(0.7)
     vec_weight = gr.State(1)
     docs_keep_as_doc_state = gr.State()
             current_source = gr.Textbox(label="Current data source(s)", value="None")
         with gr.Accordion(label = "Load in data", open=True):
+            in_bm25_file = gr.File(label="Upload your search data here", file_count= 'multiple', file_types = ['.parquet', '.csv'])
             with gr.Row():
+                in_bm25_column = gr.Dropdown(label="Enter the name of the text column in the data file to search")
                 load_bm25_data_button = gr.Button(value="Load data")
             with gr.Row():
         with gr.Accordion(label = "Search data", open=True):
             with gr.Row():
+                keyword_query = gr.Textbox(label="Enter your search term")
                 mod_query = gr.Textbox(label="Cleaned search term (the terms that are passed to the search engine)")
+            keyword_search_button = gr.Button(value="Search text")
             with gr.Row():
                 output_single_text = gr.Textbox(label="Top result")
             current_source_semantic = gr.Textbox(label="Current data source(s)", value="None")
         with gr.Accordion("Load in data", open = True):
+            in_semantic_file = gr.File(label="Upload data file for semantic search", file_count= 'multiple', file_types = ['.parquet', '.csv', '.npy', '.npz'])
+            with gr.Row():
+                in_semantic_column = gr.Dropdown(label="Enter the name of the text column in the data file to search")
+                load_semantic_data_button = gr.Button(value="Load in data file", variant="secondary")
+            ingest_embed_out = gr.Textbox(label="File/web page preparation progress")
         semantic_query = gr.Textbox(label="Enter semantic search query here")
         semantic_submit = gr.Button(value="Start semantic search", variant="secondary", scale = 1)
     in_alpha_button.click(display_info, inputs=in_alpha_info)
     in_no_search_results_button.click(display_info, inputs=in_no_search_info)
+    ### BM25 SEARCH ###
     # Update dropdowns upon initial file load
     in_bm25_file.upload(put_columns_in_df, inputs=[in_bm25_file, in_bm25_column], outputs=[in_bm25_column, in_clean_data, search_df_join_column])
     in_join_file.upload(put_columns_in_join_df, inputs=[in_join_file, in_join_column], outputs=[in_join_column])
     then(fn=put_columns_in_df, inputs=[in_bm25_file, in_bm25_column], outputs=[in_bm25_column, in_clean_data, search_df_join_column])
     # BM25 search functions on click or enter
+    keyword_search_button.click(fn=bm25_search, inputs=[in_query, in_no_search_results, data_state, in_bm25_column, in_clean_data, in_join_file, in_join_column, search_df_join_column], outputs=[output_single_text, output_file, mod_query], api_name="search")
+    keyword_query.submit(fn=bm25_search, inputs=[in_query, in_no_search_results, data_state, in_bm25_column, in_clean_data, in_join_file, in_join_column, search_df_join_column], outputs=[output_single_text, output_file, mod_query])
+    ### SEMANTIC SEARCH ###
     # Load in a csv/excel file for semantic search
     in_semantic_file.upload(put_columns_in_df, inputs=[in_semantic_file, in_semantic_column], outputs=[in_semantic_column, in_clean_data, search_df_join_column])
+    load_semantic_data_button.click(ing.parse_csv_or_excel, inputs=[in_semantic_file, in_semantic_column], outputs=[ingest_text, current_source_semantic, ingest_embed_out]).\
+             then(ing.csv_excel_text_to_docs, inputs=[ingest_text, in_semantic_column], outputs=[ingest_docs, ingest_embed_out]).\
+             then(docs_to_np_array, inputs=[ingest_docs, in_semantic_file], outputs=[ingest_embed_out, vectorstore_state])
     # Semantic search query
+    semantic_submit.click(jina_simple_retrieval, inputs=[semantic_query, vectorstore_state, ingest_docs, in_semantic_column, k_val, out_passages, vec_score_cut_off, vec_weight, in_join_file, in_join_column, search_df_join_column], outputs=[semantic_output_single_text, semantic_output_file], api_name="semantic")
+    semantic_query.submit(jina_simple_retrieval, inputs=[semantic_query, vectorstore_state, ingest_docs, in_semantic_column, k_val, out_passages, vec_score_cut_off, vec_weight, in_join_file, in_join_column, search_df_join_column], outputs=[semantic_output_single_text, semantic_output_file], api_name="semantic")
     # Dummy functions just to get dropdowns to work correctly with Gradio 3.50
     in_bm25_column.change(dummy_function, in_bm25_column, None)

requirements.txt CHANGED Viewed

@@ -8,4 +8,5 @@ chromadb
 torch
 accelerate
 sentence-transformers
 gradio==3.50.0

 torch
 accelerate
 sentence-transformers
+spacy
 gradio==3.50.0

search_funcs/clean_funcs.py CHANGED Viewed

@@ -19,6 +19,7 @@
 import nltk
 import re
 import string
 from nltk.stem import WordNetLemmatizer
 from nltk.stem import PorterStemmer
 from nltk.corpus import wordnet as wn
@@ -122,15 +123,25 @@ def initial_clean(texts):
         clean_texts.append(text)
     return clean_texts
 '''
 # Pre-compiling the regular expressions for efficiency
-email_start_pattern = re.compile('.*importance:|.*subject:')
-email_end_pattern = re.compile('kind regards.*|many thanks.*|sincerely.*')
-html_pattern = re.compile('<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});|\xa0')
-email_pattern = re.compile('\S*@\S*\s?')
-num_pattern = re.compile(r'[0-9]+')
-postcode_pattern = re.compile(r'(\b(?:[A-Z][A-HJ-Y]?[0-9][0-9A-Z]? ?[0-9][A-Z]{2})|((GIR ?0A{2})\b$)|(?:[A-Z][A-HJ-Y]?[0-9][0-9A-Z]? ?[0-9]{1}?)$)|(\b(?:[A-Z][A-HJ-Y]?[0-9][0-9A-Z]?)\b$)')
-warning_pattern = re.compile('caution: this email originated from outside of the organization. do not click links or open attachments unless you recognize the sender and know the content is safe.')
-nbsp_pattern = re.compile(r'&nbsp;')
 def stem_sentence(sentence):
@@ -143,8 +154,6 @@ def stem_sentences(sentences, progress=gr.Progress()):
         stemmed_sentences = [stem_sentence(sentence) for sentence in progress.tqdm(sentences)]
         return stemmed_sentences
 def get_lemma_text(text):
     # Tokenize the input string into words
     tokens = word_tokenize(text)
@@ -178,30 +187,60 @@ def get_lemma_tokens(tokens):
             lemmas.append(lemma)
     return lemmas
 def initial_clean(texts , progress=gr.Progress()):
-    clean_texts = []
-    i = 1
     #progress(0, desc="Cleaning texts")
-    for text in progress.tqdm(texts, desc = "Cleaning data", unit = "rows"):
-        #print("Cleaning row: ", i)
-        text = re.sub(email_start_pattern, '', text)
-        text = re.sub(email_end_pattern, '', text)
-        text = re.sub(postcode_pattern, '', text)
-        text = remove_hyphens(text)
-        text = re.sub(html_pattern, '', text)
-        text = re.sub(email_pattern, '', text)
-        text = re.sub(nbsp_pattern, '', text)
-        #text = re.sub(warning_pattern, '', text)
-        #text = stem_sentence(text)
-        text = get_lemma_text(text)
-        text = ' '.join(text)
-        # Uncomment the next line if you want to remove numbers as well
-        # text = re.sub(num_pattern, '', text)
-        clean_texts.append(text)
-        i += 1
-    return clean_texts
 # Sample execution
 #sample_texts = [

 import nltk
 import re
 import string
+import polars as pl
 from nltk.stem import WordNetLemmatizer
 from nltk.stem import PorterStemmer
 from nltk.corpus import wordnet as wn
         clean_texts.append(text)
     return clean_texts
 '''
+email_start_pattern_regex = r'.*importance:|.*subject:'
+email_end_pattern_regex = r'kind regards.*|many thanks.*|sincerely.*'
+html_pattern_regex = r'<.*?>|&([a-z0-9]+|#[0-9]{1,6}|#x[0-9a-f]{1,6});|\xa0|&nbsp;'
+email_pattern_regex = r'\S*@\S*\s?'
+num_pattern_regex = r'[0-9]+'
+postcode_pattern_regex = r'(\b(?:[A-Z][A-HJ-Y]?[0-9][0-9A-Z]? ?[0-9][A-Z]{2})|((GIR ?0A{2})\b$)|(?:[A-Z][A-HJ-Y]?[0-9][0-9A-Z]? ?[0-9]{1}?)$)|(\b(?:[A-Z][A-HJ-Y]?[0-9][0-9A-Z]?)\b$)'
+warning_pattern_regex = r'caution: this email originated from outside of the organization. do not click links or open attachments unless you recognize the sender and know the content is safe.'
+nbsp_pattern_regex = r'&nbsp;'
 # Pre-compiling the regular expressions for efficiency
+email_start_pattern = re.compile(email_start_pattern_regex)
+email_end_pattern = re.compile(email_end_pattern_regex)
+html_pattern = re.compile(html_pattern_regex)
+email_pattern = re.compile(email_end_pattern_regex)
+num_pattern = re.compile(num_pattern_regex)
+postcode_pattern = re.compile(postcode_pattern_regex)
+warning_pattern = re.compile(warning_pattern_regex)
+nbsp_pattern = re.compile(nbsp_pattern_regex)
 def stem_sentence(sentence):
         stemmed_sentences = [stem_sentence(sentence) for sentence in progress.tqdm(sentences)]
         return stemmed_sentences
 def get_lemma_text(text):
     # Tokenize the input string into words
     tokens = word_tokenize(text)
             lemmas.append(lemma)
     return lemmas
+# def initial_clean(texts , progress=gr.Progress()):
+#     clean_texts = []
+#     i = 1
+#     #progress(0, desc="Cleaning texts")
+#     for text in progress.tqdm(texts, desc = "Cleaning data", unit = "rows"):
+#         #print("Cleaning row: ", i)
+#         text = re.sub(email_start_pattern, '', text)
+#         text = re.sub(email_end_pattern, '', text)
+#         text = re.sub(postcode_pattern, '', text)
+#         text = remove_hyphens(text)
+#         text = re.sub(html_pattern, '', text)
+#         text = re.sub(email_pattern, '', text)
+#         text = re.sub(nbsp_pattern, '', text)
+#         #text = re.sub(warning_pattern, '', text)
+#         #text = stem_sentence(text)
+#         text = get_lemma_text(text)
+#         text = ' '.join(text)
+#         # Uncomment the next line if you want to remove numbers as well
+#         # text = re.sub(num_pattern, '', text)
+#         clean_texts.append(text)
+#         i += 1
+#     return clean_texts
 def initial_clean(texts , progress=gr.Progress()):
+    texts = pl.Series(texts)#[]
+    #i = 1
     #progress(0, desc="Cleaning texts")
+    #for text in progress.tqdm(texts, desc = "Cleaning data", unit = "rows"):
+    #print("Cleaning row: ", i)
+    text = texts.str.replace_all(email_start_pattern_regex, '')
+    text = text.str.replace_all(email_end_pattern_regex, '')
+    #text = re.sub(postcode_pattern, '', text)
+    #text = remove_hyphens(text)
+    text = text.str.replace_all(html_pattern_regex, '')
+    text = text.str.replace_all(email_pattern_regex, '')
+    #text = re.sub(nbsp_pattern, '', text)
+    #text = re.sub(warning_pattern, '', text)
+    #text = stem_sentence(text)
+    #text = get_lemma_text(text)
+    #text = ' '.join(text)
+    # Uncomment the next line if you want to remove numbers as well
+    # text = re.sub(num_pattern, '', text)
+    #clean_texts.append(text)
+    #i += 1
+    text = text.to_list()
+    return text
 # Sample execution
 #sample_texts = [

search_funcs/ingest.py CHANGED Viewed

@@ -3,9 +3,11 @@
 import os
 import time
 import re
 import pandas as pd
 import gradio as gr
 from typing import Type, List, Literal
 from pydantic import BaseModel, Field
@@ -132,30 +134,43 @@ def parse_csv_or_excel(file_path, text_column = "text"):
         #out_df = pd.DataFrame()
         #for file_path in file_paths:
-        file_extension = determine_file_type(file_path.name)
-        file_name = get_file_path_end(file_path.name)
         file_names = [file_name]
         if file_extension == ".csv":
-                df = pd.read_csv(file_path.name, low_memory=False)
                 if text_column not in df.columns: return pd.DataFrame(), ['Please choose a valid column name']
                 df['source'] = file_name
                 df['page_section'] = ""
         elif file_extension == ".xlsx":
-                df = pd.read_excel(file_path.name, engine='openpyxl')
                 if text_column not in df.columns: return pd.DataFrame(), ['Please choose a valid column name']
                 df['source'] = file_name
                 df['page_section'] = ""
         elif file_extension == ".parquet":
-                df = pd.read_parquet(file_path.name)
                 if text_column not in df.columns: return pd.DataFrame(), ['Please choose a valid column name']
                 df['source'] = file_name
                 df['page_section'] = ""
         else:
                 print(f"Unsupported file type: {file_extension}")
                 return pd.DataFrame(), ['Please choose a valid file type']
-        return df, file_names
 def get_file_path_end(file_path):
     match = re.search(r'(.*[\/\\])?(.+)$', file_path)
@@ -221,18 +236,22 @@ def combine_metadata_columns(df, cols):
     df['blank_column'] = ""
     for n, col in enumerate(cols):
-        df[col] = df[col].astype(str).str.replace('"',"'").str.cat(df['blank_column'].astype(str), sep="")
         df['metadatas'] = df['metadatas'] + '"' + cols[n] + '": "' + df[col] + '", '
-    df['metadatas'] = (df['metadatas'] + "}").str.replace(", }", "}")
     return df['metadatas']
 def csv_excel_text_to_docs(df, text_column='text', chunk_size=None) -> List[Document]:
     """Converts a DataFrame's content to a list of Documents with metadata."""
     doc_sections = []
     df[text_column] = df[text_column].astype(str) # Ensure column is a string column
@@ -247,33 +266,67 @@ def csv_excel_text_to_docs(df, text_column='text', chunk_size=None) -> List[Docu
             if col != text_column:
                 metadata[col] = value
-        # metadata_string = write_out_metadata_as_string(metadata)[0]
         # If chunk_size is provided, split the text into chunks
         if chunk_size:
             # Assuming you have a text splitter function similar to the PDF handling
             text_splitter = RecursiveCharacterTextSplitter(
-                chunk_size=chunk_size,
-                # Other arguments as required by the splitter
-            )
             sections = text_splitter.split_text(doc_content)
             # For each section, create a Document object
             for i, section in enumerate(sections):
-                #section = '. '.join([metadata_string, section])
                 doc = Document(page_content=section,
-                               metadata={**metadata, "section": i, "row_section": f"{metadata['row']}-{i}"})
                 doc_sections.append(doc)
         else:
             # If no chunk_size is provided, create a single Document object for the row
             #doc_content = '. '.join([metadata_string, doc_content])
             doc = Document(page_content=doc_content, metadata=metadata)
             doc_sections.append(doc)
-    return doc_sections
-import ast
 def csv_excel_text_to_docs(df, text_column='text', chunk_size=None, progress=gr.Progress()) -> List[Document]:
     """Converts a DataFrame's content to a list of dictionaries in the 'Document' format, containing page_content and associated metadata."""
@@ -296,7 +349,7 @@ def csv_excel_text_to_docs(df, text_column='text', chunk_size=None, progress=gr.
     # Create a list of Document objects
     doc_sections = [Document(page_content=row['page_content'],
-                        metadata= ast.literal_eval(row["metadata"]))
                for index, row in progress.tqdm(df.iterrows(), desc = "Splitting up text", unit = "rows")]
     ingest_toc = time.perf_counter()

 import os
 import time
 import re
+import ast
 import pandas as pd
 import gradio as gr
 from typing import Type, List, Literal
+from langchain.text_splitter import RecursiveCharacterTextSplitter
 from pydantic import BaseModel, Field
         #out_df = pd.DataFrame()
+        file_list = [string.name for string in file_path]
+        print(file_list)
+        data_file_names = [string for string in file_list if "tokenised" not in string]
         #for file_path in file_paths:
+        file_extension = determine_file_type(data_file_names[0])
+        file_name = get_file_path_end(data_file_names[0])
         file_names = [file_name]
+        print(file_extension)
         if file_extension == ".csv":
+                df = pd.read_csv(data_file_names[0], low_memory=False)
                 if text_column not in df.columns: return pd.DataFrame(), ['Please choose a valid column name']
                 df['source'] = file_name
                 df['page_section'] = ""
         elif file_extension == ".xlsx":
+                df = pd.read_excel(data_file_names[0], engine='openpyxl')
                 if text_column not in df.columns: return pd.DataFrame(), ['Please choose a valid column name']
                 df['source'] = file_name
                 df['page_section'] = ""
         elif file_extension == ".parquet":
+                df = pd.read_parquet(data_file_names[0])
                 if text_column not in df.columns: return pd.DataFrame(), ['Please choose a valid column name']
                 df['source'] = file_name
                 df['page_section'] = ""
         else:
                 print(f"Unsupported file type: {file_extension}")
                 return pd.DataFrame(), ['Please choose a valid file type']
+        message = "Loaded in file. Now converting to document format."
+        print(message)
+        return df, file_names, message
 def get_file_path_end(file_path):
     match = re.search(r'(.*[\/\\])?(.+)$', file_path)
     df['blank_column'] = ""
     for n, col in enumerate(cols):
+        df[col] = df[col].astype(str).str.replace('"',"'").str.replace('\n', ' ').str.replace('\r', ' ').str.replace('\r\n', ' ').str.cat(df['blank_column'].astype(str), sep="")
         df['metadatas'] = df['metadatas'] + '"' + cols[n] + '": "' + df[col] + '", '
+    df['metadatas'] = (df['metadatas'] + "}").str.replace(', }', '}')
     return df['metadatas']
 def csv_excel_text_to_docs(df, text_column='text', chunk_size=None) -> List[Document]:
     """Converts a DataFrame's content to a list of Documents with metadata."""
+    #print(df.head())
+    print("Converting to documents.")
     doc_sections = []
     df[text_column] = df[text_column].astype(str) # Ensure column is a string column
             if col != text_column:
                 metadata[col] = value
+        metadata_string = write_out_metadata_as_string(metadata)[0]
         # If chunk_size is provided, split the text into chunks
         if chunk_size:
             # Assuming you have a text splitter function similar to the PDF handling
             text_splitter = RecursiveCharacterTextSplitter(
+               chunk_size=chunk_size,
+               chunk_overlap=chunk_overlap,
+               split_strat=split_strat,
+               start_index=start_index
+            ) #Other arguments as required by the splitter
             sections = text_splitter.split_text(doc_content)
             # For each section, create a Document object
             for i, section in enumerate(sections):
+                section = '. '.join([metadata_string, section])
                 doc = Document(page_content=section,
+                              metadata={**metadata, "section": i, "row_section": f"{metadata['row']}-{i}"})
                 doc_sections.append(doc)
+            #print("Chunking currently disabled")
         else:
             # If no chunk_size is provided, create a single Document object for the row
             #doc_content = '. '.join([metadata_string, doc_content])
             doc = Document(page_content=doc_content, metadata=metadata)
             doc_sections.append(doc)
+        message = "Data converted to document format. Now creating/loading document embeddings."
+        print(message)
+    return doc_sections, message
+def clean_line_breaks(text):
+    # Replace \n and \r\n with a space
+    return text.replace('\n', ' ').replace('\r', ' ').replace('\r\n', ' ')
+def parse_metadata(row):
+    try:
+        # Ensure the 'title' field is a string and clean line breaks
+        #if 'TITLE' in row:
+        #    row['TITLE'] = clean_line_breaks(row['TITLE'])
+        # Convert the row to a string if it's not already
+        row_str = str(row) if not isinstance(row, str) else row
+        row_str.replace('\n', ' ').replace('\r', ' ').replace('\r\n', ' ')
+        # Parse the string
+        metadata = ast.literal_eval(row_str)
+        # Process metadata
+        return metadata
+    except SyntaxError as e:
+        print(f"Failed to parse metadata: {row_str}")
+        print(f"Error: {e}")
+        # Handle the error or log it
+        return None  # or some default value
 def csv_excel_text_to_docs(df, text_column='text', chunk_size=None, progress=gr.Progress()) -> List[Document]:
     """Converts a DataFrame's content to a list of dictionaries in the 'Document' format, containing page_content and associated metadata."""
     # Create a list of Document objects
     doc_sections = [Document(page_content=row['page_content'],
+                        metadata= parse_metadata(row["metadata"]))
                for index, row in progress.tqdm(df.iterrows(), desc = "Splitting up text", unit = "rows")]
     ingest_toc = time.perf_counter()