Spaces:

GIZ
/

audit_assistant

Running on T4

ppsingh commited on Jul 10, 2024

Commit

330533c

verified ·

1 Parent(s): 8ee40d6

Update auditqa/doc_process.py

Files changed (1) hide show

auditqa/doc_process.py CHANGED Viewed

@@ -2,6 +2,8 @@ import glob
 import os
 from langchain_text_splitters import MarkdownHeaderTextSplitter
 from langchain_community.document_loaders import UnstructuredMarkdownLoader
 path_to_data = "./data/"
 def process_markdown():
@@ -25,4 +27,31 @@ def process_markdown():
         print("Exception: ", e)
     docs_processed = [markdown_splitter.split_text(doc) for doc in docs]
     print(len(docs_processed))
-    print(docs_processed[0])

 import os
 from langchain_text_splitters import MarkdownHeaderTextSplitter
 from langchain_community.document_loaders import UnstructuredMarkdownLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter, SentenceTransformersTokenTextSplitter
+from transformers import AutoTokenizer
 path_to_data = "./data/"
 def process_markdown():
         print("Exception: ", e)
     docs_processed = [markdown_splitter.split_text(doc) for doc in docs]
     print(len(docs_processed))
+    print(docs_processed[0])
+def process_pdf():
+    files = glob.glob(path_to_data+"*.md")
+    docs = []
+    for file in files:
+        try:
+            docs.append(PyMuPDFLoader(file).load())
+        except Exception as e:
+            print("Exception: ", e)
+    chunk_size = 256
+    text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
+            AutoTokenizer.from_pretrained("BAAI/bge-small-en-v1.5"),
+            chunk_size=chunk_size,
+            chunk_overlap=int(chunk_size / 10),
+            add_start_index=True,
+            strip_whitespace=True,
+            separators=["\n\n", "\n", ".", " ", ""],
+    )
+    docs_processed = [text_splitter.split_documents(doc) for doc in docs]
+    docs_processed = [item for sublist in docs_processed for item in sublist]
+    print(len(docs_processed))
+    print(docs_processed[0])