Spaces:

cogcorp
/

assignment1

Sleeping

cogcorp commited on May 23, 2023

Commit

3aae288

1 Parent(s): 9df8c97

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ import shutil
 import os
 from sklearn.neighbors import NearestNeighbors
 from tempfile import NamedTemporaryFile
 openAI_key = os.environ['OpenAPI']
@@ -47,6 +48,19 @@ class SemanticSearch:
         embeddings = np.vstack(embeddings)
         return embeddings
 def unique_filename(basename):
     # Append a unique ID to the end of the filename, before the extension
     base, ext = os.path.splitext(basename)

 import os
 from sklearn.neighbors import NearestNeighbors
 from tempfile import NamedTemporaryFile
+from PyPDF2 import PdfFileReader
 openAI_key = os.environ['OpenAPI']
         embeddings = np.vstack(embeddings)
         return embeddings
+def pdf_to_text(pdf_path, start_page=1):
+    pdf = PdfFileReader(open(pdf_path, "rb"))
+    text = ""
+    for page_num in range(start_page, pdf.getNumPages()):
+        text += pdf.getPage(page_num).extractText()
+    return text
+def text_to_chunks(text, start_page=1, chunk_size=512):
+    chunks = [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
+    return chunks
 def unique_filename(basename):
     # Append a unique ID to the end of the filename, before the extension
     base, ext = os.path.splitext(basename)