Spaces:

manasvinid
/

RESUME_RANKER

Sleeping

manasvinid commited on Feb 28, 2024

Commit

c7bbd93

verified ·

1 Parent(s): b5bf8cc

Update functions.py

Files changed (1) hide show

functions.py CHANGED Viewed

@@ -16,6 +16,8 @@ from sentence_transformers import SentenceTransformer
 from qdrant_client import QdrantClient
 from qdrant_client.http.models import VectorParams, Distance, Record, Filter
 from random import uniform
 def setup_nltk_resources():
@@ -383,4 +385,48 @@ class QdrantInterface:

 from qdrant_client import QdrantClient
 from qdrant_client.http.models import VectorParams, Distance, Record, Filter
 from random import uniform
+import PyPDF2
 def setup_nltk_resources():
+def main():
+    st.title("PDF to CSV Converter")
+    # File uploader widget
+    uploaded_file = st.file_uploader("Upload PDF", type=["pdf"])
+    if uploaded_file is not None:
+        # Read PDF file
+        pdf_reader = PyPDF2.PdfFileReader(uploaded_file)
+        num_pages = pdf_reader.numPages
+        # Extract text from each page
+        text = ""
+        for page_num in range(num_pages):
+            page = pdf_reader.getPage(page_num)
+            text += page.extractText()
+        # Convert text to CSV
+        csv_data = convert_to_csv(text)
+        # Display or download CSV
+        st.subheader("Converted CSV Data")
+        st.write(csv_data)
+        # Download link for CSV file
+        st.download_button(
+            label="Download CSV",
+            data=csv_data,
+            file_name="converted_data.csv",
+            mime="text/csv"
+        )
+def convert_to_csv(text):
+    # Split text into lines and create a DataFrame
+    lines = text.split("\n")
+    df = pd.DataFrame(lines, columns=["Text"])
+    # Convert DataFrame to CSV format
+    csv_data = df.to_csv(index=False)
+    return csv_data