Spaces:

billyxx
/

Sprouts_Assignment

Sleeping

App Files Files Community

billyxx commited on 18 days ago

Commit

1fa36d8

verified ·

1 Parent(s): fc1e181

Upload app.py

Browse files

Files changed (1) hide show

app.py +21 -43

app.py CHANGED Viewed

@@ -1,10 +1,8 @@
 import gradio as gr
 import os
-import pdfplumber
 from recommender import rank_resumes, summarize_resume_flan, extract_applicant_name
 from docx import Document
 UPLOAD_FOLDER = "uploads"
 os.makedirs(UPLOAD_FOLDER, exist_ok=True)
@@ -17,45 +15,37 @@ def process_resumes(job_description, uploaded_files):
     for uploaded_file in uploaded_files:
         filename = getattr(uploaded_file, "name", None)
         if filename is None:
             return "One of the uploaded files is missing a filename. Please upload files, not text.", None
         ext = filename.lower().split(".")[-1]
-        # Read file content or bytes
-        if hasattr(uploaded_file, "read"):
-            content = uploaded_file.read()
-        elif isinstance(uploaded_file, str):
-            content = uploaded_file
-        else:
-            return f"Unsupported upload type for file: {filename}", None
-        # Process by file type
         if ext == "txt":
-            text = content.decode("utf-8") if isinstance(content, bytes) else content
         elif ext == "pdf":
-            temp_path = os.path.join(UPLOAD_FOLDER, filename)
-            with open(temp_path, "wb") as f:
-                if isinstance(content, bytes):
-                    f.write(content)
-                else:
-                    f.write(content.encode("utf-8"))
             import pdfplumber
-            with pdfplumber.open(temp_path) as pdf:
-                pages = [page.extract_text() for page in pdf.pages if page.extract_text()]
-                text = "\n".join(pages)
         elif ext == "docx":
-            temp_path = os.path.join(UPLOAD_FOLDER, filename)
-            with open(temp_path, "wb") as f:
-                if isinstance(content, bytes):
-                    f.write(content)
-                else:
-                    f.write(content.encode("utf-8"))
-            from docx import Document
-            doc = Document(temp_path)
             text = "\n".join([p.text for p in doc.paragraphs])
         else:
@@ -63,10 +53,9 @@ def process_resumes(job_description, uploaded_files):
         resume_texts.append((filename, text))
-    # Rank resumes
     results = rank_resumes(job_description, resume_texts)
-    # Generate summaries
     for candidate in results:
         candidate["summary"] = summarize_resume_flan(candidate["text"], job_description)
@@ -81,26 +70,15 @@ def process_resumes(job_description, uploaded_files):
     return "", table_data
-def extract_text_from_docx(filepath):
-    doc = Document(filepath)
-    full_text = []
-    for para in doc.paragraphs:
-        full_text.append(para.text)
-    return "\n".join(full_text)
 with gr.Blocks() as demo:
     gr.Markdown("## Candidate Recommendation Engine")
     with gr.Row():
         job_desc = gr.Textbox(label="Job Description", lines=10, placeholder="Paste job description here...")
     resumes = gr.Files(label="Upload Resumes (.txt, .pdf, .docx)", file_types=[".txt", ".pdf", ".docx"])
     btn = gr.Button("Rank Candidates")
     msg = gr.Markdown()
     output_table = gr.Dataframe(headers=["Candidate", "File Name", "Similarity Score", "Why a Good Fit"], wrap=True)

 import gradio as gr
 import os
 from recommender import rank_resumes, summarize_resume_flan, extract_applicant_name
 from docx import Document
 UPLOAD_FOLDER = "uploads"
 os.makedirs(UPLOAD_FOLDER, exist_ok=True)
     for uploaded_file in uploaded_files:
         filename = getattr(uploaded_file, "name", None)
         if filename is None:
             return "One of the uploaded files is missing a filename. Please upload files, not text.", None
         ext = filename.lower().split(".")[-1]
+        # Save uploaded file to disk
+        file_path = os.path.join(UPLOAD_FOLDER, filename)
+        with open(file_path, "wb") as f:
+            content = uploaded_file.read() if hasattr(uploaded_file, "read") else uploaded_file
+            if isinstance(content, str):
+                content = content.encode("utf-8")
+            f.write(content)
+        # Read text depending on file type
         if ext == "txt":
+            with open(file_path, "r", encoding="utf-8") as f:
+                text = f.read()
         elif ext == "pdf":
             import pdfplumber
+            try:
+                with pdfplumber.open(file_path) as pdf:
+                    pages = [page.extract_text() for page in pdf.pages if page.extract_text() is not None]
+                    if not pages:
+                        return f"No extractable text found in PDF: {filename}. Is it scanned or image-only?", None
+                    text = "\n".join(pages)
+            except Exception as e:
+                return f"Failed to process PDF {filename}: {str(e)}", None
         elif ext == "docx":
+            doc = Document(file_path)
             text = "\n".join([p.text for p in doc.paragraphs])
         else:
         resume_texts.append((filename, text))
+    # Rank resumes and generate summaries
     results = rank_resumes(job_description, resume_texts)
     for candidate in results:
         candidate["summary"] = summarize_resume_flan(candidate["text"], job_description)
     return "", table_data
 with gr.Blocks() as demo:
     gr.Markdown("## Candidate Recommendation Engine")
     with gr.Row():
         job_desc = gr.Textbox(label="Job Description", lines=10, placeholder="Paste job description here...")
     resumes = gr.Files(label="Upload Resumes (.txt, .pdf, .docx)", file_types=[".txt", ".pdf", ".docx"])
     btn = gr.Button("Rank Candidates")
     msg = gr.Markdown()
     output_table = gr.Dataframe(headers=["Candidate", "File Name", "Similarity Score", "Why a Good Fit"], wrap=True)