Spaces:

Manojajj
/

bert-base-cased-resume_parser

Sleeping

Manojajj commited on Nov 17, 2024

Commit

b5578a6

verified ·

1 Parent(s): 2a2cabb

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -31,9 +31,17 @@ def parse_resume(pdf_file):
     # Extract text from PDF
     resume_text = extract_text_from_pdf(pdf_file)
     # Use the NER model to identify entities in the resume
     entities = nlp(resume_text)
     # Initialize empty fields
     name = email = phone = education = skills = experience = None
@@ -50,6 +58,9 @@ def parse_resume(pdf_file):
             elif entity['label'] == 'MISC':
                 skills = entity['word']  # Example for skills or qualifications
     return {
         'Name': name,
         'Email': email,
@@ -64,11 +75,18 @@ def batch_process_resumes(pdf_files):
     all_resumes = []
     for pdf_file in pdf_files:
         resume_info = parse_resume(pdf_file)
-        all_resumes.append(resume_info)
     # Convert to DataFrame
     df = pd.DataFrame(all_resumes)
     # Define the file path for the Excel file
     output_file = "/tmp/parsed_resumes.xlsx"

     # Extract text from PDF
     resume_text = extract_text_from_pdf(pdf_file)
+    # Log the extracted text for debugging
+    print("Extracted Text from Resume:")
+    print(resume_text[:500])  # Print the first 500 characters for preview
     # Use the NER model to identify entities in the resume
     entities = nlp(resume_text)
+    # Log the NER output for debugging
+    print("NER Output:")
+    print(entities)
     # Initialize empty fields
     name = email = phone = education = skills = experience = None
             elif entity['label'] == 'MISC':
                 skills = entity['word']  # Example for skills or qualifications
+    # Log the final parsed information for debugging
+    print(f"Parsed Info: Name={name}, Email={email}, Skills={skills}, Experience={experience}")
     return {
         'Name': name,
         'Email': email,
     all_resumes = []
     for pdf_file in pdf_files:
         resume_info = parse_resume(pdf_file)
+        # Only add the parsed resume info if there's meaningful data
+        if any(resume_info.values()):  # Skip empty resume entries
+            all_resumes.append(resume_info)
     # Convert to DataFrame
     df = pd.DataFrame(all_resumes)
+    # If the DataFrame is empty, return a message indicating no data was found
+    if df.empty:
+        return "No valid resume information was parsed."
     # Define the file path for the Excel file
     output_file = "/tmp/parsed_resumes.xlsx"