Spaces:

rushankg
/

intratalent-v2

Sleeping

App Files Files Community

rushankg commited on Oct 26, 2024

Commit

33c7116

verified ·

1 Parent(s): e07ba78

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -27

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ from streamlit.runtime.uploaded_file_manager import UploadedFile
 from anthropic import Anthropic
 import pymongo
 from dotenv import load_dotenv
 # Load environment variables
 load_dotenv()
@@ -29,15 +30,34 @@ st.set_page_config(
     layout="wide"
 )
-def extract_info_with_claude(resume_content: bytes) -> str:
-    """Extract information from resume using Claude."""
-    # Create a temporary file to store the resume content
-    with tempfile.NamedTemporaryFile(mode='w+b', suffix='.pdf', delete=False) as temp_file:
-        temp_file.write(resume_content)
-        temp_file_path = temp_file.name
-    st.write("📄 Created temporary PDF file for Claude analysis")
     prompt = """
     Extract the following information from the given resume:
     1. Full Name
@@ -49,27 +69,19 @@ def extract_info_with_claude(resume_content: bytes) -> str:
     2. [Project Name]: [Project Description]
     ...
     Extract all experiences, including projects, leadership, work experience, research, etc.
-    """
-    st.write("🤖 Sending request to Claude API...")
     try:
         message = anthropic.messages.create(
-            model="claude-3-5-sonnet-20240620",
             max_tokens=4096,
             system="You are a helpful assistant that extracts information from resumes.",
             messages=[{
                 "role": "user",
-                "content": [
-                    {
-                        "type": "text",
-                        "text": prompt
-                    },
-                    {
-                        "type": "file",
-                        "source": temp_file_path
-                    }
-                ]
             }]
         )
         extracted_info = message.content[0].text
@@ -79,10 +91,6 @@ def extract_info_with_claude(resume_content: bytes) -> str:
     except Exception as e:
         extracted_info = f"An error occurred: {e}"
         st.error(f"❌ API Error: {e}")
-    finally:
-        # Clean up the temporary file
-        os.unlink(temp_file_path)
-        st.write("🗑️ Cleaned up temporary file")
     return extracted_info
@@ -91,9 +99,13 @@ def parse_resume(uploaded_file: UploadedFile) -> Tuple[str, List[Dict]]:
     try:
         st.write(f"📝 Processing resume: {uploaded_file.name}")
         resume_content = uploaded_file.getvalue()
-        st.write("📊 Extracted raw content from PDF")
-        extracted_info = extract_info_with_claude(resume_content)
         st.write("🔍 Parsing extracted information...")
         # Parse the extracted information
@@ -121,7 +133,7 @@ def parse_resume(uploaded_file: UploadedFile) -> Tuple[str, List[Dict]]:
         resume_data = {
             "name": name,
             "projects": projects,
-            "full_content": resume_content.decode('utf-8', errors='ignore')
         }
         resume_collection.insert_one(resume_data)
         st.write("💾 Stored data in MongoDB")

 from anthropic import Anthropic
 import pymongo
 from dotenv import load_dotenv
+import fitz  # PyMuPDF
 # Load environment variables
 load_dotenv()
     layout="wide"
 )
+def extract_text_from_pdf(pdf_content: bytes) -> str:
+    """Extract text from PDF content."""
+    try:
+        # Create a temporary file to store the PDF content
+        with tempfile.NamedTemporaryFile(mode='w+b', suffix='.pdf', delete=False) as temp_file:
+            temp_file.write(pdf_content)
+            temp_file_path = temp_file.name
+        # Extract text from PDF
+        doc = fitz.open(temp_file_path)
+        text = ""
+        for page_num in range(doc.page_count):
+            page = doc.load_page(page_num)
+            text += page.get_text() + "\n"
+        doc.close()
+        # Clean up temporary file
+        os.unlink(temp_file_path)
+        return text
+    except Exception as e:
+        st.error(f"Error extracting text from PDF: {e}")
+        return ""
+def extract_info_with_claude(resume_text: str) -> str:
+    """Extract information from resume text using Claude."""
+    st.write("🤖 Sending request to Claude API...")
     prompt = """
     Extract the following information from the given resume:
     1. Full Name
     2. [Project Name]: [Project Description]
     ...
     Extract all experiences, including projects, leadership, work experience, research, etc.
+    Here's the resume text:
+    {resume_text}
+    """.format(resume_text=resume_text)
     try:
         message = anthropic.messages.create(
+            model="claude-3-haiku-20240307",
             max_tokens=4096,
             system="You are a helpful assistant that extracts information from resumes.",
             messages=[{
                 "role": "user",
+                "content": prompt
             }]
         )
         extracted_info = message.content[0].text
     except Exception as e:
         extracted_info = f"An error occurred: {e}"
         st.error(f"❌ API Error: {e}")
     return extracted_info
     try:
         st.write(f"📝 Processing resume: {uploaded_file.name}")
         resume_content = uploaded_file.getvalue()
+        st.write("📊 Extracting text from PDF...")
+        resume_text = extract_text_from_pdf(resume_content)
+        st.write("📄 Extracted text from PDF:")
+        st.code(resume_text[:500] + "..." if len(resume_text) > 500 else resume_text)
+        extracted_info = extract_info_with_claude(resume_text)
         st.write("🔍 Parsing extracted information...")
         # Parse the extracted information
         resume_data = {
             "name": name,
             "projects": projects,
+            "full_content": resume_text
         }
         resume_collection.insert_one(resume_data)
         st.write("💾 Stored data in MongoDB")