Spaces:

capitaletech
/

cv_quality

Sleeping

Nassiraaa commited on Aug 6, 2024

Commit

e892881

verified ·

1 Parent(s): 09edb1a

Update cv_quality.py

Files changed (1) hide show

cv_quality.py CHANGED Viewed

@@ -1,51 +1,38 @@
-from pdf2image import convert_from_path
-import os
-from paddleocr import PaddleOCR
-from ftlangdetect import detect
-import re
-from helpers import get_email,get_number
-from langchain_community.document_loaders import UnstructuredPDFLoader,CSVLoader,PyPDFium2Loader,PyMuPDFLoader, Docx2txtLoader
-from langchain_community.llms import HuggingFaceEndpoint
 from dotenv import load_dotenv
-from langchain import hub
-import json
 from yolo_text_extraction import pdf_to_text
-from cv_analyser import analyse_cv
 load_dotenv()
-class CV():
-    def __init__(self,file_name):
-        self.file_name=file_name
-        self.doc_loader = {".csv":CSVLoader(self.file_name),".pdf":PyMuPDFLoader(self.file_name),
-                           ".docx": Docx2txtLoader(file_name)}
     def get_cv_text(self):
         _, ext = os.path.splitext(self.file_name)
         if ext in self.doc_loader.keys():
             loader = self.doc_loader[ext]
             data = loader.load()
             if len(data) != 0:
-                text = "\n".join([ page.page_content for page in data])
-                if len(text.split()) ==0 :
                     text = pdf_to_text(self.file_name)
                 return text
         else:
             text = pdf_to_text(self.file_name)
             return text
     def analyse_cv_quality(self):
-          cv_text=self.get_cv_text()
-          result=analyse_cv(cv_text)
-          return result

+import os
+from langchain_community.document_loaders import CSVLoader, PyMuPDFLoader, Docx2txtLoader
 from dotenv import load_dotenv
 from yolo_text_extraction import pdf_to_text
+from cv_analyzer import analyze_cv
 load_dotenv()
+class CV:
+    def __init__(self, file_name):
+        self.file_name = file_name
+        self.doc_loader = {
+            ".csv": CSVLoader(self.file_name),
+            ".pdf": PyMuPDFLoader(self.file_name),
+            ".docx": Docx2txtLoader(file_name)
+        }
     def get_cv_text(self):
         _, ext = os.path.splitext(self.file_name)
         if ext in self.doc_loader.keys():
             loader = self.doc_loader[ext]
             data = loader.load()
             if len(data) != 0:
+                text = "\n".join([page.page_content for page in data])
+                if len(text.split()) == 0:
                     text = pdf_to_text(self.file_name)
                 return text
+            else:
+                text = pdf_to_text(self.file_name)
+                return text
         else:
             text = pdf_to_text(self.file_name)
             return text
     def analyse_cv_quality(self):
+        cv_text = self.get_cv_text()
+        result = analyze_cv(cv_text)
+        return result