Spaces:

Pranay25
/

chatbot

Sleeping

App Files Files Community

Pranay25 commited on May 20

Commit

199272d

verified ·

1 Parent(s): 847cfef

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -2

app.py CHANGED Viewed

@@ -45,22 +45,38 @@ def extract_text(image):
         extracted_text.append(line[1][0])
     return "\n".join(extracted_text)
 # Function to extract attributes using regex
 def extract_attributes(extracted_text):
     attributes = {}
     # Patterns for extracting personal information
     patterns = {
-        "Name": r"Name[:\-]?\s*([A-Za-z\s]+?)(?=\s*(?:Age|Gender|Phone Number|Phone|Mobile|$|\n))",
         "Age": r"Age[:\-]?\s*(\d{1,3})",
         "Gender": r"Gender[:\-]?\s*(Male|Female|Other)",
         "Phone Number": r"(?:(?:Phone Number)|Phone|Mobile|Phonenumber)[:\-]?\s*(?:\+91)?([6-9]\d{9})"
     }
     for readable_attr, pattern in patterns.items():
-        match = re.search(pattern, extracted_text, re.IGNORECASE)
         if match:
             attributes[readable_attr] = match.group(1).strip()
     if "Gender" in attributes:
         attributes["Gender"] = GENDER_MAPPING.get(attributes["Gender"], attributes["Gender"])

         extracted_text.append(line[1][0])
     return "\n".join(extracted_text)
+# Function to clean extracted text
+def clean_extracted_text(text):
+    # Replace carriage returns and normalize newlines
+    text = text.replace('\r\n', '\n').replace('\r', '\n')
+    # Strip leading/trailing whitespace and normalize multiple spaces
+    text = re.sub(r'\s+', ' ', text.strip())
+    return text
 # Function to extract attributes using regex
 def extract_attributes(extracted_text):
     attributes = {}
+    # Clean the extracted text
+    cleaned_text = clean_extracted_text(extracted_text)
+    print(f"Raw extracted text: '{extracted_text}'")
+    print(f"Cleaned extracted text: '{cleaned_text}'")
     # Patterns for extracting personal information
     patterns = {
+        "Name": r"Name[:\-]?\s*([A-Za-z\s]+)(?=\s*(?:Age|Gender|Phone Number|Phone|Mobile|$|\n|\r\n|\Z))",
         "Age": r"Age[:\-]?\s*(\d{1,3})",
         "Gender": r"Gender[:\-]?\s*(Male|Female|Other)",
         "Phone Number": r"(?:(?:Phone Number)|Phone|Mobile|Phonenumber)[:\-]?\s*(?:\+91)?([6-9]\d{9})"
     }
     for readable_attr, pattern in patterns.items():
+        match = re.search(pattern, cleaned_text, re.IGNORECASE)
         if match:
             attributes[readable_attr] = match.group(1).strip()
+            print(f"Extracted {readable_attr}: '{attributes[readable_attr]}'")
+        else:
+            print(f"No match for {readable_attr} with pattern: {pattern}")
     if "Gender" in attributes:
         attributes["Gender"] = GENDER_MAPPING.get(attributes["Gender"], attributes["Gender"])