Spaces:

Pranay25
/

chatbot

Sleeping

Pranay25 commited on May 20

Commit

b85d243

verified ·

1 Parent(s): 543b092

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,9 +49,10 @@ def extract_text(image):
 def clean_extracted_text(text):
     # Replace carriage returns and normalize newlines
     text = text.replace('\r\n', '\n').replace('\r', '\n')
-    # Strip leading/trailing whitespace and normalize multiple spaces
-    text = re.sub(r'\s+', ' ', text.strip())
-    return text
 # Function to extract attributes using regex
 def extract_attributes(extracted_text):
@@ -64,10 +65,10 @@ def extract_attributes(extracted_text):
     # Patterns for extracting personal information
     patterns = {
-        "Name": r"Name\s*[:\-]?\s*([\w\s\-\.\']+)(?=\s*(?:Age|Gender|Phone Number|Phone|Mobile|$|\n|\r\n|\Z))",
-        "Age": r"Age[:\-]?\s*(\d{1,3})",
-        "Gender": r"Gender[:\-]?\s*(Male|Female|Other)",
-        "Phone Number": r"(?:(?:Phone Number)|Phone|Mobile|Phonenumber)[:\-]?\s*(?:\+91)?([6-9]\d{9})"
     }
     for readable_attr, pattern in patterns.items():

 def clean_extracted_text(text):
     # Replace carriage returns and normalize newlines
     text = text.replace('\r\n', '\n').replace('\r', '\n')
+    # Split into lines, clean each line, then join back
+    lines = text.split('\n')
+    cleaned_lines = [re.sub(r'\s+', ' ', line.strip()) for line in lines]
+    return '\n'.join(cleaned_lines)
 # Function to extract attributes using regex
 def extract_attributes(extracted_text):
     # Patterns for extracting personal information
     patterns = {
+        "Name": r"Name\s*[:\-]?\s*([\w\s\-\.\',]+)(?=\s*(?:Age|Gender|Phone Number|Phone|Mobile|$|\n|\r\n|\Z))",
+        "Age": r"Age\s*[:\-]?\s*(\d{1,3})(?=\s*(?:Gender|Phone Number|Phone|Mobile|$|\n|\r\n|\Z))",
+        "Gender": r"Gender\s*[:\-]?\s*(Male|Female|Other)(?=\s*(?:Phone Number|Phone|Mobile|$|\n|\r\n|\Z))",
+        "Phone Number": r"(?:(?:Phone Number)|Phone|Mobile|Phonenumber)\s*[:\-]?\s*(?:\+91)?([6-9]\d{9})(?=\s*(?:$|\n|\r\n|\Z))"
     }
     for readable_attr, pattern in patterns.items():