Spaces:

mashaelalbu
/

ocrsensitive

Sleeping

App Files Files Community

mashaelalbu commited on Apr 6

Commit

b1c0c81

verified ·

1 Parent(s): 3aab4b6

Update app/utils.py

Browse files

Files changed (1) hide show

app/utils.py +93 -66

app/utils.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import os
 import pandas as pd
 from transformers import AutoModel, AutoTokenizer
@@ -24,7 +25,6 @@ class OCRModel:
         try:
             logger.info("Initializing OCR model...")
-            # محاولة تحميل النموذج
             try:
                 self.tokenizer = AutoTokenizer.from_pretrained(
                     'stepfun-ai/GOT-OCR2_0',
@@ -61,19 +61,15 @@ class OCRModel:
             if image.mode != 'RGB':
                 image = image.convert('RGB')
-            # تحسين التباين
             enhancer = ImageEnhance.Contrast(image)
             image = enhancer.enhance(1.5)
-            # تحسين الحدة
             enhancer = ImageEnhance.Sharpness(image)
             image = enhancer.enhance(1.5)
-            # تحسين السطوع
             enhancer = ImageEnhance.Brightness(image)
             image = enhancer.enhance(1.2)
-            # تطبيق فلتر لتليين الصورة
             image = image.filter(ImageFilter.SMOOTH)
             return image
@@ -85,18 +81,13 @@ class OCRModel:
         try:
             logger.info("Starting image processing")
-            # معالجة الصورة
             processed_image = self.preprocess_image(image)
-            # حفظ الصورة مؤقتاً للتعامل مع النموذج
             temp_image_path = "temp_ocr_image.jpg"
             processed_image.save(temp_image_path)
-            # استخراج النص
             result = self.model.chat(self.tokenizer, temp_image_path, ocr_type='format')
             logger.info(f"Successfully extracted text: {result[:100]}...")
-            # حذف الملف المؤقت
             if os.path.exists(temp_image_path):
                 os.remove(temp_image_path)
@@ -111,7 +102,6 @@ class OCRModel:
 class AllergyAnalyzer:
     def __init__(self, dataset_path):
         self.dataset_path = dataset_path
-        # Ensure NLTK data is downloaded
         try:
             nltk.data.find('tokenizers/punkt')
         except LookupError:
@@ -122,6 +112,7 @@ class AllergyAnalyzer:
             nltk.download('punkt_tab')
         self.allergy_dict = self.load_allergy_data()
     def load_allergy_data(self):
         """تحميل بيانات الحساسيات من ملف Excel"""
@@ -131,8 +122,8 @@ class AllergyAnalyzer:
             for index, row in df.iterrows():
                 allergy = row['Allergy']
-                ingredients = [ingredient for ingredient in row[1:] if pd.notna(ingredient)]
-                allergy_dict[allergy] = ingredients
             return allergy_dict
         except Exception as e:
@@ -152,28 +143,98 @@ class AllergyAnalyzer:
                 results.append(allergy)
         return results
     def check_claude_allergens(self, token, allergy, api_key):
         """الاستعلام من Claude API عن الحساسيات"""
-        prompt = f"""
-You are a professional food safety expert. Analyze if '{token}' contains or is derived from {allergy}.
 Respond ONLY with 'Yes' or 'No'. No explanations.
 """
-        url = "https://api.anthropic.com/v1/messages"
-        headers = {
-            "x-api-key": api_key,
-            "content-type": "application/json",
-            "anthropic-version": "2023-06-01"
-        }
-        data = {
-            "model": "claude-3-opus-20240229",
-            "messages": [{"role": "user", "content": prompt}],
-            "max_tokens": 10
-        }
-        try:
             response = requests.post(url, json=data, headers=headers)
             json_response = response.json()
@@ -183,38 +244,4 @@ Respond ONLY with 'Yes' or 'No'. No explanations.
         except Exception as e:
             logger.error(f"Error querying Claude API: {str(e)}")
-            return False
-    def analyze_text(self, text, user_allergens, claude_api_key=None):
-        """تحليل النص للكشف عن الحساسيات"""
-        detected_allergens = set()
-        database_matches = {}
-        claude_matches = {}
-        tokens = self.tokenize_text(text)
-        for token in tokens:
-            # التحقق من قاعدة البيانات أولاً
-            db_results = self.check_database_allergens(token, user_allergens)
-            if db_results:
-                for allergy in db_results:
-                    detected_allergens.add(allergy)
-                    database_matches[allergy] = database_matches.get(allergy, []) + [token]
-            else:
-                # إذا لم توجد في قاعدة البيانات، نستخدم Claude API
-                if claude_api_key:
-                    for allergy in user_allergens:
-                        if self.check_claude_allergens(token, allergy, claude_api_key):
-                            detected_allergens.add(allergy)
-                            claude_matches[allergy] = claude_matches.get(allergy, []) + [token]
-        return {
-            "detected_allergens": list(detected_allergens),
-            "database_matches": database_matches,
-            "claude_matches": claude_matches,
-            "analyzed_tokens": tokens
-        }
-    def get_allergen_list(self):
-        """الحصول على قائمة الحساسيات المعروفة"""
-        return list(self.allergy_dict.keys())

+# utils.py
 import os
 import pandas as pd
 from transformers import AutoModel, AutoTokenizer
         try:
             logger.info("Initializing OCR model...")
             try:
                 self.tokenizer = AutoTokenizer.from_pretrained(
                     'stepfun-ai/GOT-OCR2_0',
             if image.mode != 'RGB':
                 image = image.convert('RGB')
             enhancer = ImageEnhance.Contrast(image)
             image = enhancer.enhance(1.5)
             enhancer = ImageEnhance.Sharpness(image)
             image = enhancer.enhance(1.5)
             enhancer = ImageEnhance.Brightness(image)
             image = enhancer.enhance(1.2)
             image = image.filter(ImageFilter.SMOOTH)
             return image
         try:
             logger.info("Starting image processing")
             processed_image = self.preprocess_image(image)
             temp_image_path = "temp_ocr_image.jpg"
             processed_image.save(temp_image_path)
             result = self.model.chat(self.tokenizer, temp_image_path, ocr_type='format')
             logger.info(f"Successfully extracted text: {result[:100]}...")
             if os.path.exists(temp_image_path):
                 os.remove(temp_image_path)
 class AllergyAnalyzer:
     def __init__(self, dataset_path):
         self.dataset_path = dataset_path
         try:
             nltk.data.find('tokenizers/punkt')
         except LookupError:
             nltk.download('punkt_tab')
         self.allergy_dict = self.load_allergy_data()
+        self.ocr_model = OCRModel()
     def load_allergy_data(self):
         """تحميل بيانات الحساسيات من ملف Excel"""
             for index, row in df.iterrows():
                 allergy = row['Allergy']
+                ingredients = [str(ingredient).lower() for ingredient in row[1:] if pd.notna(ingredient)]
+                allergy_dict[allergy.lower()] = ingredients
             return allergy_dict
         except Exception as e:
                 results.append(allergy)
         return results
+    def analyze_image(self, image, user_allergens):
+        """تحليل الصورة مباشرة للكشف عن الحساسيات"""
+        try:
+            # استخراج النص من الصورة
+            extracted_text = self.ocr_model.process_image(image)
+            logger.info(f"Extracted text: {extracted_text}")
+            # تحويل النص إلى tokens
+            tokens = self.tokenize_text(extracted_text)
+            detected_allergens = set()
+            database_matches = {}
+            claude_matches = {}
+            # التحقق من كل token في قاعدة البيانات
+            for token in tokens:
+                db_results = self.check_database_allergens(token, user_allergens)
+                if db_results:
+                    for allergy in db_results:
+                        detected_allergens.add(allergy)
+                        database_matches[allergy] = database_matches.get(allergy, []) + [token]
+                else:
+                    # إذا لم توجد في قاعدة البيانات، نستخدم Claude API
+                    claude_api_key = current_app.config.get('CLAUDE_API_KEY')
+                    if claude_api_key:
+                        for allergy in user_allergens:
+                            if self.check_claude_allergens(token, allergy, claude_api_key):
+                                detected_allergens.add(allergy)
+                                claude_matches[allergy] = claude_matches.get(allergy, []) + [token]
+            return {
+                "detected_allergens": list(detected_allergens),
+                "database_matches": database_matches,
+                "claude_matches": claude_matches,
+                "analyzed_tokens": tokens
+            }
+        except Exception as e:
+            logger.error(f"Error analyzing image: {str(e)}", exc_info=True)
+            return {
+                "detected_allergens": [],
+                "database_matches": {},
+                "claude_matches": {},
+                "analyzed_tokens": [],
+                "error": str(e)
+            }
     def check_claude_allergens(self, token, allergy, api_key):
         """الاستعلام من Claude API عن الحساسيات"""
+        try:
+            # تحضير الصورة للطلب
+            img_byte_arr = io.BytesIO()
+            image.save(img_byte_arr, format='JPEG')
+            img_byte_arr = img_byte_arr.getvalue()
+            prompt = f"""
+Analyze if this product contains or is derived from {allergy}.
+Focus on the ingredient: {token}.
 Respond ONLY with 'Yes' or 'No'. No explanations.
 """
+            url = "https://api.anthropic.com/v1/messages"
+            headers = {
+                "x-api-key": api_key,
+                "content-type": "application/json",
+                "anthropic-version": "2023-06-01"
+            }
+            data = {
+                "model": "claude-3-opus-20240229",
+                "messages": [
+                    {
+                        "role": "user",
+                        "content": [
+                            {
+                                "type": "image",
+                                "source": {
+                                    "type": "base64",
+                                    "media_type": "image/jpeg",
+                                    "data": base64.b64encode(img_byte_arr).decode('utf-8')
+                                }
+                            },
+                            {
+                                "type": "text",
+                                "text": prompt
+                            }
+                        ]
+                    }
+                ],
+                "max_tokens": 10
+            }
             response = requests.post(url, json=data, headers=headers)
             json_response = response.json()
         except Exception as e:
             logger.error(f"Error querying Claude API: {str(e)}")
+            return