Spaces:

mashaelalbu
/

ocrsensitive

Sleeping

App Files Files Community

mashaelalbu commited on Apr 6

Commit

990142e

verified ·

1 Parent(s): c4d7fee

Update app/utils.py

Browse files

Files changed (1) hide show

app/utils.py +34 -71

app/utils.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# utils.py (معدل)
 import os
 import pandas as pd
 from transformers import AutoModel, AutoTokenizer
@@ -9,8 +8,6 @@ from transformers import BertTokenizer
 import nltk
 import requests
 import io
-from flask import current_app
-import base64
 logger = logging.getLogger(__name__)
@@ -108,129 +105,95 @@ class AllergyAnalyzer:
             nltk.data.find('tokenizers/punkt')
         except LookupError:
             nltk.download('punkt')
-        try:
-            nltk.data.find('tokenizers/punkt_tab')
-        except LookupError:
-            nltk.download('punkt_tab')
-        self.allergy_dict = self.load_allergy_data()
         self.ocr_model = OCRModel()
     def load_allergy_data(self):
         """تحميل بيانات الحساسيات من ملف Excel"""
         try:
-            df = pd.read_excel(self.dataset_path)
             allergy_dict = {}
             for index, row in df.iterrows():
-                allergy = row['Allergy']
-                ingredients = [str(ingredient).lower() for ingredient in row[1:] if pd.notna(ingredient)]
-                allergy_dict[allergy.lower()] = ingredients
             return allergy_dict
         except Exception as e:
             logger.error(f"Error loading allergy data: {str(e)}", exc_info=True)
-            return {}
     def tokenize_text(self, text):
         """تقسيم النص إلى كلمات"""
         tokens = nltk.word_tokenize(text)
         return [w.lower() for w in tokens if w.isalpha()]
-    def find_allergy_for_token(self, token):
-        """البحث عن الحساسية المقابلة للتوكن في ملف الإكسل"""
-        results = []
-        for allergy, ingredients in self.allergy_dict.items():
             if token in ingredients:
-                results.append(allergy)
-        return results
     def check_allergy_risk(self, ingredient, api_key):
         """الاستعلام من Claude API عن الحساسيات"""
         prompt = f"""
-You are a professional food safety expert specializing in allergen classification.
-Please analyze the ingredient '{ingredient}' and determine which of the following major allergen categories it belongs to:
-dairy, eggs, peanuts, soy, tree nuts, wheat, fish, shellfish, sesame.
-Return only the allergen category name if found, or 'None' if not found.
-Example responses: 'dairy', 'eggs', 'None', etc.
 """
         url = "https://api.anthropic.com/v1/messages"
         headers = {
             "x-api-key": api_key,
             "content-type": "application/json",
-            "anthropic-version": "2023-06-01"
         }
         data = {
             "model": "claude-3-opus-20240229",
             "messages": [{"role": "user", "content": prompt}],
-            "max_tokens": 10
         }
         try:
             response = requests.post(url, json=data, headers=headers)
-            json_response = response.json()
-            if "content" in json_response and isinstance(json_response["content"], list):
-                result = json_response["content"][0]["text"].strip().lower()
-                return result if result in self.allergy_dict else None
-            return None
         except Exception as e:
             logger.error(f"Error querying Claude API: {str(e)}")
-            return None
     def analyze_image(self, image, claude_api_key=None):
-        """تحليل الصورة مباشرة للكشف عن الحساسيات"""
         try:
             # استخراج النص من الصورة
             extracted_text = self.ocr_model.process_image(image)
-            logger.info(f"Extracted text: {extracted_text}")
             # تحويل النص إلى tokens
             tokens = self.tokenize_text(extracted_text)
-            detected_allergens = set()
-            database_matches = {}
-            claude_matches = {}
-            # التحقق من كل token في قاعدة البيانات
             for token in tokens:
-                db_results = self.find_allergy_for_token(token)
-                if db_results:
-                    for allergy in db_results:
-                        detected_allergens.add(allergy)
-                        if allergy not in database_matches:
-                            database_matches[allergy] = []
-                        database_matches[allergy].append(token)
-                elif claude_api_key:
-                    # إذا لم توجد في قاعدة البيانات، نستخدم Claude API
-                    api_result = self.check_allergy_risk(token, claude_api_key)
-                    if api_result:
-                        detected_allergens.add(api_result)
-                        if api_result not in claude_matches:
-                            claude_matches[api_result] = []
-                        claude_matches[api_result].append(token)
             return {
                 "extracted_text": extracted_text,
-                "detected_allergens": list(detected_allergens),
-                "database_matches": database_matches,
-                "claude_matches": claude_matches,
-                "analyzed_tokens": tokens
             }
         except Exception as e:
             logger.error(f"Error analyzing image: {str(e)}", exc_info=True)
-            return {
-                "error": str(e),
-                "detected_allergens": [],
-                "database_matches": {},
-                "claude_matches": {},
-                "analyzed_tokens": []
-            }
-    def get_allergen_list(self):
-        """الحصول على قائمة الحساسيات المعروفة"""
-        return list(self.allergy_dict.keys())

 import os
 import pandas as pd
 from transformers import AutoModel, AutoTokenizer
 import nltk
 import requests
 import io
 logger = logging.getLogger(__name__)
             nltk.data.find('tokenizers/punkt')
         except LookupError:
             nltk.download('punkt')
+        self.allergy_data = self.load_allergy_data()
         self.ocr_model = OCRModel()
     def load_allergy_data(self):
         """تحميل بيانات الحساسيات من ملف Excel"""
         try:
+            df = pd.read_excel(self.dataset_path, header=None)
             allergy_dict = {}
             for index, row in df.iterrows():
+                allergy_name = row.iloc[0].strip().lower()
+                ingredients = [str(ingredient).strip().lower() for ingredient in row[1:] if pd.notna(ingredient)]
+                allergy_dict[allergy_name] = ingredients
             return allergy_dict
         except Exception as e:
             logger.error(f"Error loading allergy data: {str(e)}", exc_info=True)
     def tokenize_text(self, text):
         """تقسيم النص إلى كلمات"""
         tokens = nltk.word_tokenize(text)
         return [w.lower() for w in tokens if w.isalpha()]
+    def check_allergen_in_excel(self, token):
+        """التحقق من وجود التوكن في ملف الإكسل"""
+        for allergy_name, ingredients in self.allergy_data.items():
             if token in ingredients:
+                return allergy_name  # Return the allergy name if token is found
+        return None
     def check_allergy_risk(self, ingredient, api_key):
         """الاستعلام من Claude API عن الحساسيات"""
         prompt = f"""
+You are a professional food safety expert specializing in allergen classification and risk assessment. Analyze the ingredient '{ingredient}' and determine whether it poses any allergy risk. Respond with 'Yes' or 'No'.
 """
         url = "https://api.anthropic.com/v1/messages"
         headers = {
             "x-api-key": api_key,
             "content-type": "application/json",
         }
         data = {
             "model": "claude-3-opus-20240229",
             "messages": [{"role": "user", "content": prompt}],
+            "max_tokens": 10,
         }
         try:
             response = requests.post(url, json=data, headers=headers)
+            response_json = response.json()
+            if "content" in response_json and isinstance(response_json["content"], list):
+                return response_json["content"][0]["text"].strip().lower() == 'yes'
         except Exception as e:
             logger.error(f"Error querying Claude API: {str(e)}")
+        return False
     def analyze_image(self, image, claude_api_key=None):
+        """تحليل الصورة للكشف عن الحساسيات"""
         try:
             # استخراج النص من الصورة
             extracted_text = self.ocr_model.process_image(image)
             # تحويل النص إلى tokens
             tokens = self.tokenize_text(extracted_text)
+            detected_allergens = {}
             for token in tokens:
+                allergy_from_excel = self.check_allergen_in_excel(token)
+                if allergy_from_excel:
+                    detected_allergens[token] = allergy_from_excel
+                elif claude_api_key:  # إذا لم يُوجد في ملف الإكسل، استدعِ Claude API
+                    is_allergen_risky = self.check_allergy_risk(token, claude_api_key)
+                    detected_allergens[token] = 'API Risk' if is_allergen_risky else 'Safe'
             return {
                 "extracted_text": extracted_text,
+                "detected_allergens": detected_allergens,
+                "analyzed_tokens": tokens,
             }
         except Exception as e:
             logger.error(f"Error analyzing image: {str(e)}", exc_info=True)