Spaces:

sagar007
/

Lava_phi_model

Running

App Files Files Community

sagar007 commited on Jan 2

Commit

066eb01

verified ·

1 Parent(s): 4b9e6aa

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -20

app.py CHANGED Viewed

@@ -19,8 +19,13 @@ class LLaVAPhiModel:
         if self.tokenizer.pad_token is None:
             self.tokenizer.pad_token = self.tokenizer.eos_token
-        # Initialize processor (can be done outside GPU context)
-        self.processor = AutoProcessor.from_pretrained("microsoft/clip-vit-base-patch32")
         # Store conversation history
         self.history = []
@@ -52,16 +57,26 @@ class LLaVAPhiModel:
             self.model.config.pad_token_id = self.tokenizer.eos_token_id
         if self.clip is None:
-            # Load CLIP model
-            self.clip = AutoModel.from_pretrained("microsoft/clip-vit-base-patch32").to(self.device)
     @spaces.GPU
     def process_image(self, image):
-        """Process image through CLIP"""
         try:
             # Ensure models are loaded
             self.ensure_models_loaded()
             # Convert image to correct format
             if isinstance(image, str):
                 image = Image.open(image)
@@ -69,14 +84,18 @@ class LLaVAPhiModel:
                 image = Image.fromarray(image)
             with torch.no_grad():
-                image_inputs = self.processor(images=image, return_tensors="pt")
-                image_features = self.clip.get_image_features(
-                    pixel_values=image_inputs.pixel_values.to(self.device)
-                )
-                return image_features
         except Exception as e:
-            logging.error(f"Error processing image: {str(e)}")
-            raise
     @spaces.GPU(duration=120)  # Set longer duration for generation
     def generate_response(self, message, image=None):
@@ -85,14 +104,10 @@ class LLaVAPhiModel:
             self.ensure_models_loaded()
             if image is not None:
-                try:
-                    image_features = self.process_image(image)
-                    has_image = True
-                except Exception as e:
-                    logging.error(f"Failed to process image: {str(e)}")
-                    image_features = None
-                    has_image = False
-                    message = f"Note: Failed to process image. Continuing with text only. Error: {str(e)}\n{message}"
                 prompt = f"human: {'<image>' if has_image else ''}\n{message}\ngpt:"
                 context = ""

         if self.tokenizer.pad_token is None:
             self.tokenizer.pad_token = self.tokenizer.eos_token
+        try:
+            # Initialize processor (can be done outside GPU context)
+            self.processor = AutoProcessor.from_pretrained("huggingface/clip-vit-base-patch32")
+        except Exception as e:
+            logging.warning(f"Failed to load CLIP processor: {str(e)}")
+            # Fallback to basic tokenizer if needed
+            self.processor = None
         # Store conversation history
         self.history = []
             self.model.config.pad_token_id = self.tokenizer.eos_token_id
         if self.clip is None:
+            # Load CLIP model if not already loaded
+            if self.clip is None:
+                try:
+                    self.clip = AutoModel.from_pretrained("huggingface/clip-vit-base-patch32").to(self.device)
+                except Exception as e:
+                    logging.warning(f"Failed to load CLIP model: {str(e)}")
+                    self.clip = None
     @spaces.GPU
     def process_image(self, image):
+        """Process image through CLIP if available, otherwise return None"""
         try:
             # Ensure models are loaded
             self.ensure_models_loaded()
+            # If CLIP isn't available, return None
+            if self.clip is None or self.processor is None:
+                logging.warning("CLIP model or processor not available - skipping image processing")
+                return None
             # Convert image to correct format
             if isinstance(image, str):
                 image = Image.open(image)
                 image = Image.fromarray(image)
             with torch.no_grad():
+                try:
+                    image_inputs = self.processor(images=image, return_tensors="pt")
+                    image_features = self.clip.get_image_features(
+                        pixel_values=image_inputs.pixel_values.to(self.device)
+                    )
+                    return image_features
+                except Exception as e:
+                    logging.error(f"Error during image processing: {str(e)}")
+                    return None
         except Exception as e:
+            logging.error(f"Error in process_image: {str(e)}")
+            return None
     @spaces.GPU(duration=120)  # Set longer duration for generation
     def generate_response(self, message, image=None):
             self.ensure_models_loaded()
             if image is not None:
+                image_features = self.process_image(image)
+                has_image = image_features is not None
+                if not has_image:
+                    message = "Note: Image processing is not available - continuing with text only.\n" + message
                 prompt = f"human: {'<image>' if has_image else ''}\n{message}\ngpt:"
                 context = ""