Spaces:

BenkHel
/

CumoThesis

Running

BenkHel commited on 27 days ago

Commit

6014840

verified ·

1 Parent(s): 788a968

Update cumo/model/multimodal_encoder/clip_encoder.py

Files changed (1) hide show

cumo/model/multimodal_encoder/clip_encoder.py CHANGED Viewed

@@ -84,9 +84,12 @@ class CLIPVisionTower(nn.Module):
         if type(images) is list:
             image_features = []
             for image in images:
-                image_forward_out = self.vision_model(image.to(device=self.device, dtype=self.dtype).unsqueeze(0), output_hidden_states=True)
                 image_feature = self.feature_select(image_forward_out).to(image.dtype)
                 image_features.append(image_feature)
         else:
             input_size = images.shape[3]
             img_sizes = [int(input_size * scale) for scale in self.scales]

         if type(images) is list:
             image_features = []
             for image in images:
+                dev = image.device if hasattr(image, "device") else torch.device("cuda" if torch.cuda.is_available() else "cpu")
+                dt = image.dtype if hasattr(image, "dtype") else torch.float16
+                image_forward_out = self.vision_model(image.to(device=dev, dtype=dt).unsqueeze(0), output_hidden_states=True)
                 image_feature = self.feature_select(image_forward_out).to(image.dtype)
                 image_features.append(image_feature)
         else:
             input_size = images.shape[3]
             img_sizes = [int(input_size * scale) for scale in self.scales]