aurelio-ai
/

xclip-base-patch16-zero-shot

@@ -103,51 +103,58 @@ class EndpointHandler:
     def embed_frames_with_xclip_processing(self, frames):
         # Initialize an empty list to store the frame embeddings
-        self.logger.info("Preprocessing frames.")
         frame_preprocessed = self.preprocess_frames(frames)
         # Pass the preprocessed frame through the model to get the frame embeddings
-        self.logger.info("Getting video features.")
         frame_embedding = self.model.get_video_features(**frame_preprocessed)
-        # Stack the list of frame embeddings into a single tensor
-        # self.logger.info("Stacking embeddings into a single tensor.")
-        # tensor = torch.stack(frame_embedding)
-        # detach text emb from graph, move to CPU, and convert to numpy array
-        # self.logger.info("Squeezing tensor")
-        # batch_emb = frame_embedding.squeeze(0)
         # Check the shape of the tensor
-        self.logger.info(f"Shape of the batch_emb tensor: {frame_embedding.shape}")
         # Normalize the embeddings if it's a 2D tensor
         if frame_embedding.dim() == 2:
-            self.logger.info("Normalizing embeddings")
             batch_emb = torch.nn.functional.normalize(frame_embedding, p=2, dim=1)
         else:
-            self.logger.info("Skipping normalization due to tensor shape")
             batch_emb = frame_embedding.squeeze(0)
-        self.logger.info("Converting into numpy array")
         batch_emb = batch_emb.cpu().detach().numpy()
-        self.logger.info("Converting to list")
         batch_emb = batch_emb.tolist()
-        self.logger.info("Returning batch_emb list")
         return batch_emb
     def process_video(self, video_url, video_metadata):
         try:
             self.logger.info("Downloading video as bytes.")
             video_bytes, video_headers = self.download_video_as_bytes(video_url)
             self.logger.info("Extracting frames.")
             frames = self.extract_evenly_spaced_frames_from_bytes(
                 video_bytes, num_frames=32
             )
             self.logger.info("Embedding frames with Xclip.")
             frame_embeddings = self.embed_frames_with_xclip_processing(frames)
             video_metadata["url"] = video_url
             self.logger.info("Returning embeddings and metadata.")
             return frame_embeddings, video_metadata

     def embed_frames_with_xclip_processing(self, frames):
         # Initialize an empty list to store the frame embeddings
+        #self.logger.info("Preprocessing frames.")
         frame_preprocessed = self.preprocess_frames(frames)
         # Pass the preprocessed frame through the model to get the frame embeddings
+        #self.logger.info("Getting video features.")
         frame_embedding = self.model.get_video_features(**frame_preprocessed)
         # Check the shape of the tensor
+        #self.logger.info(f"Shape of the batch_emb tensor: {frame_embedding.shape}")
         # Normalize the embeddings if it's a 2D tensor
         if frame_embedding.dim() == 2:
+            #self.logger.info("Normalizing embeddings")
             batch_emb = torch.nn.functional.normalize(frame_embedding, p=2, dim=1)
         else:
+            #self.logger.info("Skipping normalization due to tensor shape")
             batch_emb = frame_embedding.squeeze(0)
+        #self.logger.info("Converting into numpy array")
         batch_emb = batch_emb.cpu().detach().numpy()
+        #self.logger.info("Converting to list")
         batch_emb = batch_emb.tolist()
+        #self.logger.info("Returning batch_emb list")
         return batch_emb
     def process_video(self, video_url, video_metadata):
         try:
             self.logger.info("Downloading video as bytes.")
+            download_start_time = timeit.default_timer()
             video_bytes, video_headers = self.download_video_as_bytes(video_url)
+            download_end_time = timeit.default_timer()
+                    self.logger.info(
+                        f"Video downloading took {download_end_time - download_start_time} seconds"
+                    )
             self.logger.info("Extracting frames.")
+            processing_start_time = timeit.default_timer()
             frames = self.extract_evenly_spaced_frames_from_bytes(
                 video_bytes, num_frames=32
             )
+            processing_end_time = timeit.default_timer()
+            self.logger.info(
+                        f"Extracting video frames took {processing_end_time - processing_start_time} seconds"
+                    )
             self.logger.info("Embedding frames with Xclip.")
+            embedding_start_time = timeit.default_timer()
             frame_embeddings = self.embed_frames_with_xclip_processing(frames)
+            embedding_end_time = timeit.default_timer()
+            self.logger.info(
+                    f"Embedding calculation took {embedding_end_time - embedding_start_time} seconds"
+                )
             video_metadata["url"] = video_url
             self.logger.info("Returning embeddings and metadata.")
             return frame_embeddings, video_metadata