AskYoutube
/

AskVideos-VideoCLIP-v0.1

Model card Files Files and versions Community

AskYoutube commited on Dec 20, 2023

Commit

e3b47db

·

1 Parent(s): f251ff3

Update README.md

Files changed (1) hide show

README.md +10 -5

README.md CHANGED Viewed

@@ -10,21 +10,26 @@ VideoCLIP uses a Video Q-Former to aggregate frame-level embeddings temporally i
 # Usage
 ```
-# Load model
 import video_clip
 eval_config = 'eval_configs/video_clip.yaml'
 model, vis_processor = video_clip.load_model(eval_config)
-# Compute video embeddings
 video_embs = video_clip.get_all_video_embeddings(videos, model, vis_processor)
-# Compute Video-Text similarity
 v2t_sim = video_clip.compute_sim(model, texts, video_embs)
-# Compute Text-Video similarity
 t2v_sim = v2t_sim.T
-# Compute Video-Video distance
 v2v_dists = video_clip.compute_dist_videoq(model, video_embs[0], video_embs)
 ```

 # Usage
 ```
+# Load model.
 import video_clip
 eval_config = 'eval_configs/video_clip.yaml'
 model, vis_processor = video_clip.load_model(eval_config)
+# Compute video embeddings.
+# video_embs: float matrix of size [num_videos, clip_dim_size, query_tokens] containing VideoCLIP embeddings.
+# In this model, clip_dim_size=1024 and query_tokens=32.
 video_embs = video_clip.get_all_video_embeddings(videos, model, vis_processor)
+# Compute Video-Text similarity.
+# v2t_sim: float matrix of size [num_videos, num_texts] indicating similarity.
 v2t_sim = video_clip.compute_sim(model, texts, video_embs)
+# Compute Text-Video similarity.
+# t2v_sim: float matrix of size [num_texts, num_videos] indicating similarity.
 t2v_sim = v2t_sim.T
+# Compute Video-Video distance.
+# v2v_dists: float vector of size [1, num_videos] indicating distance to query video embedding.
 v2v_dists = video_clip.compute_dist_videoq(model, video_embs[0], video_embs)
 ```