Spaces:

lym0302
/

DeepSound-V1

Running

lym0302123 commited on Mar 26

Commit

4083b70

1 Parent(s): 77dc150

step02

Files changed (1) hide show

pipeline/step02.py CHANGED Viewed

@@ -16,14 +16,14 @@ class Step02:
     def run_step0(self, video_path, modal_type='v'):
         question = f"Generate high-quality audio from video step-by-step."
-        if modal_type == "a":
-            self.model.model.vision_tower = None
-        elif modal_type == "v":
-            self.model.model.audio_tower = None
-        elif modal_type == "av":
-            pass
-        else:
-            raise NotImplementedError
         self.log.info("######################################################################################################")
         self.log.info("Generate high-quality audio from video step-by-step...")
@@ -42,14 +42,14 @@ class Step02:
     def run_step2(self, video_audio_path, modal_type='av'):
         question = f"Given a video and its corresponding audio, determine whether the audio contains voice-over? Options: A. Yes, B. No. Choose A or B."
-        if modal_type == "a":
-            self.model.model.vision_tower = None
-        elif modal_type == "v":
-            self.model.model.audio_tower = None
-        elif modal_type == "av":
-            pass
-        else:
-            raise NotImplementedError
         audio_video_tensor = self.preprocess(video_audio_path, va=True)
         output = mm_infer(
             audio_video_tensor,

     def run_step0(self, video_path, modal_type='v'):
         question = f"Generate high-quality audio from video step-by-step."
+        # if modal_type == "a":
+        #     self.model.model.vision_tower = None
+        # elif modal_type == "v":
+        #     self.model.model.audio_tower = None
+        # elif modal_type == "av":
+        #     pass
+        # else:
+        #     raise NotImplementedError
         self.log.info("######################################################################################################")
         self.log.info("Generate high-quality audio from video step-by-step...")
     def run_step2(self, video_audio_path, modal_type='av'):
         question = f"Given a video and its corresponding audio, determine whether the audio contains voice-over? Options: A. Yes, B. No. Choose A or B."
+        # if modal_type == "a":
+        #     self.model.model.vision_tower = None
+        # elif modal_type == "v":
+        #     self.model.model.audio_tower = None
+        # elif modal_type == "av":
+        #     pass
+        # else:
+        #     raise NotImplementedError
         audio_video_tensor = self.preprocess(video_audio_path, va=True)
         output = mm_infer(
             audio_video_tensor,