tts-hallo-talking-portrait

Running on A10G

fffiloni commited on Jun 26

Commit

5b8134f

•

1 Parent(s): e8b9548

codecs

Files changed (1) hide show

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ from gradio_client import Client, handle_file
 from mutagen.mp3 import MP3
 from pydub import AudioSegment
 from PIL import Image
 os.chdir(os.path.dirname(os.path.abspath(__file__)))
 from scripts.inference import inference_process
 import argparse
@@ -97,6 +98,19 @@ def check_and_convert_webp_to_png(input_path, output_path):
 def clear_audio_elms():
     return gr.update(value=None, visible=False)
 #######################################################
 # Gradio APIs for optional image and voice generation #
 #######################################################
@@ -210,8 +224,13 @@ def generate_talking_portrait(portrait, voice, progress=gr.Progress(track_tqdm=T
     # Call hallo
     talking_portrait_vid = run_hallo(portrait, ready_audio)
-    return talking_portrait_vid
 css = '''

 from mutagen.mp3 import MP3
 from pydub import AudioSegment
 from PIL import Image
+import ffmpeg
 os.chdir(os.path.dirname(os.path.abspath(__file__)))
 from scripts.inference import inference_process
 import argparse
 def clear_audio_elms():
     return gr.update(value=None, visible=False)
+def change_video_codec(input_file, output_file, codec='libx264', audio_codec='aac'):
+    try:
+        (
+            ffmpeg
+            .input(input_file)
+            .output(output_file, vcodec=codec, acodec=audio_codec)
+            .run(overwrite_output=True)
+        )
+        print(f'Successfully changed codec of {input_file} and saved as {output_file}')
+    except ffmpeg.Error as e:
+        print(f'Error occurred: {e.stderr.decode()}')
 #######################################################
 # Gradio APIs for optional image and voice generation #
 #######################################################
     # Call hallo
     talking_portrait_vid = run_hallo(portrait, ready_audio)
+    # Convert video to readable format
+    final_output_file = f"converted_{talking_portrait_vid}"
+    change_video_codec(talking_portrait_vid, output_file)
+    return final_output_file
 css = '''