Spaces:

fffiloni
/

gpt-talking-portrait

Paused

fffiloni commited on Jan 25, 2023

Commit

9166220

1 Parent(s): 8562ba3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import gradio as gr
 #import requests
 from PIL import Image
 import os
 token = os.environ.get('HF_TOKEN')
@@ -7,16 +8,33 @@ whisper_to_gpt = gr.Blocks.load(name="spaces/fffiloni/whisper-to-chatGPT")
 tts = gr.Interface.load(name="spaces/Flux9665/IMS-Toucan")
 talking_face = gr.Blocks.load(name="spaces/fffiloni/one-shot-talking-face", api_key=token)
 def infer(audio):
     gpt_response = whisper_to_gpt(audio, "translate", fn_index=0)
     #print(gpt_response)
     audio_response = tts(gpt_response[1], "English Text", "English Accent", "English Speaker's Voice", fn_index=0)
     #image = Image.open(r"wise_woman_portrait.png")
     portrait_link = talking_face("wise_woman_portrait.png", audio_response, fn_index=0)
     #portrait_response = requests.get(portrait_link, headers={'Authorization': 'Bearer ' + token})
     #print(portrait_response.text)
-    return portrait_link
 title = """
     <div style="text-align: center; max-width: 500px; margin: 0 auto;">

 import gradio as gr
 #import requests
+from moviepy.editor import VideoFileClip
 from PIL import Image
 import os
 token = os.environ.get('HF_TOKEN')
 tts = gr.Interface.load(name="spaces/Flux9665/IMS-Toucan")
 talking_face = gr.Blocks.load(name="spaces/fffiloni/one-shot-talking-face", api_key=token)
+def apply_delay(video_path):
+    # Open the video file
+    video = VideoFileClip(video_path)
+    # Delay the audio by 1 ms
+    delayed_audio = video.audio.fx(afx.delay, 0.5)
+    # Overwrite the original audio with the delayed audio
+    video = video.set_audio(delayed_audio)
+    # Save the modified video
+    video.write_videofile("delayed_video.mp4")
+    return "delayed_video.mp4"
 def infer(audio):
     gpt_response = whisper_to_gpt(audio, "translate", fn_index=0)
     #print(gpt_response)
     audio_response = tts(gpt_response[1], "English Text", "English Accent", "English Speaker's Voice", fn_index=0)
     #image = Image.open(r"wise_woman_portrait.png")
     portrait_link = talking_face("wise_woman_portrait.png", audio_response, fn_index=0)
+    final_vid = apply_delay(portrait_link)
     #portrait_response = requests.get(portrait_link, headers={'Authorization': 'Bearer ' + token})
     #print(portrait_response.text)
+    return final_vid
 title = """
     <div style="text-align: center; max-width: 500px; margin: 0 auto;">