Spaces:

leeoxiang
/

video-translation

Runtime error

App Files Files Community

leolxliu commited on Nov 5, 2023

Commit

66a8f87

1 Parent(s): 8e03bc7

add queue

Browse files

Files changed (1) hide show

app.py +50 -53

app.py CHANGED Viewed

@@ -15,7 +15,7 @@ import gradio as gr
 from elevenlabs import clone, generate, get_api_key, set_api_key
-css="""
 #col-container{
     margin: 0 auto;
     max-width: 840px;
@@ -34,8 +34,7 @@ openai.api_version = "2023-05-15"
 openai.log = "debug"
-#*************************#
 # 1. Resize the video     #
 # 2. Extract the audio    #
 # 3. Translate the text from audio #
@@ -44,9 +43,8 @@ openai.log = "debug"
 # 6. Wave2lip  #
 start = time.perf_counter()
-model = whisper.load_model("base",download_root='./checkpoints')
 end = time.perf_counter()
 print('whisper load model time: ', end - start)
@@ -56,29 +54,27 @@ set_api_key('05a491535c6526e1fc9fc8e195f2fe25')
 print('elevenlab api key', get_api_key())
 language_mapping = {
-'English':'英语',
-'Spanish':'西班牙语',
-'French': '法语',
-'German': '德语',
-'Italian': '意大利语',
-'Portuguese': '葡萄牙语',
-'Polish': '波兰语',
-'Turkish': '土耳其语',
-'Russian': '俄语',
-'Dutch': '荷兰语',
-'Czech': '捷克语',
-'Arabic': '阿拉伯语',
-'Chinese': '中文普通话'
 }
 def resize_video(video_source):
     return video_source
 def extract_audio(video_source, output_dir='./'):
     output_audio = os.path.join(output_dir, 'output_orignal_audio.wav')
@@ -91,60 +87,58 @@ def extract_audio(video_source, output_dir='./'):
     print('ffmpeg command: ', ff.cmd)
     ff.run()
-    return output_audio
 def clone_audio(audio_file, audio_text):
     voice = clone(
         name=uuid.uuid4().hex,
-        description="", # Optional
         files=[audio_file])
     print('voice: ', voice)
-    audio = generate(text=audio_text, voice=voice, model='eleven_multilingual_v2')
     return audio
-# todo
 def translate_text(text, target_language):
     target_language_name = language_mapping[target_language]
     chat_completion = openai.ChatCompletion.create(
-                            engine="gpt-4",
-                            temperature=0.1,
-                            max_tokens=2048,
-                            messages=[
-                                {"role":"system", "content": default_prompt.replace('{{target_lang}}', target_language_name)},
-                                {"role": "user", "content": text}])
     # print the completion
     print(chat_completion.choices[0].message.content)
     translated_text = chat_completion.choices[0].message.content
     return translated_text
 def infer(video_source, target_language):
     print('video_source: ', video_source)
-    # check the video format
     # Create a temporary directory to store the output file
     output_dir = tempfile.mkdtemp()
     output_video_file = os.path.join(output_dir, 'output_video.mp4')
     print("Output file: ", output_video_file)
     output_audio = extract_audio(video_source, output_dir=output_dir)
     result = model.transcribe(output_audio)
     whisper_text = result["text"]
     whisper_language = result['language']
@@ -154,12 +148,12 @@ def infer(video_source, target_language):
     target_language_code = language_mapping[target_language]
     print("Target language code: ", target_language_code)
-    translated_text =  translate_text(whisper_text, target_language)
     print("Translated text: ", translated_text)
-    # 声音 clone &&  合成
     audio = clone_audio(output_audio, translated_text)
     audio_file = os.path.join(output_dir, 'output_clone_audio.wav')
@@ -174,7 +168,7 @@ def infer(video_source, target_language):
     subprocess.run(wav2lip, shell=True, stdout=subprocess.PIPE)
     print("Video conversion successful.")
     return output_video_file
@@ -191,8 +185,10 @@ with gr.Blocks(css=css) as demo:
         with gr.Row():
             with gr.Column():
-                video_source = gr.Video(label="Source Video", show_label=True,interactive=True)
-                target_language = gr.Dropdown(choices=["English", "Spanish", "French", "German", "Italian", "Portuguese", "Polish", "Turkish", "Russian", "Dutch", "Czech", "Arabic", "Chinese"], label="Target language", info="Target language!",value="English")
                 submit_btn = gr.Button(value="Submit")
@@ -201,10 +197,11 @@ with gr.Blocks(css=css) as demo:
         with gr.Row():
             gr.Examples(
-                  label="Video Examples",
-                  examples=['dictator.mp4'],
-                  inputs=[video_source]
-                )
-    submit_btn.click(infer, inputs=[video_source,target_language], outputs=result)
-demo.launch()

 from elevenlabs import clone, generate, get_api_key, set_api_key
+css = """
 #col-container{
     margin: 0 auto;
     max-width: 840px;
 openai.log = "debug"
+# *************************#
 # 1. Resize the video     #
 # 2. Extract the audio    #
 # 3. Translate the text from audio #
 # 6. Wave2lip  #
 start = time.perf_counter()
+model = whisper.load_model("base", download_root='./checkpoints')
 end = time.perf_counter()
 print('whisper load model time: ', end - start)
 print('elevenlab api key', get_api_key())
 language_mapping = {
+    'English': '英语',
+    'Spanish': '西班牙语',
+    'French': '法语',
+    'German': '德语',
+    'Italian': '意大利语',
+    'Portuguese': '葡萄牙语',
+    'Polish': '波兰语',
+    'Turkish': '土耳其语',
+    'Russian': '俄语',
+    'Dutch': '荷兰语',
+    'Czech': '捷克语',
+    'Arabic': '阿拉伯语',
+    'Chinese': '中文普通话'
 }
 def resize_video(video_source):
     return video_source
 def extract_audio(video_source, output_dir='./'):
     output_audio = os.path.join(output_dir, 'output_orignal_audio.wav')
     print('ffmpeg command: ', ff.cmd)
     ff.run()
+    return output_audio
 def clone_audio(audio_file, audio_text):
     voice = clone(
         name=uuid.uuid4().hex,
+        description="",  # Optional
         files=[audio_file])
     print('voice: ', voice)
+    audio = generate(text=audio_text, voice=voice,
+                     model='eleven_multilingual_v2')
     return audio
+# todo
 def translate_text(text, target_language):
     target_language_name = language_mapping[target_language]
     chat_completion = openai.ChatCompletion.create(
+        engine="gpt-4",
+        temperature=0.1,
+        max_tokens=2048,
+        messages=[
+            {"role": "system", "content": default_prompt.replace(
+                '{{target_lang}}', target_language_name)},
+            {"role": "user", "content": text}])
     # print the completion
     print(chat_completion.choices[0].message.content)
     translated_text = chat_completion.choices[0].message.content
     return translated_text
 def infer(video_source, target_language):
     print('video_source: ', video_source)
+    # check the video format
     # Create a temporary directory to store the output file
     output_dir = tempfile.mkdtemp()
     output_video_file = os.path.join(output_dir, 'output_video.mp4')
     print("Output file: ", output_video_file)
     output_audio = extract_audio(video_source, output_dir=output_dir)
     result = model.transcribe(output_audio)
     whisper_text = result["text"]
     whisper_language = result['language']
     target_language_code = language_mapping[target_language]
     print("Target language code: ", target_language_code)
+    translated_text = translate_text(whisper_text, target_language)
     print("Translated text: ", translated_text)
+    # 声音 clone &&  合成
     audio = clone_audio(output_audio, translated_text)
     audio_file = os.path.join(output_dir, 'output_clone_audio.wav')
     subprocess.run(wav2lip, shell=True, stdout=subprocess.PIPE)
     print("Video conversion successful.")
     return output_video_file
         with gr.Row():
             with gr.Column():
+                video_source = gr.Video(
+                    label="Source Video", show_label=True, interactive=True)
+                target_language = gr.Dropdown(choices=["English", "Spanish", "French", "German", "Italian", "Portuguese", "Polish", "Turkish",
+                                              "Russian", "Dutch", "Czech", "Arabic", "Chinese"], label="Target language", info="Target language!", value="English")
                 submit_btn = gr.Button(value="Submit")
         with gr.Row():
             gr.Examples(
+                label="Video Examples",
+                examples=['dictator.mp4'],
+                inputs=[video_source]
+            )
+    submit_btn.click(
+        infer, inputs=[video_source, target_language], outputs=result)
+demo.queue(5).launch()