audio-to-video-generator

Running

App Files Files Community

wower99 commited on Jan 25

Commit

78b717c

1 Parent(s): 1cdc840

test commit: handling multiple video generations

Browse files

Files changed (1) hide show

app.py +83 -66

app.py CHANGED Viewed

@@ -1,33 +1,42 @@
 import streamlit as st
 from utils import get_translation, get_image_prompts, segments_to_chunks, generate_images, generate_video
 import constants
 from groq import Groq
 client = Groq()
 # Initialize state variables if not already set
-if 'transcript_visible' not in st.session_state:
-    st.session_state.transcript_visible = False
-if 'translation_visible' not in st.session_state:
-    st.session_state.translation_visible = False
-if 'uploaded_file_name' not in st.session_state:
-    st.session_state.uploaded_file_name = None
-if 'audio' not in st.session_state:
-    st.session_state.audio = None
-if 'was_converted' not in st.session_state:
-    st.session_state.was_converted = False
-if 'transcript' not in st.session_state:
-    st.session_state.transcript = None
-if 'translation' not in st.session_state:
-    st.session_state.translation = None
-if 'generated_video' not in st.session_state:
-    st.session_state.generated_video = None
-if 'image_prompts' not in st.session_state:
-    st.session_state.image_prompts = None
-if 'generated_images' not in st.session_state:
-    st.session_state.generated_images = None
-if 'video_generated' not in st.session_state:
-    st.session_state.video_generated = False
 # Streamlit UI
@@ -35,7 +44,10 @@ st.markdown(
     "<h1 style='text-align: center;'>AI Video Generator</h1>",
     unsafe_allow_html=True
 )
-st.info("Video Generation Feature - Functional But Can be Buggy")
 # Upload audio file
 audio_file = st.file_uploader("🔼 Upload your audio file:", type=constants.SUPPORTED_FORMATS)
@@ -45,15 +57,15 @@ print(audio_file,'is the upload')
 if audio_file:
     # Reset states only when a new file is uploaded
-    if st.session_state.uploaded_file_name != audio_file.name:
-        st.session_state.uploaded_file_name = audio_file.name
-        st.session_state.audio = audio_file
-        st.session_state.transcript = None
-        st.session_state.translation = None
-        st.session_state.image_prompts = None
-        st.session_state.generated_images = None  # Reset image generation state
-        st.session_state.generated_video = None  # Reset generated video state
-        st.session_state.video_generated = False  # Reset video generated flag
     st.info(f"Uploaded file: **{audio_file.name}**")
@@ -68,55 +80,55 @@ if audio_file:
         response_format="verbose_json",  # Return detailed JSON response
         temperature=0.0,  # Control randomness in the transcription output
     )
-    st.session_state.transcript = result.text
-    st.session_state.segments = result.segments
     # Translation logic
-    if st.session_state.transcript and st.session_state.translation is None:
         with st.spinner("Generating translation... Please wait."):
-            st.session_state.translation = get_translation(st.session_state.transcript)
-    st.audio(st.session_state.audio, format=f"audio/{audio_file.type}")
     # Toggle transcript visibility
-    toggle_transcript = st.checkbox("Show Transcript", value=st.session_state.transcript_visible, key="toggle_transcript")
-    st.session_state.transcript_visible = toggle_transcript
-    if st.session_state.transcript_visible:
         st.write("### Transcription:")
-        st.write(st.session_state.transcript)
     # Toggle translation visibility
-    toggle_translation = st.checkbox("Show Translation", value=st.session_state.translation_visible, key="toggle_translation")
-    st.session_state.translation_visible = toggle_translation
-    if st.session_state.translation_visible:
         st.write("### Translation:")
-        st.write(st.session_state.translation)
     # Image generation logic
-    if st.session_state.translation and st.session_state.image_prompts is None:
         with st.spinner("Generating image prompts... Please wait."):
-            if 'Already in English' in st.session_state.translation:
                 st.info("Audio is Already in English. Using Transcription to generate Image Prompts")
-                st.session_state.image_prompts = get_image_prompts(segments_to_chunks(st.session_state.segments))['image_prompts']
             else:
-                st.session_state.image_prompts = get_image_prompts(segments_to_chunks(st.session_state.segments))['image_prompts']
-    print(st.session_state.image_prompts)
     # Ensure that generated_images is always a list
-    if 'generated_images' not in st.session_state or st.session_state.generated_images is None:
-        st.session_state.generated_images = []
     # Generate images only if they have not been generated already
-    if st.session_state.image_prompts and not st.session_state.generated_images:
         progress_placeholder = st.empty()
         progress_bar = st.progress(0)
-        total_images = len(st.session_state.image_prompts)
         progress_placeholder.text(f"Generating images. Please be patient...")
-        for idx, (prompt, image_path) in enumerate(generate_images(st.session_state.image_prompts)):
-            st.session_state.generated_images.append((prompt, image_path))
             progress = (idx + 1) / total_images
             progress_bar.progress(progress)
             progress_placeholder.text(f"Generated image {idx + 1} of {total_images}: {prompt[:50]}...")
@@ -125,29 +137,34 @@ if audio_file:
         progress_bar.empty()
     # Generate video when all images are generated
-    if st.session_state.generated_images and st.session_state.audio and not st.session_state.video_generated:
         with st.spinner("Generating video... Please wait."):
             # Map images to segments
-            image_paths = [img[1] for img in st.session_state.generated_images]
             generated_video_path = generate_video(
-                audio_file=st.session_state.audio,
                 images=image_paths,
-                segments=st.session_state.segments
             )
-            st.session_state.generated_video = generated_video_path
-            st.session_state.video_generated = True  # Set the flag to True
             st.success("Video generated successfully!")
     # Display the generated video
-    if st.session_state.generated_video:
-        st.video(st.session_state.generated_video)
         # Add a download button for the generated video
-        with open(st.session_state.generated_video, "rb") as file:
             st.download_button(
                 label="Download Video",
                 data=file,
-                file_name="generated_video.mp4",
                 mime="video/mp4"
             )

 import streamlit as st
+import os
+import tempfile
+import uuid
 from utils import get_translation, get_image_prompts, segments_to_chunks, generate_images, generate_video
 import constants
 from groq import Groq
 client = Groq()
+# Generate a unique session ID for each user
+if 'session_id' not in st.session_state:
+    st.session_state.session_id = str(uuid.uuid4())
+session_id = st.session_state.session_id
 # Initialize state variables if not already set
+if f'transcript_visible_{session_id}' not in st.session_state:
+    st.session_state[f'transcript_visible_{session_id}'] = False
+if f'translation_visible_{session_id}' not in st.session_state:
+    st.session_state[f'translation_visible_{session_id}'] = False
+if f'uploaded_file_name_{session_id}' not in st.session_state:
+    st.session_state[f'uploaded_file_name_{session_id}'] = None
+if f'audio_{session_id}' not in st.session_state:
+    st.session_state[f'audio_{session_id}'] = None
+if f'was_converted_{session_id}' not in st.session_state:
+    st.session_state[f'was_converted_{session_id}'] = False
+if f'transcript_{session_id}' not in st.session_state:
+    st.session_state[f'transcript_{session_id}'] = None
+if f'translation_{session_id}' not in st.session_state:
+    st.session_state[f'translation_{session_id}'] = None
+if f'generated_video_{session_id}' not in st.session_state:
+    st.session_state[f'generated_video_{session_id}'] = None
+if f'image_prompts_{session_id}' not in st.session_state:
+    st.session_state[f'image_prompts_{session_id}'] = None
+if f'generated_images_{session_id}' not in st.session_state:
+    st.session_state[f'generated_images_{session_id}'] = None
+if f'video_generated_{session_id}' not in st.session_state:
+    st.session_state[f'video_generated_{session_id}'] = False
 # Streamlit UI
     "<h1 style='text-align: center;'>AI Video Generator</h1>",
     unsafe_allow_html=True
 )
+st.markdown("<p style='text-align: center;'>Leave a Like if it works for you! ❤️</p>", unsafe_allow_html=True)
+st.info("**Video Generation Feature** - Functional But Can be Buggy")
+# Encourage users to like the app
 # Upload audio file
 audio_file = st.file_uploader("🔼 Upload your audio file:", type=constants.SUPPORTED_FORMATS)
 if audio_file:
     # Reset states only when a new file is uploaded
+    if st.session_state[f'uploaded_file_name_{session_id}'] != audio_file.name:
+        st.session_state[f'uploaded_file_name_{session_id}'] = audio_file.name
+        st.session_state[f'audio_{session_id}'] = audio_file
+        st.session_state[f'transcript_{session_id}'] = None
+        st.session_state[f'translation_{session_id}'] = None
+        st.session_state[f'image_prompts_{session_id}'] = None
+        st.session_state[f'generated_images_{session_id}'] = None  # Reset image generation state
+        st.session_state[f'generated_video_{session_id}'] = None  # Reset generated video state
+        st.session_state[f'video_generated_{session_id}'] = False  # Reset video generated flag
     st.info(f"Uploaded file: **{audio_file.name}**")
         response_format="verbose_json",  # Return detailed JSON response
         temperature=0.0,  # Control randomness in the transcription output
     )
+    st.session_state[f'transcript_{session_id}'] = result.text
+    st.session_state[f'segments_{session_id}'] = result.segments
     # Translation logic
+    if st.session_state[f'transcript_{session_id}'] and st.session_state[f'translation_{session_id}'] is None:
         with st.spinner("Generating translation... Please wait."):
+            st.session_state[f'translation_{session_id}'] = get_translation(st.session_state[f'transcript_{session_id}'])
+    st.audio(st.session_state[f'audio_{session_id}'], format=f"audio/{audio_file.type}")
     # Toggle transcript visibility
+    toggle_transcript = st.checkbox("Show Transcript", value=st.session_state[f'transcript_visible_{session_id}'], key="toggle_transcript")
+    st.session_state[f'transcript_visible_{session_id}'] = toggle_transcript
+    if st.session_state[f'transcript_visible_{session_id}']:
         st.write("### Transcription:")
+        st.write(st.session_state[f'transcript_{session_id}'])
     # Toggle translation visibility
+    toggle_translation = st.checkbox("Show Translation", value=st.session_state[f'translation_visible_{session_id}'], key="toggle_translation")
+    st.session_state[f'translation_visible_{session_id}'] = toggle_translation
+    if st.session_state[f'translation_visible_{session_id}']:
         st.write("### Translation:")
+        st.write(st.session_state[f'translation_{session_id}'])
     # Image generation logic
+    if st.session_state[f'translation_{session_id}'] and st.session_state[f'image_prompts_{session_id}'] is None:
         with st.spinner("Generating image prompts... Please wait."):
+            if 'Already in English' in st.session_state[f'translation_{session_id}']:
                 st.info("Audio is Already in English. Using Transcription to generate Image Prompts")
+                st.session_state[f'image_prompts_{session_id}'] = get_image_prompts(segments_to_chunks(st.session_state[f'segments_{session_id}']))['image_prompts']
             else:
+                st.session_state[f'image_prompts_{session_id}'] = get_image_prompts(segments_to_chunks(st.session_state[f'segments_{session_id}']))['image_prompts']
+    print(st.session_state[f'image_prompts_{session_id}'])
     # Ensure that generated_images is always a list
+    if f'generated_images_{session_id}' not in st.session_state or st.session_state[f'generated_images_{session_id}'] is None:
+        st.session_state[f'generated_images_{session_id}'] = []
     # Generate images only if they have not been generated already
+    if st.session_state[f'image_prompts_{session_id}'] and not st.session_state[f'generated_images_{session_id}']:
         progress_placeholder = st.empty()
         progress_bar = st.progress(0)
+        total_images = len(st.session_state[f'image_prompts_{session_id}'])
         progress_placeholder.text(f"Generating images. Please be patient...")
+        for idx, (prompt, image_path) in enumerate(generate_images(st.session_state[f'image_prompts_{session_id}'])):
+            st.session_state[f'generated_images_{session_id}'].append((prompt, image_path))
             progress = (idx + 1) / total_images
             progress_bar.progress(progress)
             progress_placeholder.text(f"Generated image {idx + 1} of {total_images}: {prompt[:50]}...")
         progress_bar.empty()
     # Generate video when all images are generated
+    if st.session_state[f'generated_images_{session_id}'] and st.session_state[f'audio_{session_id}'] and not st.session_state[f'video_generated_{session_id}']:
         with st.spinner("Generating video... Please wait."):
+            # Create a temporary directory for the video
+            temp_dir = tempfile.gettempdir()
+            video_filename = f"generated_video_{session_id}.mp4"
+            video_path = os.path.join(temp_dir, video_filename)
             # Map images to segments
+            image_paths = [img[1] for img in st.session_state[f'generated_images_{session_id}']]
             generated_video_path = generate_video(
+                audio_file=st.session_state[f'audio_{session_id}'],
                 images=image_paths,
+                segments=st.session_state[f'segments_{session_id}']
             )
+            st.session_state[f'generated_video_{session_id}'] = generated_video_path
+            st.session_state[f'video_generated_{session_id}'] = True  # Set the flag to True
             st.success("Video generated successfully!")
     # Display the generated video
+    if st.session_state[f'generated_video_{session_id}']:
+        st.video(st.session_state[f'generated_video_{session_id}'])
         # Add a download button for the generated video
+        with open(st.session_state[f'generated_video_{session_id}'], "rb") as file:
             st.download_button(
                 label="Download Video",
                 data=file,
+                file_name=f"generated_video_{session_id}.mp4",
                 mime="video/mp4"
             )