Spaces:

GeminiAi
/

texttovidep

Running

App Files Files Community

GeminiAi commited on Jan 19

Commit

af6bbb8

verified ·

1 Parent(s): 1e1c13b

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -23

app.py CHANGED Viewed

@@ -1,23 +1,12 @@
 import gradio as gr
 import torch
 from diffusers import StableDiffusionPipeline
-from moviepy.editor import ImageSequenceClip
 import numpy as np
 from transformers.utils import move_cache
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
-import os
-import subprocess
-# Ensure moviepy is installed
-try:
-    from moviepy.editor import ImageSequenceClip
-except ModuleNotFoundError:
-    print("MoviePy not found. Installing...")
-    subprocess.check_call(["pip", "install", "moviepy"])
-    from moviepy.editor import ImageSequenceClip
-# Handle Transformers cache migration (one-time operation)
 move_cache()
 # Initialize the Stable Diffusion pipeline
@@ -25,19 +14,19 @@ model_id = "CompVis/stable-diffusion-v1-4"
 pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
 pipe = pipe.to("cuda")
-# Load a text summarization model for better prompts
 summarizer_model = "facebook/bart-large-cnn"
 tokenizer = AutoTokenizer.from_pretrained(summarizer_model)
 summarizer = AutoModelForSeq2SeqLM.from_pretrained(summarizer_model)
-# Function to create video from text
 def text_to_video(input_text, num_frames=10, fps=2):
-    # Summarize the input text for better image prompts
     inputs = tokenizer(input_text, return_tensors="pt", truncation=True)
     summary_ids = summarizer.generate(inputs["input_ids"], max_length=30, min_length=5, length_penalty=2.0)
     prompt = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
-    # Generate frames using the Stable Diffusion pipeline
     frames = []
     for i in range(num_frames):
         prompt_with_frame = f"{prompt}, frame {i+1}"
@@ -45,17 +34,21 @@ def text_to_video(input_text, num_frames=10, fps=2):
         frames.append(np.array(image))
     # Save frames as a video
-    video_path = "output.mp4"
-    clip = ImageSequenceClip(frames, fps=fps)
-    clip.write_videofile(video_path, codec="libx264")
     return video_path
-# Gradio interface to handle user input and output
 def generate_video(text, frames, fps):
     video_file = text_to_video(text, num_frames=frames, fps=fps)
     return video_file
-# Define the Gradio interface
 interface = gr.Interface(
     fn=generate_video,
     inputs=[
@@ -68,6 +61,5 @@ interface = gr.Interface(
     description="Enter a text prompt to generate a short video."
 )
-# Launch the app
 if __name__ == "__main__":
     interface.launch()

+import cv2
 import gradio as gr
 import torch
 from diffusers import StableDiffusionPipeline
 import numpy as np
 from transformers.utils import move_cache
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+# Handle Transformers cache migration
 move_cache()
 # Initialize the Stable Diffusion pipeline
 pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
 pipe = pipe.to("cuda")
+# Load text summarizer
 summarizer_model = "facebook/bart-large-cnn"
 tokenizer = AutoTokenizer.from_pretrained(summarizer_model)
 summarizer = AutoModelForSeq2SeqLM.from_pretrained(summarizer_model)
+# Create video from images using `OpenCV`
 def text_to_video(input_text, num_frames=10, fps=2):
+    # Summarize the input text
     inputs = tokenizer(input_text, return_tensors="pt", truncation=True)
     summary_ids = summarizer.generate(inputs["input_ids"], max_length=30, min_length=5, length_penalty=2.0)
     prompt = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
+    # Generate frames
     frames = []
     for i in range(num_frames):
         prompt_with_frame = f"{prompt}, frame {i+1}"
         frames.append(np.array(image))
     # Save frames as a video
+    height, width, layers = frames[0].shape
+    video_path = "output.avi"
+    out = cv2.VideoWriter(video_path, cv2.VideoWriter_fourcc(*'XVID'), fps, (width, height))
+    for frame in frames:
+        out.write(cv2.cvtColor(frame, cv2.COLOR_RGB2BGR))
+    out.release()
     return video_path
+# Gradio interface
 def generate_video(text, frames, fps):
     video_file = text_to_video(text, num_frames=frames, fps=fps)
     return video_file
 interface = gr.Interface(
     fn=generate_video,
     inputs=[
     description="Enter a text prompt to generate a short video."
 )
 if __name__ == "__main__":
     interface.launch()