Spaces:

apruvd
/

Realtime_Speech_to_Image_Generator

Runtime error

App Files Files Community

apruvd commited on Feb 24, 2023

Commit

c7880a2

1 Parent(s): 1be5702

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -43

app.py CHANGED Viewed

@@ -1,49 +1,41 @@
 import whisper
-model = whisper.load_model("base")
-model.device
 import gradio as gr
 from keybert import KeyBERT
 import random as r
 from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
 import torch
-model_id = 'prompthero/midjourney-v4-diffusion' #"stabilityai/stable-diffusion-2"
-# Use the Euler scheduler here instead
-scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
-pipe = StableDiffusionPipeline.from_pretrained(model_id , torch_dtype=torch.float16) #pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, revision="fp16", torch_dtype=torch.float16)
-pipe = pipe.to("cuda")
-# from IPython.display import Image
 from PIL import Image
 import time
 import matplotlib.pyplot as plt
 import numpy as np
 import PIL
-# import cv2
 def transcribe(audio,prompt_num,user_keywords):
-    # load audio and pad/trim it to fit 30 seconds
     audio1 = whisper.load_audio(audio)
     audio1 = whisper.pad_or_trim(audio1)
-    # make log-Mel spectrogram and move to the same device as the model
     mel = whisper.log_mel_spectrogram(audio1).to(model.device)
-    # detect the spoken language
     _, probs = model.detect_language(mel)
     print(f"Detected language: {max(probs, key=probs.get)}")
-    # decode the audio
     options = whisper.DecodingOptions()
     result = whisper.decode(model, mel, options)
     print(result.text)
-    # model = whisper.load_model("base")
     audio2 = whisper.load_audio(audio)
     final_result = model.transcribe(audio2)
     print(final_result["text"])
@@ -53,7 +45,6 @@ def transcribe(audio,prompt_num,user_keywords):
 def keywords(text,prompt_num,user_keywords):
-    # ub = UrlBuilder("demo.imgix.net")
     kw_model = KeyBERT()
     a = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 3), stop_words=None)
@@ -83,12 +74,8 @@ def keywords(text,prompt_num,user_keywords):
         my_list = user_keywords.split(',')
         print(my_list)
-        # for i in range(len(my_list)):
-        #   sentence.append(my_list[i])
-        # numb = 5
         for i in range(len(my_list)):
-          # print("keyword_pool",keyword_pool, len(keyword_pool))
           sentence.append("mdjrny-v4 style")
@@ -122,12 +109,11 @@ def keywords(text,prompt_num,user_keywords):
               sentence.append(r.choice(set_2))
               sentence.append(r.choice(set_3))
-          # Add Style Tail Prompt
           sentence.append(r.choice(style_prompts))
           print("sentence: ", sentence)
-          # Formatting Data as comma-delimited for Mid Journey
           myprompt = ', '.join(str(e) for e in sentence)
           sentence = []
           print("prompt: ",myprompt)
@@ -135,38 +121,25 @@ def keywords(text,prompt_num,user_keywords):
           count += 1
-    print("no. of prompts: ", len(generated_prompts))
-    print("generated prompts: ", generated_prompts)
     count = 0
     images = []
-    # np_images = []
-    while count != int(len(generated_prompts)):
       for i in generated_prompts:
         count += 1
-        print(i)
         image = pipe(i, height=768, width=768, guidance_scale = 10).images[0]
-        # image.save("/content/drive/MyDrive/ColabNotebooks/GeneratedImages/" + "sd_image_" +str(count)+ ".png")
         images.append(image)
-    # pick the image which is the smallest, and resize the others to match it (can be arbitrary image shape here)
     min_shape = sorted( [(np.sum(i.size), i.size ) for i in images])[0][1]
     imgs_comb = np.hstack([i.resize(min_shape) for i in images])
-    # save that beautiful picture
     imgs_comb = Image.fromarray( imgs_comb)
-    # imgs_comb.save("/content/drive/MyDrive/ColabNotebooks/GeneratedImages/" + "Combined.png")
-    # return imgs_comb #for combined image
     return images
 speech_text = gr.Interface(fn=transcribe, inputs=[gr.Audio(source="microphone", type="filepath"),gr.Number(placeholder = "Number of Images to be generated (int): "),gr.Textbox(placeholder = "Additional keywords (comma delimitied): ")], outputs=["text","number","text"], title = 'Speech to Image Generator', enable_queue=True)
 text_prompts = gr.Interface(fn=keywords, inputs=["text","number","text"], outputs=gr.Gallery(label="Generated images", show_label=False, elem_id="gallery").style(grid=[2], height="auto"), title = 'Speech to Image Generator', enable_queue=True)
-gr.Series(speech_text,text_prompts).launch(inline = False, share=True, enable_queue=True).queue()

 import whisper
 import gradio as gr
 from keybert import KeyBERT
 import random as r
 from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
 import torch
 from PIL import Image
 import time
 import matplotlib.pyplot as plt
 import numpy as np
 import PIL
+model = whisper.load_model("base")
+model.device
+model_id = 'prompthero/midjourney-v4-diffusion' #"stabilityai/stable-diffusion-2"
+scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
+pipe = StableDiffusionPipeline.from_pretrained(model_id , torch_dtype=torch.float16) #pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, revision="fp16", torch_dtype=torch.float16)
+pipe = pipe.to("cuda")
 def transcribe(audio,prompt_num,user_keywords):
     audio1 = whisper.load_audio(audio)
     audio1 = whisper.pad_or_trim(audio1)
     mel = whisper.log_mel_spectrogram(audio1).to(model.device)
     _, probs = model.detect_language(mel)
     print(f"Detected language: {max(probs, key=probs.get)}")
     options = whisper.DecodingOptions()
     result = whisper.decode(model, mel, options)
     print(result.text)
     audio2 = whisper.load_audio(audio)
     final_result = model.transcribe(audio2)
     print(final_result["text"])
 def keywords(text,prompt_num,user_keywords):
     kw_model = KeyBERT()
     a = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 3), stop_words=None)
         my_list = user_keywords.split(',')
         print(my_list)
         for i in range(len(my_list)):
           sentence.append("mdjrny-v4 style")
               sentence.append(r.choice(set_2))
               sentence.append(r.choice(set_3))
           sentence.append(r.choice(style_prompts))
           print("sentence: ", sentence)
           myprompt = ', '.join(str(e) for e in sentence)
           sentence = []
           print("prompt: ",myprompt)
           count += 1
     count = 0
     images = []
+    while count != int(len(generated_prompts)):
       for i in generated_prompts:
         count += 1
         image = pipe(i, height=768, width=768, guidance_scale = 10).images[0]
         images.append(image)
     min_shape = sorted( [(np.sum(i.size), i.size ) for i in images])[0][1]
     imgs_comb = np.hstack([i.resize(min_shape) for i in images])
     imgs_comb = Image.fromarray( imgs_comb)
     return images
 speech_text = gr.Interface(fn=transcribe, inputs=[gr.Audio(source="microphone", type="filepath"),gr.Number(placeholder = "Number of Images to be generated (int): "),gr.Textbox(placeholder = "Additional keywords (comma delimitied): ")], outputs=["text","number","text"], title = 'Speech to Image Generator', enable_queue=True)
 text_prompts = gr.Interface(fn=keywords, inputs=["text","number","text"], outputs=gr.Gallery(label="Generated images", show_label=False, elem_id="gallery").style(grid=[2], height="auto"), title = 'Speech to Image Generator', enable_queue=True)
+gr.Series(speech_text,text_prompts).launch(inline = False, enable_queue=True).queue()