Spaces:

Kishorekumar7
/

Voice_to_Text_and_Image

Sleeping

App Files Files Community

Kishorekumar7 commited on Apr 2

Commit

4a997af

verified ·

1 Parent(s): 3a8f5e2

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -53

app.py CHANGED Viewed

@@ -1,44 +1,35 @@
 import os
-import streamlit as st
 import torch
-import tempfile
 from groq import Groq
 from diffusers import AutoPipelineForText2Image
-from io import BytesIO
 # Load API keys
 GROQ_API_KEY = os.getenv("GROQ_API_KEY")
 HF_API_KEY = os.getenv("HF_API_KEY")
-# Initialize Groq client
 client = Groq(api_key=GROQ_API_KEY)
-# Load image generation model
 device = "cuda" if torch.cuda.is_available() else "cpu"
-image_gen = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", use_auth_token=HF_API_KEY).to(device)
-# Function to transcribe Tamil audio using Groq's Whisper
-def transcribe(audio_bytes):
-    if not audio_bytes:
-        return "No audio provided."
-    # Save the audio file temporarily
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as temp_audio:
-        temp_audio.write(audio_bytes)
-        temp_audio_path = temp_audio.name
-    # Call Whisper API
-    with open(temp_audio_path, "rb") as file:
         transcription = client.audio.transcriptions.create(
-            file=file,
             model="whisper-large-v3",
-            language="ta",
             response_format="verbose_json"
         )
-    # Cleanup temp file
-    os.remove(temp_audio_path)
     return transcription["text"]
 # Function to translate Tamil to English using Groq's Gemma
@@ -63,35 +54,31 @@ def generate_image(prompt):
     return img
 # Streamlit UI
-st.title("🎤 Tamil Speech to Image & Story Generator")
-# Upload audio file
-audio_file = st.file_uploader("Upload a Tamil audio file", type=["wav", "mp3"])
-if st.button("Generate"):
-    if audio_file is not None:
-        # Read audio bytes
-        audio_bytes = audio_file.read()
-        # Process Steps
-        tamil_text = transcribe(audio_bytes)
-        english_text = translate_text(tamil_text)
-        story = generate_text(english_text)
-        image = generate_image(english_text)
-        # Display Outputs
-        st.subheader("📝 Transcribed Tamil Text")
-        st.write(tamil_text)
-        st.subheader("🔠 Translated English Text")
-        st.write(english_text)
-        st.subheader("📖 Generated Story")
-        st.write(story)
-        st.subheader("🖼️ Generated Image")
-        st.image(image, caption="Generated Image from Story")
-    else:
-        st.warning("⚠️ Please upload an audio file before generating.")

 import os
 import torch
+import streamlit as st
 from groq import Groq
 from diffusers import AutoPipelineForText2Image
 # Load API keys
 GROQ_API_KEY = os.getenv("GROQ_API_KEY")
 HF_API_KEY = os.getenv("HF_API_KEY")
+# Initialize Groq client with API key
 client = Groq(api_key=GROQ_API_KEY)
+# Select device (GPU if available, else CPU)
 device = "cuda" if torch.cuda.is_available() else "cpu"
+st.write(f"Using device: {device}")  # Display device info
+# Load lightweight Hugging Face image generation model
+image_gen = AutoPipelineForText2Image.from_pretrained(
+    "stabilityai/sdxl-turbo", use_auth_token=HF_API_KEY
+)
+image_gen.to(device)
+# Function to transcribe Tamil audio using Groq's Whisper
+def transcribe(audio_file):
+    with open(audio_file, "rb") as file:
         transcription = client.audio.transcriptions.create(
+            file=(audio_file, file.read()),
             model="whisper-large-v3",
+            language="ta",  # Tamil
             response_format="verbose_json"
         )
     return transcription["text"]
 # Function to translate Tamil to English using Groq's Gemma
     return img
 # Streamlit UI
+st.title("Tamil Speech to Image & Story Generator")
+# File uploader for audio
+uploaded_audio = st.file_uploader("Upload your Tamil speech", type=["wav", "mp3", "m4a"])
+if uploaded_audio is not None:
+    st.audio(uploaded_audio, format="audio/wav")
+    if st.button("Generate"):
+        with st.spinner("Transcribing..."):
+            tamil_text = transcribe(uploaded_audio)
+            st.success("Transcription complete!")
+            st.text_area("Tamil Text Output", tamil_text)
+        with st.spinner("Translating to English..."):
+            english_text = translate_text(tamil_text)
+            st.success("Translation complete!")
+            st.text_area("Translated English Text", english_text)
+        with st.spinner("Generating story..."):
+            story = generate_text(english_text)
+            st.success("Story generation complete!")
+            st.text_area("Generated Story", story)
+        with st.spinner("Generating image..."):
+            image = generate_image(english_text)
+            st.success("Image generation complete!")
+            st.image(image, caption="Generated Image")