Spaces:

Kishorekumar7
/

Voice_to_Text_and_Image

Sleeping

File size: 2,939 Bytes

b0b5043
 
4a997af
b0b5043
 
 
 
 
 
 
4a997af
b0b5043
 
4a997af
b0b5043
4a997af
b0b5043
4a997af
 
 
 
 
b0b5043
4a997af
 
 
b0b5043
4a997af
b0b5043
4a997af
b0b5043
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4a997af
b0b5043
4a997af
 
b0b5043
4a997af

import os
import torch
import streamlit as st
from groq import Groq
from diffusers import AutoPipelineForText2Image

# Load API keys
GROQ_API_KEY = os.getenv("GROQ_API_KEY")
HF_API_KEY = os.getenv("HF_API_KEY")

# Initialize Groq client with API key
client = Groq(api_key=GROQ_API_KEY)

# Select device (GPU if available, else CPU)
device = "cuda" if torch.cuda.is_available() else "cpu"
st.write(f"Using device: {device}")  # Display device info

# Load lightweight Hugging Face image generation model
image_gen = AutoPipelineForText2Image.from_pretrained(
    "stabilityai/sdxl-turbo", use_auth_token=HF_API_KEY
)
image_gen.to(device)

# Function to transcribe Tamil audio using Groq's Whisper
def transcribe(audio_file):
    with open(audio_file, "rb") as file:
        transcription = client.audio.transcriptions.create(
            file=(audio_file, file.read()),
            model="whisper-large-v3",
            language="ta",  # Tamil
            response_format="verbose_json"
        )
    return transcription["text"]

# Function to translate Tamil to English using Groq's Gemma
def translate_text(tamil_text):
    response = client.chat.completions.create(
        model="gemma-7b-it",
        messages=[{"role": "user", "content": f"Translate this Tamil text to English: {tamil_text}"}]
    )
    return response.choices[0].message.content

# Function to generate text using Groq's DeepSeek R1
def generate_text(prompt):
    response = client.chat.completions.create(
        model="deepseek-coder-r1-7b",
        messages=[{"role": "user", "content": f"Write a short story about: {prompt}"}]
    )
    return response.choices[0].message.content

# Function to generate an image
def generate_image(prompt):
    img = image_gen(prompt=prompt).images[0]
    return img

# Streamlit UI
st.title("Tamil Speech to Image & Story Generator")

# File uploader for audio
uploaded_audio = st.file_uploader("Upload your Tamil speech", type=["wav", "mp3", "m4a"])

if uploaded_audio is not None:
    st.audio(uploaded_audio, format="audio/wav")
    
    if st.button("Generate"):
        with st.spinner("Transcribing..."):
            tamil_text = transcribe(uploaded_audio)
            st.success("Transcription complete!")
            st.text_area("Tamil Text Output", tamil_text)
        
        with st.spinner("Translating to English..."):
            english_text = translate_text(tamil_text)
            st.success("Translation complete!")
            st.text_area("Translated English Text", english_text)
        
        with st.spinner("Generating story..."):
            story = generate_text(english_text)
            st.success("Story generation complete!")
            st.text_area("Generated Story", story)
        
        with st.spinner("Generating image..."):
            image = generate_image(english_text)
            st.success("Image generation complete!")
            st.image(image, caption="Generated Image")