Spaces:

AVISHKAARAM
/

avishkarak-ekta-audio

Sleeping

App Files Files Community

techysanoj commited on Dec 6, 2024

Commit

36fdb50

verified ·

1 Parent(s): 6daa386

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -74

app.py CHANGED Viewed

@@ -1,96 +1,33 @@
-# import torchaudio
-# import gradio as gr
-# from transformers import pipeline
-# from gtts import gTTS
-# import tempfile
-# import pygame
-# import time
-# # Initialize the speech-to-text transcriber
-# transcriber = pipeline("automatic-speech-recognition", model="jonatasgrosman/wav2vec2-large-xlsr-53-english")
-# # Load the pre-trained question answering model
-# model_name = "AVISHKAARAM/avishkaarak-ekta-hindi"
-# qa_model = pipeline("question-answering", model=model_name)
-# def answer_question(context, question=None, audio=None):
-#     if audio is not None:
-#         text = transcriber(audio)
-#         question_text = text['text']
-#     else:
-#         question_text = question
-#     qa_result = qa_model(question=question_text, context=context)
-#     answer = qa_result["answer"]
-#     tts = gTTS(text=answer, lang='en')
-#     audio_path = tempfile.NamedTemporaryFile(suffix=".mp3").name
-#     tts.save(audio_path)
-#     return answer, audio_path
-# def play_audio(audio_path):
-#     pygame.mixer.init()
-#     pygame.mixer.music.load(audio_path)
-#     pygame.mixer.music.play()
-#     while pygame.mixer.music.get_busy():
-#         time.sleep(0.1)
-# # Define the Gradio interface
-# context_input = gr.components.Textbox(label="Context")
-# question_input = gr.components.Textbox(label="Question")
-# audio_input = gr.components.Audio(source="microphone", type="filepath")
-# output_text = gr.components.Textbox(label="Answer")
-# output_audio = gr.components.Audio(label="Answer Audio", type="numpy")
-# inter = gr.Interface(
-#     fn=answer_question,
-#     inputs=[context_input, question_input, audio_input],
-#     outputs=[output_text, output_audio],
-#     title="Question Answering",
-#     description="Enter a context and a question to get an answer. You can also upload an audio file with the question.",
-#     examples=[
-#         ["The capital of France is Paris.", "What is the capital of France?"],
-#         ["OpenAI is famous for developing GPT-3.", "What is OpenAI known for?"],
-#     ]
-# )
-# inter.launch()
-import torchaudio
 import gradio as gr
 from transformers import pipeline
-import pyttsx3
 import tempfile
-import time
 # Initialize the speech-to-text transcriber
 transcriber = pipeline("automatic-speech-recognition", model="jonatasgrosman/wav2vec2-large-xlsr-53-english")
-# Load the pre-trained question-answering model
 model_name = "AVISHKAARAM/avishkaarak-ekta-hindi"
 qa_model = pipeline("question-answering", model=model_name)
-# Initialize pyttsx3 TTS
-engine = pyttsx3.init()
 def answer_question(context, question=None, audio=None):
     # Handle audio input
     if audio is not None:
-        text = transcriber(audio)["text"]
-        question_text = text
     else:
         question_text = question
-    # Generate the answer
     qa_result = qa_model(question=question_text, context=context)
     answer = qa_result["answer"]
-    # Convert answer to speech
     audio_path = tempfile.NamedTemporaryFile(suffix=".mp3", delete=False).name
-    engine.save_to_file(answer, audio_path)
-    engine.runAndWait()
     return answer, audio_path
@@ -116,4 +53,3 @@ inter = gr.Interface(
 # Launch the Gradio interface
 inter.launch()

 import gradio as gr
 from transformers import pipeline
+from gtts import gTTS
 import tempfile
 # Initialize the speech-to-text transcriber
+from transformers import pipeline
 transcriber = pipeline("automatic-speech-recognition", model="jonatasgrosman/wav2vec2-large-xlsr-53-english")
+# Initialize the pre-trained question-answering model
 model_name = "AVISHKAARAM/avishkaarak-ekta-hindi"
 qa_model = pipeline("question-answering", model=model_name)
 def answer_question(context, question=None, audio=None):
     # Handle audio input
     if audio is not None:
+        # Convert audio to text using transcriber
+        transcription_result = transcriber(audio)["text"]
+        question_text = transcription_result
     else:
         question_text = question
+    # Generate the answer using the QA model
     qa_result = qa_model(question=question_text, context=context)
     answer = qa_result["answer"]
+    # Convert the answer to speech using gTTS
+    tts = gTTS(text=answer, lang='en')
     audio_path = tempfile.NamedTemporaryFile(suffix=".mp3", delete=False).name
+    tts.save(audio_path)
     return answer, audio_path
 # Launch the Gradio interface
 inter.launch()