Spaces:

shukdevdatta123
/

GPT-4.5-Multimodal-Chatbot

Running

App Files Files Community

shukdevdatta123 commited on Mar 15

Commit

f386ba9

verified ·

1 Parent(s): da6faec

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -20

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import gradio as gr
 import openai
 import fitz  # PyMuPDF for PDF processing
 import base64
-import soundfile as sf
 import io
 # Variable to store API key
@@ -95,28 +94,27 @@ def pdf_chat(pdf_file, text_query, temperature, top_p, max_output_tokens):
     ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
-# Function to process uploaded audio and transcribe to text
-def transcribe_audio(audio_file):
-    if audio_file is None:
-        return "Please upload an audio file."
     try:
-        # Load the audio file
-        audio_data, samplerate = sf.read(io.BytesIO(audio_file))
-        audio_buffer = io.BytesIO()
-        sf.write(audio_buffer, audio_data, samplerate, format='WAV')
-        audio_buffer.seek(0)
-        # Transcribe the audio using OpenAI's Whisper API
-        transcript = openai.Audio.transcribe(
-            model="whisper-1",
-            file=audio_buffer
-        )
-        return transcript["text"]
     except Exception as e:
-        return f"Error in transcription: {str(e)}"
 # Function to clear the chat (Fix: Returns the correct number of outputs)
 def clear_chat():
@@ -184,7 +182,14 @@ with gr.Blocks() as demo:
     text_button.click(text_chat, [text_query, temperature, top_p, max_output_tokens], text_output)
     image_button.click(image_chat, [image_upload, image_text_query, temperature, top_p, max_output_tokens], image_output)
     pdf_button.click(pdf_chat, [pdf_upload, pdf_text_query, temperature, top_p, max_output_tokens], pdf_output)
-    audio_button.click(lambda audio, query, temperature, top_p, max_output_tokens: query_openai([{"role": "user", "content": [{"type": "text", "text": transcribe_audio(audio)}, {"type": "text", "text": query}]}], temperature, top_p, max_output_tokens), [audio_upload, audio_query, temperature, top_p, max_output_tokens], audio_output)
     # Fix: Clear button resets all necessary fields correctly
     clear_button.click(

 import openai
 import fitz  # PyMuPDF for PDF processing
 import base64
 import io
 # Variable to store API key
     ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
+# Function to transcribe audio to text using OpenAI Whisper API
+def transcribe_audio(audio, openai_api_key):
+    if not openai_api_key:
+        return "Error: No API key provided."
+    openai.api_key = openai_api_key
     try:
+        # Open the audio file and pass it as a file object
+        with open(audio, 'rb') as audio_file:
+            audio_file_content = audio_file.read()
+        # Use the correct transcription API call
+        audio_file_obj = io.BytesIO(audio_file_content)
+        audio_file_obj.name = 'audio.wav'  # Set a name for the file object (as OpenAI expects it)
+        # Transcribe the audio to text using OpenAI's whisper model
+        audio_file_transcription = openai.Audio.transcribe(file=audio_file_obj, model="whisper-1")
+        return audio_file_transcription.text
     except Exception as e:
+        return f"Error transcribing audio: {str(e)}"
 # Function to clear the chat (Fix: Returns the correct number of outputs)
 def clear_chat():
     text_button.click(text_chat, [text_query, temperature, top_p, max_output_tokens], text_output)
     image_button.click(image_chat, [image_upload, image_text_query, temperature, top_p, max_output_tokens], image_output)
     pdf_button.click(pdf_chat, [pdf_upload, pdf_text_query, temperature, top_p, max_output_tokens], pdf_output)
+    # For Voice Chat
+    audio_button.click(
+        lambda audio, query, temperature, top_p, max_output_tokens: query_openai(
+            [{"role": "user", "content": [{"type": "text", "text": transcribe_audio(audio.name, api_key)}, {"type": "text", "text": query}]}],
+            temperature, top_p, max_output_tokens
+        ), [audio_upload, audio_query, temperature, top_p, max_output_tokens], audio_output
+    )
     # Fix: Clear button resets all necessary fields correctly
     clear_button.click(