Spaces:

shukdevdatta123
/

GPT-4.5-Multimodal-Chatbot

Running

App Files Files Community

shukdevdatta123 commited on Mar 22

Commit

4110b67

verified ·

1 Parent(s): da63961

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -10

app.py CHANGED Viewed

@@ -152,7 +152,16 @@ def process_recorded_audio(audio_path):
     except Exception as e:
         return f"Error transcribing recorded audio: {str(e)}"
-# Function to process the voice chat queries
 def process_voice_query(transcription, query, temperature, top_p, max_output_tokens):
     if not transcription or transcription.startswith("Error") or transcription.startswith("Please"):
         return "Please ensure audio is transcribed successfully first."
@@ -195,7 +204,6 @@ def clear_chat():
         "",      # upload_audio_output (textbox)
         None,    # audio_recorder (audio)
         "",      # record_transcription (textbox)
-        "",      # record_audio_query (textbox)
         "",      # record_audio_output (textbox)
         1.0,     # temperature (slider)
         1.0,     # top_p (slider)
@@ -278,6 +286,7 @@ with gr.Blocks() as demo:
         with gr.Tab("Voice Chat"):
             with gr.Tabs():
                 # with gr.Tab("Upload Audio"):
                 #     # Upload audio section
                 #     audio_upload = gr.File(label="Upload an Audio File", type="binary")
@@ -288,11 +297,11 @@ with gr.Blocks() as demo:
                 #     upload_audio_button = gr.Button("Ask", elem_id="ask_button")
                 with gr.Tab("Record Audio"):
-                    # Record audio section - Fixed to use compatible parameters
                     audio_recorder = gr.Audio(label="Record your voice", type="filepath")
                     record_transcribe_button = gr.Button("Transcribe Recording", elem_id="transcribe_button")
                     record_transcription = gr.Textbox(label="Transcription", interactive=False)
-                    # record_audio_query = gr.Textbox(label="Ask about the transcription (optional)")
                     record_audio_output = gr.Textbox(label="Response", interactive=False)
                     record_audio_button = gr.Button("Ask", elem_id="ask_button")
@@ -306,7 +315,7 @@ with gr.Blocks() as demo:
     image_button.click(image_chat, [image_upload, image_text_query, temperature, top_p, max_output_tokens], image_output)
     pdf_button.click(pdf_chat, [pdf_upload, pdf_text_query, temperature, top_p, max_output_tokens], pdf_output)
-    # Voice Chat - Upload Audio tab actions
     # upload_transcribe_button.click(
     #     process_uploaded_audio,
     #     inputs=[audio_upload],
@@ -326,14 +335,14 @@ with gr.Blocks() as demo:
         outputs=[record_transcription]
     )
     record_audio_button.click(
-        process_voice_query,
-        # Modified to use an empty string for the query parameter since we commented out the field
-        inputs=[record_transcription, "", temperature, top_p, max_output_tokens],
         outputs=[record_audio_output]
     )
-    # Clear button resets all necessary fields
     clear_button.click(
         clear_chat,
         outputs=[
@@ -342,7 +351,7 @@ with gr.Blocks() as demo:
             image_text_query, image_output,
             pdf_upload, pdf_text_query, pdf_output,
             audio_upload, upload_transcription, upload_audio_query, upload_audio_output,
-            audio_recorder, record_transcription, record_audio_query, record_audio_output,
             temperature, top_p, max_output_tokens
         ]
     )

     except Exception as e:
         return f"Error transcribing recorded audio: {str(e)}"
+# Modified to work without the query parameter
+def process_voice_query_direct(transcription, temperature, top_p, max_output_tokens):
+    if not transcription or transcription.startswith("Error") or transcription.startswith("Please"):
+        return "Please ensure audio is transcribed successfully first."
+    # Use the transcription directly as the query
+    messages = [{"role": "user", "content": [{"type": "text", "text": transcription}]}]
+    return query_openai(messages, temperature, top_p, max_output_tokens)
+# Function to process the voice chat queries (kept for compatibility)
 def process_voice_query(transcription, query, temperature, top_p, max_output_tokens):
     if not transcription or transcription.startswith("Error") or transcription.startswith("Please"):
         return "Please ensure audio is transcribed successfully first."
         "",      # upload_audio_output (textbox)
         None,    # audio_recorder (audio)
         "",      # record_transcription (textbox)
         "",      # record_audio_output (textbox)
         1.0,     # temperature (slider)
         1.0,     # top_p (slider)
         with gr.Tab("Voice Chat"):
             with gr.Tabs():
+                # We completely commented out the "Upload Audio" tab
                 # with gr.Tab("Upload Audio"):
                 #     # Upload audio section
                 #     audio_upload = gr.File(label="Upload an Audio File", type="binary")
                 #     upload_audio_button = gr.Button("Ask", elem_id="ask_button")
                 with gr.Tab("Record Audio"):
+                    # Record audio section
                     audio_recorder = gr.Audio(label="Record your voice", type="filepath")
                     record_transcribe_button = gr.Button("Transcribe Recording", elem_id="transcribe_button")
                     record_transcription = gr.Textbox(label="Transcription", interactive=False)
+                    # We removed the optional query field
                     record_audio_output = gr.Textbox(label="Response", interactive=False)
                     record_audio_button = gr.Button("Ask", elem_id="ask_button")
     image_button.click(image_chat, [image_upload, image_text_query, temperature, top_p, max_output_tokens], image_output)
     pdf_button.click(pdf_chat, [pdf_upload, pdf_text_query, temperature, top_p, max_output_tokens], pdf_output)
+    # Voice Chat - Upload Audio tab actions (commented out)
     # upload_transcribe_button.click(
     #     process_uploaded_audio,
     #     inputs=[audio_upload],
         outputs=[record_transcription]
     )
+    # Modified to use new function that doesn't require the query parameter
     record_audio_button.click(
+        process_voice_query_direct,
+        inputs=[record_transcription, temperature, top_p, max_output_tokens],
         outputs=[record_audio_output]
     )
+    # Clear button - modified to remove the record_audio_query reference
     clear_button.click(
         clear_chat,
         outputs=[
             image_text_query, image_output,
             pdf_upload, pdf_text_query, pdf_output,
             audio_upload, upload_transcription, upload_audio_query, upload_audio_output,
+            audio_recorder, record_transcription, record_audio_output,
             temperature, top_p, max_output_tokens
         ]
     )