Spaces:

shukdevdatta123
/

GPT-4.5-Multimodal-Chatbot

Running

App Files Files Community

shukdevdatta123 commited on Mar 22

Commit

a840067

verified ·

1 Parent(s): 7560c5f

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -21

app.py CHANGED Viewed

@@ -153,21 +153,12 @@ def process_recorded_audio(audio_path):
         return f"Error transcribing recorded audio: {str(e)}"
 # Function to process the voice chat queries
-def process_voice_query(transcription, query, temperature, top_p, max_output_tokens):
     if not transcription or transcription.startswith("Error") or transcription.startswith("Please"):
         return "Please ensure audio is transcribed successfully first."
-    if not query:
-        # If no specific query is provided, use the transcription as the query
-        messages = [{"role": "user", "content": [{"type": "text", "text": transcription}]}]
-    else:
-        # If a query about the transcription is provided
-        messages = [
-            {"role": "user", "content": [
-                {"type": "text", "text": f"Transcription: {transcription}"},
-                {"type": "text", "text": f"Query: {query}"}
-            ]}
-        ]
     return query_openai(messages, temperature, top_p, max_output_tokens)
@@ -191,11 +182,9 @@ def clear_chat():
         "",      # pdf_output (textbox)
         None,    # audio_upload (file)
         "",      # upload_transcription (textbox)
-        # "",      # upload_audio_query (textbox)
         "",      # upload_audio_output (textbox)
         None,    # audio_recorder (audio)
         "",      # record_transcription (textbox)
-        # "",      # record_audio_query (textbox)
         "",      # record_audio_output (textbox)
         1.0,     # temperature (slider)
         1.0,     # top_p (slider)
@@ -290,16 +279,14 @@ with gr.Blocks() as demo:
                     audio_upload = gr.File(label="Upload an Audio File", type="binary")
                     upload_transcribe_button = gr.Button("Transcribe Audio", elem_id="transcribe_button")
                     upload_transcription = gr.Textbox(label="Transcription", interactive=False)
-                    # upload_audio_query = gr.Textbox(label="Ask about the transcription (optional)")
                     upload_audio_output = gr.Textbox(label="Response", interactive=False)
                     upload_audio_button = gr.Button("Ask", elem_id="ask_button")
                 with gr.Tab("Record Audio"):
-                    # Record audio section - Fixed to use compatible parameters
                     audio_recorder = gr.Audio(label="Record your voice", type="filepath")
                     record_transcribe_button = gr.Button("Transcribe Recording", elem_id="transcribe_button")
                     record_transcription = gr.Textbox(label="Transcription", interactive=False)
-                    # record_audio_query = gr.Textbox(label="Ask about the transcription (optional)")
                     record_audio_output = gr.Textbox(label="Response", interactive=False)
                     record_audio_button = gr.Button("Ask", elem_id="ask_button")
@@ -320,9 +307,9 @@ with gr.Blocks() as demo:
         outputs=[upload_transcription]
     )
     upload_audio_button.click(
         process_voice_query,
-        # inputs=[upload_transcription, upload_audio_query, temperature, top_p, max_output_tokens],
         inputs=[upload_transcription, temperature, top_p, max_output_tokens],
         outputs=[upload_audio_output]
     )
@@ -334,9 +321,9 @@ with gr.Blocks() as demo:
         outputs=[record_transcription]
     )
     record_audio_button.click(
         process_voice_query,
-        # inputs=[record_transcription, record_audio_query, temperature, top_p, max_output_tokens],
         inputs=[record_transcription, temperature, top_p, max_output_tokens],
         outputs=[record_audio_output]
     )
@@ -349,9 +336,7 @@ with gr.Blocks() as demo:
             text_query, text_output,
             image_text_query, image_output,
             pdf_upload, pdf_text_query, pdf_output,
-            # audio_upload, upload_transcription, upload_audio_query, upload_audio_output,
             audio_upload, upload_transcription, upload_audio_output,
-            # audio_recorder, record_transcription, record_audio_query, record_audio_output,
             audio_recorder, record_transcription, record_audio_output,
             temperature, top_p, max_output_tokens
         ]

         return f"Error transcribing recorded audio: {str(e)}"
 # Function to process the voice chat queries
+def process_voice_query(transcription, temperature, top_p, max_output_tokens):
     if not transcription or transcription.startswith("Error") or transcription.startswith("Please"):
         return "Please ensure audio is transcribed successfully first."
+    # Use the transcription as the query
+    messages = [{"role": "user", "content": [{"type": "text", "text": transcription}]}]
     return query_openai(messages, temperature, top_p, max_output_tokens)
         "",      # pdf_output (textbox)
         None,    # audio_upload (file)
         "",      # upload_transcription (textbox)
         "",      # upload_audio_output (textbox)
         None,    # audio_recorder (audio)
         "",      # record_transcription (textbox)
         "",      # record_audio_output (textbox)
         1.0,     # temperature (slider)
         1.0,     # top_p (slider)
                     audio_upload = gr.File(label="Upload an Audio File", type="binary")
                     upload_transcribe_button = gr.Button("Transcribe Audio", elem_id="transcribe_button")
                     upload_transcription = gr.Textbox(label="Transcription", interactive=False)
                     upload_audio_output = gr.Textbox(label="Response", interactive=False)
                     upload_audio_button = gr.Button("Ask", elem_id="ask_button")
                 with gr.Tab("Record Audio"):
+                    # Record audio section
                     audio_recorder = gr.Audio(label="Record your voice", type="filepath")
                     record_transcribe_button = gr.Button("Transcribe Recording", elem_id="transcribe_button")
                     record_transcription = gr.Textbox(label="Transcription", interactive=False)
                     record_audio_output = gr.Textbox(label="Response", interactive=False)
                     record_audio_button = gr.Button("Ask", elem_id="ask_button")
         outputs=[upload_transcription]
     )
+    # FIXED: Properly order the inputs to process_voice_query
     upload_audio_button.click(
         process_voice_query,
         inputs=[upload_transcription, temperature, top_p, max_output_tokens],
         outputs=[upload_audio_output]
     )
         outputs=[record_transcription]
     )
+    # FIXED: Properly order the inputs to process_voice_query
     record_audio_button.click(
         process_voice_query,
         inputs=[record_transcription, temperature, top_p, max_output_tokens],
         outputs=[record_audio_output]
     )
             text_query, text_output,
             image_text_query, image_output,
             pdf_upload, pdf_text_query, pdf_output,
             audio_upload, upload_transcription, upload_audio_output,
             audio_recorder, record_transcription, record_audio_output,
             temperature, top_p, max_output_tokens
         ]