Spaces:

shukdevdatta123
/

GPT-4.5-Multimodal-Chatbot

Running

App Files Files Community

shukdevdatta123 commited on Mar 22

Commit

3a0fb13

verified ·

1 Parent(s): 4110b67

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -38

app.py CHANGED Viewed

@@ -152,16 +152,7 @@ def process_recorded_audio(audio_path):
     except Exception as e:
         return f"Error transcribing recorded audio: {str(e)}"
-# Modified to work without the query parameter
-def process_voice_query_direct(transcription, temperature, top_p, max_output_tokens):
-    if not transcription or transcription.startswith("Error") or transcription.startswith("Please"):
-        return "Please ensure audio is transcribed successfully first."
-    # Use the transcription directly as the query
-    messages = [{"role": "user", "content": [{"type": "text", "text": transcription}]}]
-    return query_openai(messages, temperature, top_p, max_output_tokens)
-# Function to process the voice chat queries (kept for compatibility)
 def process_voice_query(transcription, query, temperature, top_p, max_output_tokens):
     if not transcription or transcription.startswith("Error") or transcription.startswith("Please"):
         return "Please ensure audio is transcribed successfully first."
@@ -204,6 +195,7 @@ def clear_chat():
         "",      # upload_audio_output (textbox)
         None,    # audio_recorder (audio)
         "",      # record_transcription (textbox)
         "",      # record_audio_output (textbox)
         1.0,     # temperature (slider)
         1.0,     # top_p (slider)
@@ -240,12 +232,19 @@ with gr.Blocks() as demo:
         #clear_chat_button:hover {
             background: linear-gradient(135deg, #c53030 0%, #e53e3e 100%); /* Slightly darker red gradient on hover */
         }
-        #ask_button, #transcribe_button {
             background: linear-gradient(135deg, #fbd38d 0%, #f6e05e 100%); /* Yellow gradient */
         }
-        #ask_button:hover, #transcribe_button:hover {
             background: linear-gradient(135deg, #ecc94b 0%, #fbd38d 100%); /* Slightly darker yellow gradient on hover */
         }
     </style>
     """)
@@ -286,22 +285,21 @@ with gr.Blocks() as demo:
         with gr.Tab("Voice Chat"):
             with gr.Tabs():
-                # We completely commented out the "Upload Audio" tab
-                # with gr.Tab("Upload Audio"):
-                #     # Upload audio section
-                #     audio_upload = gr.File(label="Upload an Audio File", type="binary")
-                #     upload_transcribe_button = gr.Button("Transcribe Audio", elem_id="transcribe_button")
-                #     upload_transcription = gr.Textbox(label="Transcription", interactive=False)
-                #     upload_audio_query = gr.Textbox(label="Ask about the transcription (optional)")
-                #     upload_audio_output = gr.Textbox(label="Response", interactive=False)
-                #     upload_audio_button = gr.Button("Ask", elem_id="ask_button")
                 with gr.Tab("Record Audio"):
-                    # Record audio section
                     audio_recorder = gr.Audio(label="Record your voice", type="filepath")
                     record_transcribe_button = gr.Button("Transcribe Recording", elem_id="transcribe_button")
                     record_transcription = gr.Textbox(label="Transcription", interactive=False)
-                    # We removed the optional query field
                     record_audio_output = gr.Textbox(label="Response", interactive=False)
                     record_audio_button = gr.Button("Ask", elem_id="ask_button")
@@ -315,18 +313,19 @@ with gr.Blocks() as demo:
     image_button.click(image_chat, [image_upload, image_text_query, temperature, top_p, max_output_tokens], image_output)
     pdf_button.click(pdf_chat, [pdf_upload, pdf_text_query, temperature, top_p, max_output_tokens], pdf_output)
-    # Voice Chat - Upload Audio tab actions (commented out)
-    # upload_transcribe_button.click(
-    #     process_uploaded_audio,
-    #     inputs=[audio_upload],
-    #     outputs=[upload_transcription]
-    # )
-    # upload_audio_button.click(
-    #     process_voice_query,
-    #     inputs=[upload_transcription, upload_audio_query, temperature, top_p, max_output_tokens],
-    #     outputs=[upload_audio_output]
-    # )
     # Voice Chat - Record Audio tab actions
     record_transcribe_button.click(
@@ -335,14 +334,14 @@ with gr.Blocks() as demo:
         outputs=[record_transcription]
     )
-    # Modified to use new function that doesn't require the query parameter
     record_audio_button.click(
-        process_voice_query_direct,
         inputs=[record_transcription, temperature, top_p, max_output_tokens],
         outputs=[record_audio_output]
     )
-    # Clear button - modified to remove the record_audio_query reference
     clear_button.click(
         clear_chat,
         outputs=[
@@ -351,7 +350,7 @@ with gr.Blocks() as demo:
             image_text_query, image_output,
             pdf_upload, pdf_text_query, pdf_output,
             audio_upload, upload_transcription, upload_audio_query, upload_audio_output,
-            audio_recorder, record_transcription, record_audio_output,
             temperature, top_p, max_output_tokens
         ]
     )

     except Exception as e:
         return f"Error transcribing recorded audio: {str(e)}"
+# Function to process the voice chat queries
 def process_voice_query(transcription, query, temperature, top_p, max_output_tokens):
     if not transcription or transcription.startswith("Error") or transcription.startswith("Please"):
         return "Please ensure audio is transcribed successfully first."
         "",      # upload_audio_output (textbox)
         None,    # audio_recorder (audio)
         "",      # record_transcription (textbox)
+        "",      # record_audio_query (textbox)
         "",      # record_audio_output (textbox)
         1.0,     # temperature (slider)
         1.0,     # top_p (slider)
         #clear_chat_button:hover {
             background: linear-gradient(135deg, #c53030 0%, #e53e3e 100%); /* Slightly darker red gradient on hover */
         }
+        #ask_button {
             background: linear-gradient(135deg, #fbd38d 0%, #f6e05e 100%); /* Yellow gradient */
         }
+        #ask_button:hover {
             background: linear-gradient(135deg, #ecc94b 0%, #fbd38d 100%); /* Slightly darker yellow gradient on hover */
         }
+        #transcribe_button {
+            background: linear-gradient(135deg, #68d391 0%, #48bb78 100%); /* Green gradient */
+        }
+        #transcribe_button:hover {
+            background: linear-gradient(135deg, #38a169 0%, #68d391 100%); /* Slightly darker green gradient on hover */
+        }
     </style>
     """)
         with gr.Tab("Voice Chat"):
             with gr.Tabs():
+                with gr.Tab("Upload Audio"):
+                    # Upload audio section
+                    audio_upload = gr.File(label="Upload an Audio File", type="binary")
+                    upload_transcribe_button = gr.Button("Transcribe Audio", elem_id="transcribe_button")
+                    upload_transcription = gr.Textbox(label="Transcription", interactive=False)
+                    # upload_audio_query = gr.Textbox(label="Ask about the transcription (optional)")
+                    upload_audio_output = gr.Textbox(label="Response", interactive=False)
+                    upload_audio_button = gr.Button("Ask", elem_id="ask_button")
                 with gr.Tab("Record Audio"):
+                    # Record audio section - Fixed to use compatible parameters
                     audio_recorder = gr.Audio(label="Record your voice", type="filepath")
                     record_transcribe_button = gr.Button("Transcribe Recording", elem_id="transcribe_button")
                     record_transcription = gr.Textbox(label="Transcription", interactive=False)
+                    # record_audio_query = gr.Textbox(label="Ask about the transcription (optional)")
                     record_audio_output = gr.Textbox(label="Response", interactive=False)
                     record_audio_button = gr.Button("Ask", elem_id="ask_button")
     image_button.click(image_chat, [image_upload, image_text_query, temperature, top_p, max_output_tokens], image_output)
     pdf_button.click(pdf_chat, [pdf_upload, pdf_text_query, temperature, top_p, max_output_tokens], pdf_output)
+    # Voice Chat - Upload Audio tab actions
+    upload_transcribe_button.click(
+        process_uploaded_audio,
+        inputs=[audio_upload],
+        outputs=[upload_transcription]
+    )
+    upload_audio_button.click(
+        process_voice_query,
+        # inputs=[upload_transcription, upload_audio_query, temperature, top_p, max_output_tokens],
+        inputs=[upload_transcription, temperature, top_p, max_output_tokens],
+        outputs=[upload_audio_output]
+    )
     # Voice Chat - Record Audio tab actions
     record_transcribe_button.click(
         outputs=[record_transcription]
     )
     record_audio_button.click(
+        process_voice_query,
+        # inputs=[record_transcription, record_audio_query, temperature, top_p, max_output_tokens],
         inputs=[record_transcription, temperature, top_p, max_output_tokens],
         outputs=[record_audio_output]
     )
+    # Clear button resets all necessary fields
     clear_button.click(
         clear_chat,
         outputs=[
             image_text_query, image_output,
             pdf_upload, pdf_text_query, pdf_output,
             audio_upload, upload_transcription, upload_audio_query, upload_audio_output,
+            audio_recorder, record_transcription, record_audio_query, record_audio_output,
             temperature, top_p, max_output_tokens
         ]
     )