Spaces:

UcsTurkey
/

flare

Building

App Files Files Community

ciyidogan commited on 17 days ago

Commit

ef0730d

verified ·

1 Parent(s): e53114d

Update websocket_handler.py

Browse files

Files changed (1) hide show

websocket_handler.py +31 -13

websocket_handler.py CHANGED Viewed

@@ -425,8 +425,15 @@ async def websocket_endpoint(websocket: WebSocket, session_id: str):
             "message": str(e)
         })
     finally:
-        log_info(f"🧹 Cleaning up WebSocket connection", session_id=session_id)
-        await realtime_session.cleanup()
 # ========================= MESSAGE HANDLERS =========================
 async def handle_audio_chunk(websocket: WebSocket, session: RealtimeSession, message: Dict[str, Any]):
@@ -455,15 +462,22 @@ async def handle_audio_chunk(websocket: WebSocket, session: RealtimeSession, mes
                 "to": "listening"
             })
-        # Add to buffer - don't lose any audio
         await session.audio_buffer.add_chunk(audio_data)
         # Decode for processing
         decoded_audio = base64.b64decode(audio_data)
         # Check silence
         silence_duration = session.silence_detector.update(decoded_audio)
         # Stream to STT if available
         if session.stt_manager and session.state == ConversationState.LISTENING:
             # Ensure streaming is active
@@ -497,6 +511,10 @@ async def handle_audio_chunk(websocket: WebSocket, session: RealtimeSession, mes
                         session.current_transcription = result.text
                         log_info(f"📝 Final transcription: {result.text}", session_id=session.session.session_id)
             except Exception as e:
                 log_error(f"❌ STT streaming error", error=str(e), traceback=traceback.format_exc(), session_id=session.session.session_id)
                 await websocket.send_json({
@@ -504,16 +522,17 @@ async def handle_audio_chunk(websocket: WebSocket, session: RealtimeSession, mes
                     "error_type": "stt_error",
                     "message": f"STT error: {str(e)}"
                 })
         # Process if silence detected and we have transcription
-        if silence_duration > session.silence_threshold_ms and session.current_transcription:
-            log_info(
-                f"🔇 User stopped speaking",
-                session_id=session.session.session_id,
-                silence_ms=silence_duration,
-                text=session.current_transcription
-            )
-            await process_user_input(websocket, session)
     except Exception as e:
         log_error(
@@ -527,7 +546,6 @@ async def handle_audio_chunk(websocket: WebSocket, session: RealtimeSession, mes
             "message": f"Audio processing error: {str(e)}"
         })
 async def handle_control_message(websocket: WebSocket, session: RealtimeSession, message: Dict[str, Any]):
     """Handle control messages"""
     action = message.get("action")

             "message": str(e)
         })
     finally:
+            log_info(f"🧹 Cleaning up WebSocket connection", session_id=session_id)
+            await realtime_session.cleanup()
+            # WebSocket'in açık olup olmadığını kontrol et
+            try:
+                if websocket.client_state.value == 1:  # 1 = CONNECTED state
+                    await websocket.close()
+            except Exception as e:
+                log_debug(f"WebSocket already closed or error during close: {e}", session_id=session_id)
 # ========================= MESSAGE HANDLERS =========================
 async def handle_audio_chunk(websocket: WebSocket, session: RealtimeSession, message: Dict[str, Any]):
                 "to": "listening"
             })
+        # Add to buffer
         await session.audio_buffer.add_chunk(audio_data)
         # Decode for processing
         decoded_audio = base64.b64decode(audio_data)
+        # DEBUG: Log audio chunk size
+        log_debug(f"🎤 Audio chunk received: {len(decoded_audio)} bytes", session_id=session.session.session_id)
         # Check silence
         silence_duration = session.silence_detector.update(decoded_audio)
+        # DEBUG: Log silence detection
+        if silence_duration > 0:
+            log_debug(f"🔇 Silence detected: {silence_duration}ms", session_id=session.session.session_id)
         # Stream to STT if available
         if session.stt_manager and session.state == ConversationState.LISTENING:
             # Ensure streaming is active
                         session.current_transcription = result.text
                         log_info(f"📝 Final transcription: {result.text}", session_id=session.session.session_id)
+                        # BURADA: Final transcription geldiğinde hemen işle
+                        if session.current_transcription:
+                            await process_user_input(websocket, session)
             except Exception as e:
                 log_error(f"❌ STT streaming error", error=str(e), traceback=traceback.format_exc(), session_id=session.session.session_id)
                 await websocket.send_json({
                     "error_type": "stt_error",
                     "message": f"STT error: {str(e)}"
                 })
+        # SILENCE DETECTION'I GEÇİCİ OLARAK DEVRE DIŞI BIRAK
         # Process if silence detected and we have transcription
+        # if silence_duration > session.silence_threshold_ms and session.current_transcription:
+        #     log_info(
+        #         f"🔇 User stopped speaking",
+        #         session_id=session.session.session_id,
+        #         silence_ms=silence_duration,
+        #         text=session.current_transcription
+        #     )
+        #     await process_user_input(websocket, session)
     except Exception as e:
         log_error(
             "message": f"Audio processing error: {str(e)}"
         })
 async def handle_control_message(websocket: WebSocket, session: RealtimeSession, message: Dict[str, Any]):
     """Handle control messages"""
     action = message.get("action")