Spaces:

UcsTurkey
/

flare

Building

App Files Files Community

ciyidogan commited on 14 days ago

Commit

8297b29

verified ·

1 Parent(s): ba22449

Update websocket_handler.py

Browse files

Files changed (1) hide show

websocket_handler.py +66 -12

websocket_handler.py CHANGED Viewed

@@ -226,6 +226,30 @@ class RealtimeSession:
             self.stt_manager = None
             self.is_streaming = False
             return False
     async def change_state(self, new_state: ConversationState):
         """Change conversation state"""
@@ -564,16 +588,19 @@ async def handle_audio_chunk(websocket: WebSocket, session: RealtimeSession, mes
                 })
     except Exception as e:
-        log_error(
-            f"❌ Audio chunk handling error",
-            error=str(e),
-            traceback=traceback.format_exc(),
-            session_id=session.session.session_id
-        )
-        await websocket.send_json({
-            "type": "error",
-            "message": f"Audio processing error: {str(e)}"
-        })
 async def handle_control_message(websocket: WebSocket, session: RealtimeSession, message: Dict[str, Any]):
     """Handle control messages"""
@@ -620,18 +647,30 @@ async def handle_control_message(websocket: WebSocket, session: RealtimeSession,
     elif action == "audio_ended":
         # Audio playback ended on client
         if session.state == ConversationState.PLAYING_AUDIO:
-            await session.change_state(ConversationState.IDLE)
             await websocket.send_json({
                 "type": "state_change",
                 "from": "playing_audio",
-                "to": "idle"
             })
 # ========================= PROCESSING FUNCTIONS =========================
 async def process_user_input(websocket: WebSocket, session: RealtimeSession):
     """Process complete user input"""
     try:
         # WebSocket aktif mi kontrol et
         if not session.is_websocket_active:
             return
@@ -745,6 +784,16 @@ async def generate_and_stream_tts(
 ):
     """Generate and stream TTS audio with cancellation support"""
     try:
         log_info(f"🎤 Starting TTS generation for text: '{text[:50]}...'", session_id=session.session.session_id)
         # TTS preprocessor kullan
@@ -828,6 +877,11 @@ async def generate_and_stream_tts(
             audio_size=len(audio_data),
             chunks_sent=total_chunks
         )
     except asyncio.CancelledError:
         log_info("🛑 TTS streaming cancelled", session_id=session.session.session_id)

             self.stt_manager = None
             self.is_streaming = False
             return False
+    async def restart_stt_if_needed(self):
+        """Restart STT if it's not active - sadece gerektiğinde"""
+        try:
+            if not self.is_streaming and self.is_websocket_active and self.state == ConversationState.LISTENING:
+                log_info(f"🔄 Restarting STT stream after timeout...", session_id=self.session.session_id)
+                # Mevcut STT manager'ı kullan
+                if self.stt_manager:
+                    # Yeniden başlat
+                    stt_initialized = await self.initialize_stt()
+                    if stt_initialized:
+                        log_info(f"✅ STT stream restarted successfully", session_id=self.session.session_id)
+                        # Reset chunk counter
+                        if hasattr(self, 'chunk_counter'):
+                            self.chunk_counter = 0
+                        return True
+                    else:
+                        log_error(f"❌ Failed to restart STT stream", session_id=self.session.session_id)
+                        return False
+            return True
+        except Exception as e:
+            log_error(f"❌ Error restarting STT", error=str(e), session_id=self.session.session_id)
+            return False
     async def change_state(self, new_state: ConversationState):
         """Change conversation state"""
                 })
     except Exception as e:
+        error_msg = str(e)
+        # Google STT timeout hatası kontrolü
+        if "Audio Timeout Error" in error_msg or "stream duration" in error_msg:
+            log_warning(f"⚠️ STT timeout detected, marking stream as inactive", session_id=session.session.session_id)
+            session.is_streaming = False
+            # Timeout durumunda frontend'e hata gönderme, sessizce handle et
+        else:
+            log_error(f"❌ STT streaming error", error=error_msg, traceback=traceback.format_exc(), session_id=session.session.session_id)
+            await websocket.send_json({
+                "type": "error",
+                "error_type": "stt_error",
+                "message": f"STT error: {str(e)}"
+            })
 async def handle_control_message(websocket: WebSocket, session: RealtimeSession, message: Dict[str, Any]):
     """Handle control messages"""
     elif action == "audio_ended":
         # Audio playback ended on client
         if session.state == ConversationState.PLAYING_AUDIO:
+            await session.change_state(ConversationState.LISTENING)
             await websocket.send_json({
                 "type": "state_change",
                 "from": "playing_audio",
+                "to": "listening"
             })
+            # STT'yi yeniden başlat
+            await session.restart_stt_if_needed()
 # ========================= PROCESSING FUNCTIONS =========================
 async def process_user_input(websocket: WebSocket, session: RealtimeSession):
     """Process complete user input"""
     try:
+        # LLM işlemesi sırasında STT'yi durdur
+        if session.stt_manager and session.is_streaming:
+            log_info(f"⏸️ Pausing STT during LLM processing", session_id=session.session.session_id)
+            try:
+                await session.stt_manager.stop_streaming()
+                session.is_streaming = False
+            except Exception as e:
+                log_warning(f"⚠️ Error stopping STT: {e}", session_id=session.session.session_id)
+                session.is_streaming = False
         # WebSocket aktif mi kontrol et
         if not session.is_websocket_active:
             return
 ):
     """Generate and stream TTS audio with cancellation support"""
     try:
+        # TTS başlamadan önce STT'yi durdur - timeout'u önle
+        if session.stt_manager and session.is_streaming:
+            log_info(f"⏸️ Pausing STT stream during TTS", session_id=session.session.session_id)
+            try:
+                await session.stt_manager.stop_streaming()
+                session.is_streaming = False
+            except Exception as e:
+                log_warning(f"⚠️ Error stopping STT before TTS: {e}", session_id=session.session.session_id)
+                session.is_streaming = False
         log_info(f"🎤 Starting TTS generation for text: '{text[:50]}...'", session_id=session.session.session_id)
         # TTS preprocessor kullan
             audio_size=len(audio_data),
             chunks_sent=total_chunks
         )
+        # TTS bitiminde STT'yi yeniden başlat
+        if session.state == ConversationState.LISTENING:
+            log_info(f"🔄 Restarting STT after TTS completion", session_id=session.session.session_id)
+            await session.restart_stt_if_needed()
     except asyncio.CancelledError:
         log_info("🛑 TTS streaming cancelled", session_id=session.session.session_id)