Spaces:

UcsTurkey
/

flare

Building

App Files Files Community

ciyidogan commited on 6 days ago

Commit

52b686b

verified ·

1 Parent(s): ee90174

Update stt/stt_lifecycle_manager.py

Browse files

Files changed (1) hide show

stt/stt_lifecycle_manager.py +32 -26

stt/stt_lifecycle_manager.py CHANGED Viewed

@@ -133,15 +133,19 @@ class STTLifecycleManager:
         session_id = event.session_id
         stt_session = self.stt_sessions.get(session_id)
-        if not stt_session or not stt_session.is_active:
-            # ✅ STT aktif değilse chunk'ları ignore et
             return
         try:
             # Decode audio data
             audio_data = base64.b64decode(event.data.get("audio_data", ""))
-            # Add to buffer
             stt_session.audio_buffer.append(audio_data)
             stt_session.total_chunks += 1
             stt_session.total_bytes += len(audio_data)
@@ -153,16 +157,17 @@ class STTLifecycleManager:
             if not is_speech and silence_duration_ms >= 2000:  # 2 seconds of silence
                 log_info(f"💬 Utterance ended after {silence_duration_ms}ms silence", session_id=session_id)
-                # ✅ STT'yi sadece aktifse durdur
-                if stt_session.is_active:
-                    stt_session.is_active = False  # ✅ Hemen inaktif yap, tekrar trigger olmasın
-                    # Stop STT to trigger transcription
-                    await self.event_bus.publish(Event(
-                        type=EventType.STT_STOPPED,
-                        session_id=session_id,
-                        data={"reason": "silence_detected"}
-                    ))
             # Log progress periodically
             if stt_session.total_chunks % 100 == 0:
@@ -199,12 +204,17 @@ class STTLifecycleManager:
             return
         try:
-            if stt_session.is_active and stt_session.audio_buffer:
                 # Combine audio chunks
                 combined_audio = b''.join(stt_session.audio_buffer)
-                # Transcribe using batch mode
                 log_info(f"📝 Transcribing {len(combined_audio)} bytes of audio", session_id=session_id)
                 result = await stt_session.stt_instance.transcribe(
                     audio_data=combined_audio,
                     config=stt_session.config
@@ -221,21 +231,17 @@ class STTLifecycleManager:
                             "confidence": result.confidence
                         }
                     ))
                 else:
                     log_warning(f"⚠️ No transcription result", session_id=session_id)
-            # Mark as inactive and reset
-            stt_session.is_active = False
             stt_session.reset()
-            # Send STT_STOPPED event
-            await self.event_bus.publish(Event(
-                type=EventType.STT_STOPPED,
-                session_id=session_id,
-                data={"reason": reason}
-            ))
-            log_info(f"✅ STT stopped", session_id=session_id)
         except Exception as e:
             log_error(
@@ -243,7 +249,7 @@ class STTLifecycleManager:
                 session_id=session_id,
                 error=str(e)
             )
     async def _cleanup_session(self, session_id: str):
         """Clean up STT session"""
         stt_session = self.stt_sessions.pop(session_id, None)

         session_id = event.session_id
         stt_session = self.stt_sessions.get(session_id)
+        if not stt_session:
+            # STT session yoksa chunk'ları ignore et
+            return
+        # ✅ STT inaktifse chunk'ları tamamen ignore et
+        if not stt_session.is_active:
             return
         try:
             # Decode audio data
             audio_data = base64.b64decode(event.data.get("audio_data", ""))
+            # Add to buffer - sadece aktifken
             stt_session.audio_buffer.append(audio_data)
             stt_session.total_chunks += 1
             stt_session.total_bytes += len(audio_data)
             if not is_speech and silence_duration_ms >= 2000:  # 2 seconds of silence
                 log_info(f"💬 Utterance ended after {silence_duration_ms}ms silence", session_id=session_id)
+                # ✅ Hemen STT'yi inaktif yap ki daha fazla chunk işlenmesin
+                stt_session.is_active = False
+                # ✅ Frontend'e derhal recording durdurmayı söyle
+                await self.event_bus.publish(Event(
+                    type=EventType.STT_STOPPED,
+                    session_id=session_id,
+                    data={"reason": "silence_detected", "stop_recording": True}
+                ))
+                log_info(f"🛑 STT stopped and frontend notified to stop recording", session_id=session_id)
             # Log progress periodically
             if stt_session.total_chunks % 100 == 0:
             return
         try:
+            # ✅ STT'yi inaktif yap ki daha fazla chunk işlenmesin
+            stt_session.is_active = False
+            # ✅ Transcription sadece audio buffer varsa ve reason silence_detected ise yap
+            if reason == "silence_detected" and stt_session.audio_buffer:
                 # Combine audio chunks
                 combined_audio = b''.join(stt_session.audio_buffer)
                 log_info(f"📝 Transcribing {len(combined_audio)} bytes of audio", session_id=session_id)
+                # Transcribe using batch mode
                 result = await stt_session.stt_instance.transcribe(
                     audio_data=combined_audio,
                     config=stt_session.config
                             "confidence": result.confidence
                         }
                     ))
+                    log_info(f"✅ Transcription completed: '{result.text}'", session_id=session_id)
                 else:
                     log_warning(f"⚠️ No transcription result", session_id=session_id)
+            elif reason != "silence_detected":
+                log_info(f"📝 STT stopped without transcription (reason: {reason})", session_id=session_id)
+            # Reset session for next utterance
             stt_session.reset()
+            log_info(f"✅ STT session reset and ready for next utterance", session_id=session_id)
         except Exception as e:
             log_error(
                 session_id=session_id,
                 error=str(e)
             )
     async def _cleanup_session(self, session_id: str):
         """Clean up STT session"""
         stt_session = self.stt_sessions.pop(session_id, None)