Spaces:

UcsTurkey
/

flare

Building

ciyidogan commited on 8 days ago

Commit

b728d57

verified ·

1 Parent(s): 6abf273

Update stt/stt_google.py

Files changed (1) hide show

stt/stt_google.py CHANGED Viewed

@@ -65,9 +65,11 @@ class GoogleSTT(STTInterface):
         # Default to the language itself if not in map
         return language_map.get(language, language)
     async def transcribe(self, audio_data: bytes, config: STTConfig) -> Optional[TranscriptionResult]:
         try:
             if not audio_data:
                 log_warning("⚠️ No audio data provided")
                 return None
@@ -138,10 +140,7 @@ class GoogleSTT(STTInterface):
                 log_warning(f"⚠️ Audio is mostly zeros: {zero_count/total_samples:.1%}")
                 return None
-            # Convert to WAV format
-            wav_audio = self._convert_to_wav(audio_data, config.sample_rate)
-            # Configure recognition
             recognition_config = RecognitionConfig(
                 encoding=RecognitionConfig.AudioEncoding.LINEAR16,
                 sample_rate_hertz=16000,
@@ -151,11 +150,11 @@ class GoogleSTT(STTInterface):
                 enable_automatic_punctuation=True,
             )
-            # Create audio object
-            audio = RecognitionAudio(content=wav_audio)
             # Perform synchronous recognition
-            log_info(f"🔄 Sending audio to Google Cloud Speech API...")
             response = self.client.recognize(config=recognition_config, audio=audio)
             # ✅ Detaylı response analizi

         # Default to the language itself if not in map
         return language_map.get(language, language)
     async def transcribe(self, audio_data: bytes, config: STTConfig) -> Optional[TranscriptionResult]:
+        """Transcribe audio data using Google Cloud Speech API"""
         try:
+            # Check if we have audio to transcribe
             if not audio_data:
                 log_warning("⚠️ No audio data provided")
                 return None
                 log_warning(f"⚠️ Audio is mostly zeros: {zero_count/total_samples:.1%}")
                 return None
+            # ✅ Configure recognition - RAW PCM için
             recognition_config = RecognitionConfig(
                 encoding=RecognitionConfig.AudioEncoding.LINEAR16,
                 sample_rate_hertz=16000,
                 enable_automatic_punctuation=True,
             )
+            # ✅ RAW audio gönder, WAV conversion yapmadan
+            audio = RecognitionAudio(content=audio_data)  # Direkt raw PCM
             # Perform synchronous recognition
+            log_info(f"🔄 Sending {len(audio_data)} bytes RAW PCM to Google Cloud Speech API...")
             response = self.client.recognize(config=recognition_config, audio=audio)
             # ✅ Detaylı response analizi