Spaces:

AnyaSchen
/

whisper-websocket

Paused

AnyaSchen commited on Apr 9

Commit

f6d1a77

1 Parent(s): 7cb050b

feat: use turbo model and return all probs

Files changed (2) hide show

language_detector.py CHANGED Viewed

@@ -27,6 +27,7 @@ class LanguageDetector:
         Returns:
             str: Detected language code (e.g., "en", "fr", etc.)
             float: Confidence score
         """
         try:
             # Load and preprocess audio
@@ -41,7 +42,7 @@ class LanguageDetector:
             detected_lang = max(probs, key=probs.get)
             confidence = probs[detected_lang]
-            return detected_lang, confidence
         except Exception as e:
             logger.error(f"Error in language detection: {e}")
@@ -57,6 +58,7 @@ class LanguageDetector:
         Returns:
             str: Detected language code (e.g., "en", "fr", etc.)
             float: Confidence score
         """
         try:
             # Convert bytes to numpy array using librosa
@@ -77,7 +79,7 @@ class LanguageDetector:
             detected_lang = max(probs, key=probs.get)
             confidence = probs[detected_lang]
-            return detected_lang, confidence
         except Exception as e:
             logger.error(f"Error in language detection: {e}")

         Returns:
             str: Detected language code (e.g., "en", "fr", etc.)
             float: Confidence score
+            dict: All language probabilities
         """
         try:
             # Load and preprocess audio
             detected_lang = max(probs, key=probs.get)
             confidence = probs[detected_lang]
+            return detected_lang, confidence, probs
         except Exception as e:
             logger.error(f"Error in language detection: {e}")
         Returns:
             str: Detected language code (e.g., "en", "fr", etc.)
             float: Confidence score
+            dict: All language probabilities
         """
         try:
             # Convert bytes to numpy array using librosa
             detected_lang = max(probs, key=probs.get)
             confidence = probs[detected_lang]
+            return detected_lang, confidence, probs
         except Exception as e:
             logger.error(f"Error in language detection: {e}")

main.py CHANGED Viewed

@@ -31,7 +31,7 @@ language_detector = None
 async def lifespan(app: FastAPI):
     global kit, language_detector
     kit = WhisperLiveKit()
-    language_detector = LanguageDetector(model_name="medium")
     yield
 app = FastAPI(lifespan=lifespan)
@@ -68,14 +68,15 @@ async def detect_language(file: UploadFile = File(...)):
         # Use the language detector with the saved file
         if language_detector:
-            detected_lang, confidence = language_detector.detect_language_from_file(file_path)
             # Clean up - remove the temporary file
             os.remove(file_path)
             return JSONResponse({
                 "language": detected_lang,
-                "confidence": float(confidence)
             })
         else:
             return JSONResponse(

 async def lifespan(app: FastAPI):
     global kit, language_detector
     kit = WhisperLiveKit()
+    language_detector = LanguageDetector(model_name="turbo")
     yield
 app = FastAPI(lifespan=lifespan)
         # Use the language detector with the saved file
         if language_detector:
+            detected_lang, confidence, probs = language_detector.detect_language_from_file(file_path)
             # Clean up - remove the temporary file
             os.remove(file_path)
             return JSONResponse({
                 "language": detected_lang,
+                "confidence": float(confidence),
+                "probabilities": {lang: float(prob) for lang, prob in probs.items()}
             })
         else:
             return JSONResponse(