Spaces:

mutisya
/

thiomi-2411

Paused

App Files Files Community

mutisya commited on Nov 9, 2024

Commit

9a09ff1

verified ·

1 Parent(s): 7178214

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -26

app.py CHANGED Viewed

@@ -35,30 +35,6 @@ def get_translation_pipeline(translation_model_path):
 translator = get_translation_pipeline("mutisya/nllb_600m-en-kik-kam-luo-mer-som-swh-drL-24_5-filtered-v24_28_4")
-def load_tts_model(model_id):
-    model_pipeline = pipeline("text-to-speech", model=model_id, device=device)
-    return model_pipeline
-def initialize_tts_pipelines(load_models=False):
-    global tts_config_settings
-    global tts_pipelines
-    with open(f"tts_models_config.json") as f:
-        tts_config_settings = json.loads(f.read())
-    for lang, lang_config in tts_config_settings.items():
-        if lang in tts_preload_languages or load_models:
-            tts_pipelines[lang] = load_tts_model(lang_config["model_repo"])
-def ensure_tts_pipeline_loaded(lang_code):
-    global tts_config_settings
-    global tts_pipelines
-    if lang_code in tts_pipelines:
-        pipeline = tts_pipelines[lang_code]
-    else:
-        lang_config = tts_config_settings[lang_code]
-        tts_pipelines[lang_code] = load_tts_model(lang_config["model_repo"])
 def load_asr_model(model_id):
     model_pipeline = pipeline("automatic-speech-recognition", model=model_id, device=device)
     return model_pipeline
@@ -175,6 +151,29 @@ tts_config_settings = {}
 tts_pipelines={}
 tts_preload_languages=["kik"]
 @app.post("/text-to-speech", response_model=TTSResponse)
 async def text_to_speech(request: TTSRequest):
     """
@@ -192,9 +191,11 @@ async def text_to_speech(request: TTSRequest):
         ensure_tts_pipeline_loaded(language)
         tts_pipeline = tts_pipelines[language]
-        audio = tts_pipeline(text, return_tensors=True)["waveform"]
-        sample_rate = 22050  # Default sample rate for the espnet model
         # Save the audio to a BytesIO buffer as a WAV file
         buffer = io.BytesIO()
@@ -209,5 +210,8 @@ async def text_to_speech(request: TTSRequest):
         raise HTTPException(status_code=500, detail=f"Error generating speech: {str(e)}")
 # Run the FastAPI application
 if __name__ == "__main__":
     uvicorn.run(app, host="0.0.0.0", port=7860)

 translator = get_translation_pipeline("mutisya/nllb_600m-en-kik-kam-luo-mer-som-swh-drL-24_5-filtered-v24_28_4")
 def load_asr_model(model_id):
     model_pipeline = pipeline("automatic-speech-recognition", model=model_id, device=device)
     return model_pipeline
 tts_pipelines={}
 tts_preload_languages=["kik"]
+def load_tts_model(model_id):
+    model_pipeline = pipeline("text-to-speech", model=model_id, device=device)
+    return model_pipeline
+def initialize_tts_pipelines(load_models=False):
+    global tts_config_settings
+    global tts_pipelines
+    with open(f"tts_models_config.json") as f:
+        tts_config_settings = json.loads(f.read())
+    for lang, lang_config in tts_config_settings.items():
+        if lang in tts_preload_languages or load_models:
+            tts_pipelines[lang] = load_tts_model(lang_config["model_repo"])
+def ensure_tts_pipeline_loaded(lang_code):
+    global tts_config_settings
+    global tts_pipelines
+    if lang_code in tts_pipelines:
+        pipeline = tts_pipelines[lang_code]
+    else:
+        lang_config = tts_config_settings[lang_code]
+        tts_pipelines[lang_code] = load_tts_model(lang_config["model_repo"])
 @app.post("/text-to-speech", response_model=TTSResponse)
 async def text_to_speech(request: TTSRequest):
     """
         ensure_tts_pipeline_loaded(language)
         tts_pipeline = tts_pipelines[language]
+        print("Received request: "+ text)
+        #audio = tts_pipeline(text, return_tensors=True)["waveform"]
+        audio = tts_pipeline(text)
+        sample_rate = 16000  # Default sample rate for the espnet model
         # Save the audio to a BytesIO buffer as a WAV file
         buffer = io.BytesIO()
         raise HTTPException(status_code=500, detail=f"Error generating speech: {str(e)}")
 # Run the FastAPI application
+initialize_tts_pipelines(True)
+initialize_asr_pipelines()
 if __name__ == "__main__":
     uvicorn.run(app, host="0.0.0.0", port=7860)