Spaces:

slabstech
/

dhwani-internal-api-server

Paused

App Files Files Community

sachin commited on 17 days ago

Commit

843c466

1 Parent(s): 6a6d015

update

Browse files

Files changed (1) hide show

src/server/main.py +13 -2

src/server/main.py CHANGED Viewed

@@ -602,6 +602,10 @@ class TranscriptionResponse(BaseModel):
 class ASRModelManager:
     def __init__(self, device_type="cuda"):
         self.device_type = device_type
         self.model_language = {
             "kannada": "kn", "hindi": "hi", "malayalam": "ml", "assamese": "as", "bengali": "bn",
             "bodo": "brx", "dogri": "doi", "gujarati": "gu", "kashmiri": "ks", "konkani": "kok",
@@ -609,6 +613,7 @@ class ASRModelManager:
             "punjabi": "pa", "sanskrit": "sa", "santali": "sat", "sindhi": "sd", "tamil": "ta",
             "telugu": "te", "urdu": "ur"
         }
 from fastapi import FastAPI, UploadFile
 import torch
@@ -628,12 +633,17 @@ model = AutoModel.from_pretrained("ai4bharat/indic-conformer-600m-multilingual",
 asr_manager = ASRModelManager()
 # Language to script mapping
 LANGUAGE_TO_SCRIPT = {
     "kannada": "kan_Knda", "hindi": "hin_Deva", "malayalam": "mal_Mlym", "tamil": "tam_Taml",
     "telugu": "tel_Telu", "assamese": "asm_Beng", "bengali": "ben_Beng", "gujarati": "guj_Gujr",
     "marathi": "mar_Deva", "odia": "ory_Orya", "punjabi": "pan_Guru", "urdu": "urd_Arab",
     # Add more as needed
 }
 @app.post("/transcribe/", response_model=TranscriptionResponse)
 async def transcribe_audio(file: UploadFile = File(...), language: str = Query(..., enum=list(asr_manager.model_language.keys()))):
@@ -654,7 +664,6 @@ async def speech_to_speech(
     request: Request,  # Inject Request object from FastAPI
     file: UploadFile = File(...),
     language: str = Query(..., enum=list(asr_manager.model_language.keys())),
-    voice: str = Body(default=config.voice)
 ) -> StreamingResponse:
     # Step 1: Transcribe audio to text
     transcription = await transcribe_audio(file, language)
@@ -669,9 +678,11 @@ async def speech_to_speech(
     processed_text = await chat(request, chat_request)  # Pass the injected request
     logger.info(f"Processed text: {processed_text.response}")
     # Step 3: Convert processed text to speech
     audio_response = await synthesize_kannada(
-        input=processed_text.response,
     )
     return audio_response

 class ASRModelManager:
     def __init__(self, device_type="cuda"):
         self.device_type = device_type
+        self.model_language = {
+            "kannada": "kn"
+        }
+        '''
         self.model_language = {
             "kannada": "kn", "hindi": "hi", "malayalam": "ml", "assamese": "as", "bengali": "bn",
             "bodo": "brx", "dogri": "doi", "gujarati": "gu", "kashmiri": "ks", "konkani": "kok",
             "punjabi": "pa", "sanskrit": "sa", "santali": "sat", "sindhi": "sd", "tamil": "ta",
             "telugu": "te", "urdu": "ur"
         }
+        '''
 from fastapi import FastAPI, UploadFile
 import torch
 asr_manager = ASRModelManager()
 # Language to script mapping
+LANGUAGE_TO_SCRIPT = {
+    "kannada": "kan_Knda"
+}
+'''
 LANGUAGE_TO_SCRIPT = {
     "kannada": "kan_Knda", "hindi": "hin_Deva", "malayalam": "mal_Mlym", "tamil": "tam_Taml",
     "telugu": "tel_Telu", "assamese": "asm_Beng", "bengali": "ben_Beng", "gujarati": "guj_Gujr",
     "marathi": "mar_Deva", "odia": "ory_Orya", "punjabi": "pan_Guru", "urdu": "urd_Arab",
     # Add more as needed
 }
+'''
 @app.post("/transcribe/", response_model=TranscriptionResponse)
 async def transcribe_audio(file: UploadFile = File(...), language: str = Query(..., enum=list(asr_manager.model_language.keys()))):
     request: Request,  # Inject Request object from FastAPI
     file: UploadFile = File(...),
     language: str = Query(..., enum=list(asr_manager.model_language.keys())),
 ) -> StreamingResponse:
     # Step 1: Transcribe audio to text
     transcription = await transcribe_audio(file, language)
     processed_text = await chat(request, chat_request)  # Pass the injected request
     logger.info(f"Processed text: {processed_text.response}")
+    voice_request = KannadaSynthesizeRequest(text=processed_text.response)
     # Step 3: Convert processed text to speech
     audio_response = await synthesize_kannada(
+        voice_request
     )
     return audio_response