sts

Sleeping

App Files Files Community

Afrinetwork7 commited on Aug 24, 2024

Commit

0ec2266

verified ·

1 Parent(s): 4813dbc

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -12

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from fastapi import FastAPI, HTTPException
 from fastapi.responses import JSONResponse, FileResponse
 from pydantic import BaseModel
 import numpy as np
@@ -10,12 +10,13 @@ import torch
 import librosa
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 from pathlib import Path
 # Import functions from other modules
 from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
 from asr import ASR_SAMPLING_RATE, transcribe
 # Configure logging
@@ -26,7 +27,7 @@ app = FastAPI(title="MMS: Scaling Speech Technology to 1000+ languages")
 # Define request models
 class AudioRequest(BaseModel):
-    audio: str  # Base64 encoded audio data
     language: str
 class TTSRequest(BaseModel):
@@ -34,19 +35,42 @@ class TTSRequest(BaseModel):
     language: str
     speed: float
 @app.post("/transcribe")
 async def transcribe_audio(request: AudioRequest):
     try:
-        audio_bytes = base64.b64decode(request.audio)
-        audio_array, sample_rate = sf.read(io.BytesIO(audio_bytes))
         # Convert to mono if stereo
         if len(audio_array.shape) > 1:
             audio_array = audio_array.mean(axis=1)
         # Ensure audio_array is float32
         audio_array = audio_array.astype(np.float32)
         # Resample if necessary
         if sample_rate != ASR_SAMPLING_RATE:
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=ASR_SAMPLING_RATE)
         result = transcribe(audio_array, request.language)
         return JSONResponse(content={"transcription": result})
     except Exception as e:
@@ -57,15 +81,13 @@ async def transcribe_audio(request: AudioRequest):
 async def synthesize_speech(request: TTSRequest):
     try:
         audio, filtered_text = synthesize(request.text, request.language, request.speed)
         # Convert numpy array to bytes
         buffer = io.BytesIO()
         sf.write(buffer, audio, 22050, format='wav')
         buffer.seek(0)
         return FileResponse(
-            buffer,
-            media_type="audio/wav",
             headers={"Content-Disposition": "attachment; filename=synthesized_audio.wav"}
         )
     except Exception as e:
@@ -75,9 +97,8 @@ async def synthesize_speech(request: TTSRequest):
 @app.post("/identify")
 async def identify_language(request: AudioRequest):
     try:
-        audio_bytes = base64.b64decode(request.audio)
-        audio_array, sample_rate = sf.read(io.BytesIO(audio_bytes))
         result = identify(audio_array)
         return JSONResponse(content={"language_identification": result})
     except Exception as e:

+from fastapi import FastAPI, HTTPException, UploadFile, File
 from fastapi.responses import JSONResponse, FileResponse
 from pydantic import BaseModel
 import numpy as np
 import librosa
 from transformers import Wav2Vec2ForCTC, AutoProcessor
 from pathlib import Path
+from moviepy.editor import VideoFileClip
+import magic  # For MIME type detection
 # Import functions from other modules
 from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
 from asr import ASR_SAMPLING_RATE, transcribe
 # Configure logging
 # Define request models
 class AudioRequest(BaseModel):
+    audio: str  # Base64 encoded audio or video data
     language: str
 class TTSRequest(BaseModel):
     language: str
     speed: float
+def detect_mime_type(input_bytes):
+    mime = magic.Magic(mime=True)
+    return mime.from_buffer(input_bytes)
+def extract_audio(input_bytes):
+    mime_type = detect_mime_type(input_bytes)
+    if mime_type.startswith('audio/'):
+        return sf.read(io.BytesIO(input_bytes))
+    elif mime_type.startswith('video/'):
+        with io.BytesIO(input_bytes) as f:
+            video = VideoFileClip(f.name)
+            audio = video.audio
+            audio_array = audio.to_soundarray()
+            sample_rate = audio.fps
+            return audio_array, sample_rate
+    else:
+        raise ValueError(f"Unsupported MIME type: {mime_type}")
 @app.post("/transcribe")
 async def transcribe_audio(request: AudioRequest):
     try:
+        input_bytes = base64.b64decode(request.audio)
+        audio_array, sample_rate = extract_audio(input_bytes)
         # Convert to mono if stereo
         if len(audio_array.shape) > 1:
             audio_array = audio_array.mean(axis=1)
         # Ensure audio_array is float32
         audio_array = audio_array.astype(np.float32)
         # Resample if necessary
         if sample_rate != ASR_SAMPLING_RATE:
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=ASR_SAMPLING_RATE)
         result = transcribe(audio_array, request.language)
         return JSONResponse(content={"transcription": result})
     except Exception as e:
 async def synthesize_speech(request: TTSRequest):
     try:
         audio, filtered_text = synthesize(request.text, request.language, request.speed)
         # Convert numpy array to bytes
         buffer = io.BytesIO()
         sf.write(buffer, audio, 22050, format='wav')
         buffer.seek(0)
         return FileResponse(
+            buffer,
+            media_type="audio/wav",
             headers={"Content-Disposition": "attachment; filename=synthesized_audio.wav"}
         )
     except Exception as e:
 @app.post("/identify")
 async def identify_language(request: AudioRequest):
     try:
+        input_bytes = base64.b64decode(request.audio)
+        audio_array, sample_rate = extract_audio(input_bytes)
         result = identify(audio_array)
         return JSONResponse(content={"language_identification": result})
     except Exception as e: