Spaces:

gaia-mistral
/

msa1

Runtime error

App Files Files Community

zouhairk commited on Feb 24

Commit

73a9cc3

1 Parent(s): 9de27c4

test

Browse files

Files changed (1) hide show

app.py +43 -28

app.py CHANGED Viewed

@@ -1,35 +1,50 @@
 from transformers import AutoProcessor, SeamlessM4Tv2Model
 import numpy as np
-#import torchaudio
 import sounddevice as sd
-#from audio
 processor = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
 model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
-# from text
-text_inputs = processor(text = "Искам da polucha zdravnata mi karta i помощ", src_lang="bul", return_tensors="pt")
-audio_array_from_text = model.generate(**text_inputs, tgt_lang="fra")[0].cpu().numpy().squeeze()
-# Afficher le tableau dans le terminal
-print(audio_array_from_text)
-# Optionnel : Afficher seulement les 10 premières valeurs pour éviter trop de sorties
-print(audio_array_from_text[:10])
-sd.play(audio_array_from_text, samplerate=16000)  # 16kHz est souvent utilisé par ces modèles
-sd.wait()
-audio, orig_freq =  torchaudio.load("https://www2.cs.uic.edu/~i101/SoundFiles/preamble10.wav")
-# audio =  torchaudio.functional.resample(audio, orig_freq=orig_freq, new_freq=16_000) # must be a 16 kHz waveform array
-# audio_inputs = processor(audios=audio, return_tensors="pt")
-# audio_array_from_audio = model.generate(**audio_inputs, tgt_lang="rus")[0].cpu().numpy().squeeze()
-# from audio
-output_tokens = model.generate(**audio_inputs, tgt_lang="fra", generate_speech=False)
-translated_text_from_audio = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)
-# from text
-output_tokens = model.generate(**text_inputs, tgt_lang="fra", generate_speech=False)
-translated_text_from_text = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)

+from flask import Flask, request, jsonify
 from transformers import AutoProcessor, SeamlessM4Tv2Model
 import numpy as np
 import sounddevice as sd
+import wave
+import os
+app = Flask(__name__)
 processor = AutoProcessor.from_pretrained("facebook/seamless-m4t-v2-large")
 model = SeamlessM4Tv2Model.from_pretrained("facebook/seamless-m4t-v2-large")
+UPLOAD_FOLDER = "audio_files"
+os.makedirs(UPLOAD_FOLDER, exist_ok=True)
+@app.route("/record", methods=["POST"])
+def record_audio():
+    file = request.files['audio']
+    filename = os.path.join(UPLOAD_FOLDER, file.filename)
+    file.save(filename)
+    # Charger et traiter l'audio
+    audio_data, orig_freq = torchaudio.load(filename)
+    audio_inputs = processor(audios=audio_data, return_tensors="pt")
+    output_tokens = model.generate(**audio_inputs, tgt_lang="fra", generate_speech=False)
+    translated_text = processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)
+    return jsonify({"translated_text": translated_text})
+@app.route("/text_to_speech", methods=["POST"])
+def text_to_speech():
+    data = request.get_json()
+    text = data.get("text")
+    src_lang = data.get("src_lang")
+    tgt_lang = data.get("tgt_lang")
+    text_inputs = processor(text=text, src_lang=src_lang, return_tensors="pt")
+    audio_array = model.generate(**text_inputs, tgt_lang=tgt_lang)[0].cpu().numpy().squeeze()
+    output_filename = os.path.join(UPLOAD_FOLDER, "output.wav")
+    with wave.open(output_filename, "wb") as wf:
+        wf.setnchannels(1)
+        wf.setsampwidth(2)
+        wf.setframerate(16000)
+        wf.writeframes((audio_array * 32767).astype(np.int16).tobytes())
+    return jsonify({"audio_url": output_filename})
+if __name__ == "__main__":
+    app.run(debug=True)