Spaces:

deepugaur
/

audio_translation

Running

App Files Files Community

deepugaur commited on Jul 29, 2024

Commit

6ff3417

verified ·

1 Parent(s): 489c898

Update app.py

Browse files

Files changed (1) hide show

app.py +54 -48

app.py CHANGED Viewed

@@ -1,53 +1,59 @@
-import librosa
-import numpy as np
-def extract_features(audio_path):
-    y, sr = librosa.load(audio_path, sr=16000)
-    mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
-    return np.mean(mfccs.T, axis=0)
-# Example usage
-features = extract_features("path/to/audio/file.wav")
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer, MarianMTModel, MarianTokenizer
-# Load pre-trained models
-speech_recognition_model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h")
-speech_recognition_tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-large-960h")
-translation_model = MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-hi")
-translation_tokenizer = MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-hi")
-from transformers import pipeline
-# Example inference pipeline
-def translate_audio(audio_path):
-    # Speech Recognition
-    speech_input = speech_recognition_tokenizer(extract_features(audio_path), return_tensors="pt").input_values
-    logits = speech_recognition_model(speech_input).logits
-    transcription = speech_recognition_tokenizer.batch_decode(torch.argmax(logits, dim=-1))[0]
-    # Translation
-    translated = translation_model.generate(**translation_tokenizer.prepare_seq2seq_batch(transcription, return_tensors="pt"))
-    translation = translation_tokenizer.batch_decode(translated, skip_special_tokens=True)[0]
-    return translation
-# Save the models and tokenizer
-speech_recognition_model.save_pretrained("path/to/save/wav2vec2")
-speech_recognition_tokenizer.save_pretrained("path/to/save/wav2vec2")
-translation_model.save_pretrained("path/to/save/opus-mt-en-hi")
-translation_tokenizer.save_pretrained("path/to/save/opus-mt-en-hi")
-from datetime import datetime
 import pytz
-def is_after_6_pm_ist():
     ist = pytz.timezone('Asia/Kolkata')
     current_time = datetime.now(ist)
     return current_time.hour >= 18
-if is_after_6_pm_ist():
-    translation = translate_audio("path/to/audio/file.wav")
-    print(translation)
-else:
-    print("The translation service is available after 6 PM IST.")

+from flask import Flask, request, jsonify
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, MarianMTModel, MarianTokenizer
+import torch
 import pytz
+from datetime import datetime
+from pydub import AudioSegment
+import io
+app = Flask(__name__)
+# Load pre-trained models and tokenizers
+asr_model_name = "facebook/wav2vec2-large-960h"
+translation_model_name = "Helsinki-NLP/opus-mt-en-hi"
+asr_processor = Wav2Vec2Processor.from_pretrained(asr_model_name)
+asr_model = Wav2Vec2ForCTC.from_pretrained(asr_model_name)
+translator = MarianMTModel.from_pretrained(translation_model_name)
+tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
+# Function to convert audio file to text
+def audio_to_text(audio_file):
+    audio_input = AudioSegment.from_file(audio_file)
+    audio_array = np.array(audio_input.get_array_of_samples())
+    inputs = asr_processor(audio_array, sampling_rate=16000, return_tensors="pt", padding=True)
+    with torch.no_grad():
+        logits = asr_model(inputs.input_values).logits
+    predicted_ids = torch.argmax(logits, dim=-1)
+    transcription = asr_processor.batch_decode(predicted_ids)[0]
+    return transcription
+# Function to translate text from English to Hindi
+def translate_text(text):
+    inputs = tokenizer(text, return_tensors="pt", padding=True)
+    translated = translator.generate(**inputs)
+    translated_text = tokenizer.batch_decode(translated, skip_special_tokens=True)[0]
+    return translated_text
+# Function to check if the current time is after 6 PM IST
+def is_after_6pm_ist():
     ist = pytz.timezone('Asia/Kolkata')
     current_time = datetime.now(ist)
     return current_time.hour >= 18
+@app.route('/translate', methods=['POST'])
+def translate_audio():
+    if not is_after_6pm_ist():
+        return jsonify({'error': 'Service available only after 6 PM IST'}), 403
+    if 'audio' not in request.files:
+        return jsonify({'error': 'No audio file provided'}), 400
+    audio_file = request.files['audio']
+    text = audio_to_text(audio_file)
+    translated_text = translate_text(text)
+    return jsonify({'translation': translated_text})
+if __name__ == '__main__':
+    app.run(host='0.0.0.0', port=5000)