Spaces:

deepugaur
/

audio_translation

Sleeping

App Files Files Community

deepugaur commited on Jul 29, 2024

Commit

e26c7a0

verified ·

1 Parent(s): 8bc1ae5

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -52

app.py CHANGED Viewed

@@ -1,59 +1,51 @@
-from flask import Flask, request, jsonify
-from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, MarianMTModel, MarianTokenizer
-import torch
-import pytz
-from datetime import datetime
-from pydub import AudioSegment
-import io
-app = Flask(__name__)
-# Load pre-trained models and tokenizers
-asr_model_name = "facebook/wav2vec2-large-960h"
-translation_model_name = "Helsinki-NLP/opus-mt-en-hi"
-asr_processor = Wav2Vec2Processor.from_pretrained(asr_model_name)
-asr_model = Wav2Vec2ForCTC.from_pretrained(asr_model_name)
-translator = MarianMTModel.from_pretrained(translation_model_name)
-tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
-# Function to convert audio file to text
-def audio_to_text(audio_file):
-    audio_input = AudioSegment.from_file(audio_file)
-    audio_array = np.array(audio_input.get_array_of_samples())
-    inputs = asr_processor(audio_array, sampling_rate=16000, return_tensors="pt", padding=True)
-    with torch.no_grad():
-        logits = asr_model(inputs.input_values).logits
-    predicted_ids = torch.argmax(logits, dim=-1)
-    transcription = asr_processor.batch_decode(predicted_ids)[0]
-    return transcription
-# Function to translate text from English to Hindi
-def translate_text(text):
     inputs = tokenizer(text, return_tensors="pt", padding=True)
-    translated = translator.generate(**inputs)
-    translated_text = tokenizer.batch_decode(translated, skip_special_tokens=True)[0]
     return translated_text
-# Function to check if the current time is after 6 PM IST
-def is_after_6pm_ist():
-    ist = pytz.timezone('Asia/Kolkata')
-    current_time = datetime.now(ist)
-    return current_time.hour >= 18
-@app.route('/translate', methods=['POST'])
-def translate_audio():
-    if not is_after_6pm_ist():
-        return jsonify({'error': 'Service available only after 6 PM IST'}), 403
-    if 'audio' not in request.files:
-        return jsonify({'error': 'No audio file provided'}), 400
-    audio_file = request.files['audio']
-    text = audio_to_text(audio_file)
-    translated_text = translate_text(text)
-    return jsonify({'translation': translated_text})
-if __name__ == '__main__':
-    app.run(host='0.0.0.0', port=5000)

+import librosa
+import numpy as np
+import tensorflow as tf
+def load_audio(file_path):
+    audio, sr = librosa.load(file_path, sr=16000)
+    return audio, sr
+def extract_features(audio, sr):
+    mfccs = librosa.feature.mfcc(y=audio, sr=sr, n_mfcc=13)
+    return mfccs
+# Load pre-trained model (example: DeepSpeech)
+model = tf.keras.models.load_model('deepspeech_model.h5')
+def speech_to_text(audio):
+    features = extract_features(audio, 16000)
+    features = np.expand_dims(features, axis=0)  # Model expects batch dimension
+    text = model.predict(features)
+    return text
+from transformers import MarianMTModel, MarianTokenizer
+# Load pre-trained translation model
+model_name = 'Helsinki-NLP/opus-mt-en-hi'
+tokenizer = MarianTokenizer.from_pretrained(model_name)
+translation_model = MarianMTModel.from_pretrained(model_name)
+def translate_text(text, tokenizer, model):
     inputs = tokenizer(text, return_tensors="pt", padding=True)
+    translated = model.generate(**inputs)
+    translated_text = tokenizer.decode(translated[0], skip_special_tokens=True)
     return translated_text
+import datetime
+def process_audio_for_translation(audio_file_path):
+    current_time = datetime.datetime.now().time()
+    if current_time < datetime.time(18, 0):
+        return "Translation service is available only after 6 PM IST"
+    audio, sr = load_audio(audio_file_path)
+    english_text = speech_to_text(audio)
+    hindi_text = translate_text(english_text, tokenizer, translation_model)
+    return hindi_text
+# Example usage
+audio_file_path = 'path_to_audio_file.wav'
+translated_text = process_audio_for_translation(audio_file_path)
+print(translated_text)