Spaces:

deepugaur
/

audio_translation

Running

App Files Files Community

deepugaur commited on Jul 29, 2024

Commit

aa35b70

verified ·

1 Parent(s): 3b8f19e

Create app.py

Browse files

Files changed (1) hide show

app.py +58 -0

app.py ADDED Viewed

	@@ -0,0 +1,58 @@

+import librosa
+import numpy as np
+def extract_features(audio_path):
+    y, sr = librosa.load(audio_path, sr=16000)
+    mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
+    return np.mean(mfccs.T, axis=0)
+# Example usage
+features = extract_features("path/to/audio/file.wav")
+from transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizer, MarianMTModel, MarianTokenizer
+# Load pre-trained models
+speech_recognition_model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-960h")
+speech_recognition_tokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-large-960h")
+translation_model = MarianMTModel.from_pretrained("Helsinki-NLP/opus-mt-en-hi")
+translation_tokenizer = MarianTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-hi")
+from transformers import pipeline
+# Example inference pipeline
+def translate_audio(audio_path):
+    # Speech Recognition
+    speech_input = speech_recognition_tokenizer(extract_features(audio_path), return_tensors="pt").input_values
+    logits = speech_recognition_model(speech_input).logits
+    transcription = speech_recognition_tokenizer.batch_decode(torch.argmax(logits, dim=-1))[0]
+    # Translation
+    translated = translation_model.generate(**translation_tokenizer.prepare_seq2seq_batch(transcription, return_tensors="pt"))
+    translation = translation_tokenizer.batch_decode(translated, skip_special_tokens=True)[0]
+    return translation
+# Save the models and tokenizer
+speech_recognition_model.save_pretrained("path/to/save/wav2vec2")
+speech_recognition_tokenizer.save_pretrained("path/to/save/wav2vec2")
+translation_model.save_pretrained("path/to/save/opus-mt-en-hi")
+translation_tokenizer.save_pretrained("path/to/save/opus-mt-en-hi")
+# Upload to Hugging Face
+!huggingface-cli login
+!transformers-cli upload path/to/save/wav2vec2
+!transformers-cli upload path/to/save/opus-mt-en-hi
+from datetime import datetime
+import pytz
+def is_after_6_pm_ist():
+    ist = pytz.timezone('Asia/Kolkata')
+    current_time = datetime.now(ist)
+    return current_time.hour >= 18
+if is_after_6_pm_ist():
+    translation = translate_audio("path/to/audio/file.wav")
+    print(translation)
+else:
+    print("The translation service is available after 6 PM IST.")