speech_recognize1

Sleeping

App Files Files Community

mr2along commited on Oct 11, 2024

Commit

540f4c8

verified ·

1 Parent(s): e3a58c6

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -28

app.py CHANGED Viewed

@@ -2,9 +2,7 @@ import os
 import speech_recognition as sr
 import difflib
 import gradio as gr
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer
-import soundfile as sf
 # Tạo thư mục audio nếu chưa tồn tại
 if not os.path.exists('audio'):
@@ -16,18 +14,6 @@ def transcribe_audio(audio):
         return "No audio file provided."  # Xử lý trường hợp không có tệp âm thanh
     recognizer = sr.Recognizer()
-    audio_format = audio.split('.')[-1].lower()
-    # Chuyển đổi sang WAV nếu âm thanh không ở định dạng hỗ trợ
-    if audio_format != 'wav':
-        try:
-            audio_segment = AudioSegment.from_file(audio)
-            wav_path = audio.replace(audio_format, 'wav')
-            audio_segment.export(wav_path, format='wav')  # Chuyển đổi sang WAV
-            audio = wav_path  # Cập nhật đường dẫn âm thanh
-        except Exception as e:
-            return f"Error converting audio: {e}"
     audio_file = sr.AudioFile(audio)
     with audio_file as source:
@@ -43,20 +29,9 @@ def transcribe_audio(audio):
 # Bước 2: Tạo âm thanh phát âm cho các từ sai
 def create_pronunciation_audio(word):
-    model_name = "tts_models/en/ljspeech/tacotron2"  # Mô hình TTS
-    model = AutoModelForCausalLM.from_pretrained(model_name)
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
-    inputs = tokenizer(word, return_tensors="pt")
-    # Tạo âm thanh từ văn bản
-    with torch.no_grad():
-        outputs = model.generate(**inputs)
-    # Lưu âm thanh vào tệp
     audio_file_path = f"audio/{word}.wav"
-    sf.write(audio_file_path, outputs.numpy(), 22050)  # Giả định tần số mẫu 22050Hz
     return audio_file_path
 # Bước 3: So sánh văn bản đã chuyển đổi với đoạn văn bản gốc

 import speech_recognition as sr
 import difflib
 import gradio as gr
+from transformers import pipeline
 # Tạo thư mục audio nếu chưa tồn tại
 if not os.path.exists('audio'):
         return "No audio file provided."  # Xử lý trường hợp không có tệp âm thanh
     recognizer = sr.Recognizer()
     audio_file = sr.AudioFile(audio)
     with audio_file as source:
 # Bước 2: Tạo âm thanh phát âm cho các từ sai
 def create_pronunciation_audio(word):
+    tts = pipeline("text-to-speech", model="tts_models/en/ljspeech/tacotron2")  # Sử dụng pipeline TTS
     audio_file_path = f"audio/{word}.wav"
+    tts(word, output_file=audio_file_path)  # Tạo âm thanh từ văn bản
     return audio_file_path
 # Bước 3: So sánh văn bản đã chuyển đổi với đoạn văn bản gốc