Spaces:

englissi
/

bgtts

Running

File size: 1,573 Bytes

eefe9ae
 
2ec67ac
 
eefe9ae
 
 
ebb2d0b
 
 
 
 
564910c
ebb2d0b
564910c
 
ebb2d0b
 
 
 
 
 
 
 
 
 
 
564910c
ebb2d0b
eefe9ae
564910c
2ec67ac
eefe9ae
 
 
564910c
 
 
 
eefe9ae
 
 
 
564910c

import gradio as gr
from gtts import gTTS
from pydub import AudioSegment
import numpy as np
import os

def text_to_speech(prompt):
    # gTTS를 이용해 Bulgarian 텍스트를 음성으로 변환
    tts = gTTS(text=prompt, lang="bg")
    audio_file = "output.mp3"
    tts.save(audio_file)
    
    # pydub를 사용하여 mp3 파일을 불러옵니다.
    sound = AudioSegment.from_mp3(audio_file)
    
    # pydub의 raw 데이터를 numpy 배열로 변환 (int16)
    samples = np.array(sound.get_array_of_samples())
    
    # 만약 스테레오라면 모노로 변환 (채널 평균)
    if sound.channels > 1:
        samples = samples.reshape((-1, sound.channels))
        samples = samples.mean(axis=1)
    
    # int16 데이터를 float32로 정규화 (범위: [-1.0, 1.0])
    samples = samples.astype(np.float32) / 32768.0
    sample_rate = sound.frame_rate

    # 임시로 생성한 mp3 파일 삭제
    os.remove(audio_file)
    
    # gr.Audio(type="numpy")는 (numpy_array, sample_rate) 튜플을 기대합니다.
    return samples, sample_rate

with gr.Blocks() as demo:
    gr.Markdown("## Bulgarian Text-to-Speech (TTS)")
    with gr.Row():
        input_prompt = gr.Textbox(label="Enter a prompt in Bulgarian:")
        # type을 "numpy"로 설정하여 numpy 배열을 사용합니다.
        output_audio = gr.Audio(label="Generated Speech", type="numpy")
    generate_button = gr.Button("Generate Speech")
    
    generate_button.click(text_to_speech, inputs=input_prompt, outputs=output_audio)

if __name__ == "__main__":
    demo.launch()