Spaces:

englissi
/

bgtts

Sleeping

File size: 1,337 Bytes

eefe9ae
 
2ec67ac
 
eefe9ae
 
 
ebb2d0b
 
 
 
 
 
 
2e7a42e
ebb2d0b
 
 
 
 
 
 
 
 
 
 
 
 
 
eefe9ae
2ec67ac
eefe9ae
 
 
2e7a42e
 
eefe9ae
 
 
 
2e7a42e

import gradio as gr
from gtts import gTTS
from pydub import AudioSegment
import numpy as np
import os

def text_to_speech(prompt):
    # gTTS를 이용해 Bulgarian 텍스트를 음성으로 변환
    tts = gTTS(text=prompt, lang="bg")
    audio_file = "output.mp3"
    tts.save(audio_file)
    
    # pydub으로 mp3 파일 불러오기
    sound = AudioSegment.from_mp3(audio_file)
        
    # pydub가 제공하는 raw 데이터를 NumPy 배열로 변환 (int16)
    samples = np.array(sound.get_array_of_samples())
    
    # 만약 스테레오라면 모노로 변환 (채널 평균)
    if sound.channels > 1:
        samples = samples.reshape((-1, sound.channels))
        samples = samples.mean(axis=1)
    
    # int16 데이터를 float32로 정규화 (범위: [-1.0, 1.0])
    samples = samples.astype(np.float32) / 32768.0
    sample_rate = sound.frame_rate

    # 임시 파일 삭제
    os.remove(audio_file)
    
    return samples, sample_rate

with gr.Blocks() as demo:
    gr.Markdown("## Bulgarian Text-to-Speech (TTS)")
    input_prompt = gr.Textbox(label="Enter a prompt in Bulgarian:")
    output_audio = gr.Audio(label="Generated Speech", type="numpy")
    generate_button = gr.Button("Generate Speech")
    
    generate_button.click(text_to_speech, inputs=input_prompt, outputs=output_audio)

demo.launch()