Spaces:

3syunojingi
/

Whisper_Basic

Running

File size: 5,689 Bytes

import gradio as gr
from openai import OpenAI
import os
import time

audio_format = [".mp3", ".mp4", ".mpeg", ".mpga", ".m4a", ".wav", ".webm"
                ,".MP3", ".MP4", ".MPEG", ".MPGA", ".M4A", ".WAV", ".WEBM"]

lang_code = {'Japanese': "ja", 'English': "en"}
mode_code = {'文字': "transcribe", '翻訳': "translate"}

max_file_size = 25 * 1024 * 1024

def set_state(openai_key, lang, mode, state):

    state["openai_key"]= openai_key
    state["lang"] = lang_code[lang]
    state["mode"] = mode_code[mode[0:2]]

    return state

def create_textfile(voice_msg, up_file ,state):

    # OpenAIキーチェック
    if state["openai_key"] == "":

        err_msg = "OpenAIキーを入力してください。（設定タブ）"

        return voice_msg, up_file, "", None, err_msg

    # ファイル入力チェック
    if up_file is None and voice_msg is None:

        err_msg = "マイクかファイルで音声を入力してください。"

        return None, None, "", None, err_msg

    # アップロードの場合ファイルチェック
    if voice_msg is None:

        # ファイルパスなど取得
        file_name = os.path.splitext(os.path.basename(up_file.name))[0]
        root, ext = os.path.splitext(up_file.name)

        if ext not in audio_format:

            # ファイル形式チェック
            err_msg = "指定した形式のファイルをアップしてください。（mp3, mp4, mpeg, mpga, m4a, wav, webm）"

            return None, None, "", None, err_msg

        file_size = os.path.getsize(up_file.name)

        if file_size >= max_file_size:

            # ファイルサイズチェック
            err_msg = "ファイルが大きすぎます。25MB未満にして下さい。"

            return None, up_file.name, "", None, err_msg

    # 音声ファイルセット
    if voice_msg:
        audio_file= open(voice_msg, "rb")

    else:
        audio_file= open(up_file.name, "rb")

    try:

      # whisperで変換処理
      os.environ["OPENAI_API_KEY"] = state["openai_key"]

      # クライアント新規作成
      client = OpenAI()

      # client作成後は消す
      os.environ["OPENAI_API_KEY"] = ""

      if state["mode"] == "transcribe":

          # 文字起こし実行
          trans_text = client.audio.transcriptions.create(model="whisper-1", file=audio_file ,language = state["lang"], response_format="text")

      else:

          # 翻訳文字起こし実行
          trans_text = client.audio.translations.create(model="whisper-1", file=audio_file, response_format="text")

      # ファイル名設定
      if voice_msg:
          trans_file = trans_text[:8] + "_whisper.txt"
      else:
          trans_file = file_name + "_whisper.txt"

      with open(trans_file, mode="w") as f:

          # テキストに書き出す
          f.write(trans_text)

      return None, None, trans_text, trans_file, ""

    except Exception as e:

      return voice_msg, None, "", None, e

def wait_mic_process():

    # 録音後処理に時間がかかるので待つ
    time.sleep(1)

    return gr.update(interactive=True)

with gr.Blocks() as demo:

    title = "<h2>Whisperデモアプリ【基本版】</h2>"
    message = "<h3>最初に[設定]タブからOpenAIキーを入力してください。"
    message += "</h3>"

    gr.Markdown(title + message)

    # セッションの宣言
    state = gr.State({
        "openai_key" : "",
        "lang": "",
        "mode" : "",
    })

    with gr.Tab("whisperを利用する") as maintab:

      # 各コンポーネント定義
      voice_msg=gr.components.Audio(sources="microphone",type="filepath", label="音声入力")
      up_file = gr.File(file_types=[".mp3", ".mp4", ".mpeg", ".mpga", ".m4a", ".wav", ".webm"], label="音声ファイルアップロード", type="filepath")

      # ボタン類
      with gr.Row():
        btn = gr.Button("文字に起こす")
        clear = gr.ClearButton([voice_msg, up_file], value="クリア")

      # 出力
      sys_msg = gr.Text(label="システムメッセージ")
      text = gr.TextArea(label="文字起こし内容")
      file = gr.File(label="出力テキストファイル")

      # 送信ボタンクリック時の処理
      btn.click(create_textfile, inputs=[voice_msg, up_file, state], outputs=[voice_msg, up_file, text, file, sys_msg], queue=True)

      # 音声録音後処理に時間がかかるのでボタンを利用不可にする
      voice_msg.start_recording(lambda:gr.update(interactive=False), None, btn)
      voice_msg.stop_recording(wait_mic_process, None, btn)

    with gr.Tab("設定") as settab:
      openai_key = gr.Textbox(label="OpenAI API Key", interactive = True)
      lang = gr.Dropdown(label="Language", choices=["Japanese", "English"], value = "Japanese", interactive = True)
      mode = gr.Dropdown(label="Mode", choices=["文字起こし", "翻訳＋文字起こし"], value = "文字起こし", interactive = True)

      # 設定変更時
      maintab.select(set_state, [openai_key, lang, mode, state], state)

    with gr.Tab("利用上の注意"):

      gr.Markdown("・マイクの音声とファイル入力の両方がある場合はマイクが優先されます。")
      gr.Markdown("・文字に起こせるファイル形式は mp3, mp4, mpeg, mpga, m4a, wav, webm のみです。")
      gr.Markdown("・翻訳は日本語の音声を英語のテキストに変えます。英語の音声→日本語はできません。")
      gr.Markdown("※翻訳機能はマイク入力の精度が低いです。ファイルでの入力をおすすめします。")

demo.queue()
demo.launch(debug=False)