Spaces:

TwentyNine
/

byt5-ain-kana-latin-converter

Running

File size: 1,547 Bytes

dbd0cd3
f7c5310
59c9f9b
f7c5310
 
 
 
3a028ad
 
60a7c28
63507dd
3a028ad
811019f
3a028ad
 
811019f
3a028ad
 
811019f
f7c5310
 
 
b042fbc
6c82ba0
3a028ad
63507dd
f7c5310
 
63507dd
3a028ad

import gradio as gr
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("TwentyNine/byt5-ain-kana-latin-converter-v1")
model = AutoModelForSeq2SeqLM.from_pretrained("TwentyNine/byt5-ain-kana-latin-converter-v1")

def transcribe(input_str):
    output_str = ''

    for input in input_str.split('\n'):
        input_enc  = tokenizer.encode(input.strip(), return_tensors='pt')
        output_enc = model.generate(input_enc, max_length=256)
        
        if len(output_str) > 0:
            output_str = output_str + '\n'
            
        output_str = output_str + tokenizer.decode(output_enc[0], skip_special_tokens=True)
        
    return output_str

gradio_app = gr.Interface(
    transcribe,
    inputs=gr.Textbox(label='Input (kana)', value='トゥイマ　ヒ　ワ　エエㇰ　ワ　ヒオーイオイ。ピㇼカノ　ヌカㇻ　ヤン！', placeholder='トゥイマ　ヒ　ワ　エエㇰ　ワ　ヒオーイオイ。ピㇼカノ　ヌカㇻ　ヤン！', info='Ainu text written in Japanese katakana (input).', interactive=True, autofocus=True),
    outputs=gr.Textbox(label='Output (alphabet)', info='Ainu text written in the Latin alphabet (output).'),
    title='BYT5 Ainu Kana-Latin Converter (V1)',
    article='<p>Example sentence borrowed from <a href="https://www.hakusuisha.co.jp/book/b584600.html">New Express Ainu-go</a> by <a href="https://researchmap.jp/read0064265/?lang=english">NAKAGAWA Hiroshi</a></p>'
)

if __name__ == '__main__':
    gradio_app.launch()