Spaces:

taishi-i
/

Japanese-Tokenizer-Comparison

Running

App Files Files Community

taishi-i commited on Aug 22, 2023

Commit

6684a21

1 Parent(s): 1470ffa

add app.py and requirements.txt

Browse files

Files changed (2) hide show

app.py +87 -0
requirements.txt +8 -0

app.py ADDED Viewed

	@@ -0,0 +1,87 @@

+import gradio as gr
+from toiro import tokenizers
+num_input_lines = 3
+default_text = "ここにテキストを入力し、Submit を押してください。"
+title = "Japanese Tokenizer Comparison"
+description = """
+This is a demo comparing Japanese tokenizers. You can compare the tokenization results of tools that are available with just a `pip install` in Python.
+"""
+article = """
+# How to install each library
+[Janome](https://github.com/mocobeta/janome):
+```
+pip install janome
+```
+[nagisa](https://github.com/taishi-i/nagisa):
+```
+pip install nagisa
+```
+[sudachi.rs](https://github.com/WorksApplications/sudachi.rs):
+```
+pip install sudachipy sudachidict_core
+```
+[mecab-python3](https://github.com/SamuraiT/mecab-python3):
+```
+pip install mecab-python3
+```
+[fugashi_ipadic](https://github.com/polm/fugashi):
+```
+pip install fugashi ipadic
+```
+[fugashi_ipadic](https://github.com/polm/fugashi):
+```
+pip install fugashi unidic-lite
+```
+"""
+def tokenize(text):
+    words_janome = tokenizers.tokenize_janome(text)
+    words_nagisa = tokenizers.tokenize_nagisa(text)
+    words_sudachirs = tokenizers.tokenize_sudachipy(text)
+    words_mecabpython3 = tokenizers.tokenize_mecab(text)
+    words_fugashi_ipadic = tokenizers.tokenize_fugashi_ipadic(text)
+    words_fugashi_unidic = tokenizers.tokenize_fugashi_unidic(text)
+    return (
+        words_janome,
+        words_nagisa,
+        words_sudachirs,
+        words_mecabpython3,
+        words_fugashi_ipadic,
+        words_fugashi_unidic,
+    )
+iface = gr.Interface(
+    fn=tokenize,
+    inputs=gr.inputs.Textbox(
+        label="Input text",
+        lines=num_input_lines,
+        default=default_text,
+    ),
+    title=title,
+    description=description,
+    article=article,
+    outputs=[
+        gr.outputs.Textbox(label="Janome"),
+        gr.outputs.Textbox(label="nagisa"),
+        gr.outputs.Textbox(label="sudachi.rs"),
+        gr.outputs.Textbox(label="mecab-python3"),
+        gr.outputs.Textbox(label="fugashi_ipadic"),
+        gr.outputs.Textbox(label="fugashi_unidic"),
+    ],
+)
+iface.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+toiro
+nagisa
+sudachipy
+sudachidict_core
+mecab-python3
+fugashi
+ipadic
+unidic-lite