Spaces:

QuoQA-NLP
/

KoQuillBot

Runtime error

App Files Files Community

snoop2head commited on Jul 13, 2022

Commit

ec0b50d

1 Parent(s): 2a9d3fa

update: code

Browse files

Files changed (2) hide show

.gitignore +1 -0
app.py +65 -22

.gitignore ADDED Viewed

	@@ -0,0 +1 @@


1	+ .python-version

app.py CHANGED Viewed

@@ -16,40 +16,77 @@ en2ko_model = AutoModelForSeq2SeqLM.from_pretrained("QuoQA-NLP/KE-T5-En2Ko-Base"
 st.title("🤖 KoQuillBot")
-default_value = "안녕하세요. 저는 문장을 다시 작성해주는 KoQuillBot입니다."
 src_text = st.text_area(
     "바꾸고 싶은 문장을 입력하세요:",
     default_value,
     height=50,
     max_chars=200,
 )
-if st.button("문장 변환"):
     if src_text == "":
         st.warning("Please **enter text** for translation")
     else:
-        translated = ko2en_model.generate(
-            **tokenizer(
-                [src_text],
-                return_tensors="pt",
-                padding=True,
-                max_length=64,
-            ),
-            max_length=64,
-            num_beams=5,
-            repetition_penalty=1.3,
-            no_repeat_ngram_size=3,
-            num_return_sequences=1,
         )
-        list_translated = [
-            tokenizer.decode(t, skip_special_tokens=True) for t in translated
-        ]
-        backtranslated = en2ko_model.generate(
             **tokenizer(
-                list_translated,
                 return_tensors="pt",
                 padding=True,
                 max_length=64,
@@ -60,10 +97,16 @@ if st.button("문장 변환"):
             no_repeat_ngram_size=3,
             num_return_sequences=1,
         )
 else:
     pass
-print([tokenizer.decode(t, skip_special_tokens=True) for t in backtranslated])
-st.write([tokenizer.decode(t, skip_special_tokens=True) for t in backtranslated][0])

 st.title("🤖 KoQuillBot")
+default_value = "한국어 문장 변환기 QuillBot입니다."
 src_text = st.text_area(
     "바꾸고 싶은 문장을 입력하세요:",
     default_value,
     height=50,
     max_chars=200,
 )
+print(src_text)
+# num_beams = st.sidebar.slider(
+#     "Num Beams", min_value=5, max_value=10, value=5
+# )  # https://huggingface.co/blog/constrained-beam-search
+# temperature = st.sidebar.slider(
+#     "Temperature", value=0.9, min_value=0.0, max_value=1.0, step=0.05
+# )
+# top_k = st.sidebar.slider("Top-k", min_value=0, max_value=5, value=0)
+# top_p = st.sidebar.slider("Top-p", min_value=0.0, max_value=1.0, step=0.05, value=1.0)
+def infer_sentence(model, src_text, tokenizer=tokenizer):
+    encoded_prompt = tokenizer.encode(
+        src_text,
+        add_special_tokens=False,
+        return_tensors="pt",
+        padding=True,
+        max_length=64,
+    )
+    if encoded_prompt.size()[-1] == 0:
+        input_ids = None
+    else:
+        input_ids = encoded_prompt
+    output_sequences = model.generate(
+        input_ids=input_ids,
+        max_length=64,
+        num_beams=5,
+        repetition_penalty=1.3,
+        no_repeat_ngram_size=3,
+        num_return_sequences=1,
+    )
+    print(output_sequences)
+    generated_sequence = output_sequences[0]
+    print(generated_sequence)
+    # Decode text
+    text = tokenizer.decode(
+        generated_sequence, clean_up_tokenization_spaces=True, skip_special_tokens=True
+    )
+    print(text)
+    # Remove all text after the pad token
+    stop_token = tokenizer.eos_token
+    text = text[: text.find(stop_token) if stop_token else None]
+    text = text.strip()
+    return text
+if st.button("문장 변환") or src_text == default_value:
     if src_text == "":
         st.warning("Please **enter text** for translation")
     else:
+        st.success("Translating...")
+        english_translation = infer_sentence(
+            model=ko2en_model, src_text=src_text, tokenizer=tokenizer
         )
+        korean_translation = en2ko_model.generate(
             **tokenizer(
+                english_translation,
                 return_tensors="pt",
                 padding=True,
                 max_length=64,
             no_repeat_ngram_size=3,
             num_return_sequences=1,
         )
+        korean_translation = tokenizer.decode(
+            korean_translation[0],
+            clean_up_tokenization_spaces=True,
+            skip_special_tokens=True,
+        )
+        st.success(f"{src_text} -> {english_translation} -> {korean_translation}")
 else:
     pass
+st.write(korean_translation)
+print(korean_translation)