vlT5-rfc-generation

Running

App Files Files Community

AgaMiko commited on Apr 12, 2023

Commit

bea6893

0 Parent(s):

Duplicate from Voicelab/vlT5-keywords-generation

Browse files

Files changed (7) hide show

.gitattributes +34 -0
README.md +13 -0
app.py +100 -0
images/favicon_vl.png +0 -0
images/sVL-NLP-short.png +0 -0
images/vl-logo-nlp-blue.png +0 -0
requirements.txt +5 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: VlT5 Keywords Generation
+emoji: 🌍
+colorFrom: pink
+colorTo: pink
+sdk: streamlit
+sdk_version: 1.15.2
+app_file: app.py
+pinned: false
+duplicated_from: Voicelab/vlT5-keywords-generation
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,100 @@

+from transformers import T5ForConditionalGeneration, T5Tokenizer
+import streamlit as st
+from PIL import Image
+import os
+@st.cache(allow_output_mutation=True)
+def load_model_cache():
+    auth_token = os.environ.get("TOKEN_FROM_SECRET") or True
+    tokenizer_en = T5Tokenizer.from_pretrained(
+    "Voicelab/vlt5-base-keywords-v4_3-en", use_auth_token=auth_token
+    )
+    model_en = T5ForConditionalGeneration.from_pretrained(
+        "Voicelab/vlt5-base-keywords-v4_3-en", use_auth_token=auth_token
+    )
+    tokenizer_pl = T5Tokenizer.from_pretrained(
+        "Voicelab/vlt5-base-keywords-v4_3", use_auth_token=auth_token
+    )
+    model_pl = T5ForConditionalGeneration.from_pretrained(
+        "Voicelab/vlt5-base-keywords-v4_3", use_auth_token=auth_token
+    )
+    return tokenizer_en, model_en, tokenizer_pl, model_pl
+img_full = Image.open("images/vl-logo-nlp-blue.png")
+img_short = Image.open("images/sVL-NLP-short.png")
+img_favicon = Image.open("images/favicon_vl.png")
+max_length: int = 1000
+cache_size: int = 100
+st.set_page_config(
+    page_title="DEMO - keywords generation",
+    page_icon=img_favicon,
+    initial_sidebar_state="expanded",
+)
+tokenizer_en, model_en, tokenizer_pl, model_pl = load_model_cache()
+def get_predictions(text, language):
+    if language == "Polish":
+        input_ids = tokenizer_pl(text, return_tensors="pt", truncation=True).input_ids
+        output = model_pl.generate(
+            input_ids,
+            no_repeat_ngram_size=2,
+            num_beams=3,
+            num_beam_groups=3,
+            repetition_penalty=1.5,
+            diversity_penalty=2.0,
+            length_penalty=2.0,
+        )
+        predicted_kw = tokenizer_pl.decode(output[0], skip_special_tokens=True)
+    elif language == "English":
+        input_ids = tokenizer_en(text, return_tensors="pt", truncation=True).input_ids
+        output = model_en.generate(
+            input_ids,
+            no_repeat_ngram_size=2,
+            num_beams=3,
+            num_beam_groups=3,
+            repetition_penalty=1.5,
+            diversity_penalty=2.0,
+            length_penalty=2.0,
+        )
+        predicted_kw = tokenizer_en.decode(output[0], skip_special_tokens=True)
+    return predicted_kw
+def trim_length():
+    if len(st.session_state["input"]) > max_length:
+        st.session_state["input"] = st.session_state["input"][:max_length]
+if __name__ == "__main__":
+    st.sidebar.image(img_short)
+    st.image(img_full)
+    st.title("VLT5 - keywords generation")
+    generated_keywords = ""
+    user_input = st.text_area(
+        label=f"Input text (max {max_length} characters)",
+        value="",
+        height=300,
+        on_change=trim_length,
+        key="input",
+    )
+    language = st.sidebar.title("Model settings")
+    language = st.sidebar.radio(
+        "Select model to test",
+        [
+            "Polish",
+            "English",
+        ],
+    )
+    result = st.button("Generate keywords")
+    if result:
+        generated_keywords = get_predictions(text=user_input, language=language)
+        st.text_area("Generated keywords", generated_keywords)
+        print(f"Input: {user_input}---> Keywords: {generated_keywords}")

images/favicon_vl.png ADDED Viewed

images/sVL-NLP-short.png ADDED Viewed

images/vl-logo-nlp-blue.png ADDED Viewed

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+streamlit
+transformers
+torch
+transformers[sentencepiece]
+Pillow