Spaces:

ai01firebird
/

Emojinator

Sleeping

App Files Files

ai01firebird commited on Apr 25

Commit

6eb3e9b

verified ·

1 Parent(s): 4352744

change to pattern-based prompt for distilgpt2

Browse files

Files changed (1) hide show

app.py +45 -6

app.py CHANGED Viewed

@@ -10,19 +10,19 @@ import torch
 #model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2")
 # distilgpt2 is only 80MB -> NOK, no emojis
-#tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
-#model = AutoModelForCausalLM.from_pretrained("distilgpt2")
 # tiny-gpt2 is only 20MB -> NOK, no emojis
 #tokenizer = AutoTokenizer.from_pretrained("sshleifer/tiny-gpt2")
 #model = AutoModelForCausalLM.from_pretrained("sshleifer/tiny-gpt2")
 # TinyLlama
-tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
-model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
-# conversion method
-def text_to_emoji(input_text):
     # Eingabetext bereinigen (optional)
     cleaned_text = re.sub(r"[.,!?;:]", "", input_text)
@@ -47,6 +47,45 @@ def text_to_emoji(input_text):
     return emoji_part
 # Gradio UI
 iface = gr.Interface(

 #model = AutoModelForCausalLM.from_pretrained("openai-community/gpt2")
 # distilgpt2 is only 80MB -> NOK, no emojis
+tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
+model = AutoModelForCausalLM.from_pretrained("distilgpt2")
 # tiny-gpt2 is only 20MB -> NOK, no emojis
 #tokenizer = AutoTokenizer.from_pretrained("sshleifer/tiny-gpt2")
 #model = AutoModelForCausalLM.from_pretrained("sshleifer/tiny-gpt2")
 # TinyLlama
+#tokenizer = AutoTokenizer.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
+#model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
+# OLD conversion method
+def text_to_emoji_OLD(input_text):
     # Eingabetext bereinigen (optional)
     cleaned_text = re.sub(r"[.,!?;:]", "", input_text)
     return emoji_part
+# conversion method
+def text_to_emoji(input_text):
+    # Eingabetext bereinigen (optional)
+    cleaned_text = re.sub(r"[.,!?;:]", "", input_text)
+    # Pure pattern-based prompt
+    prompt = (
+        "Hi there → 👋🙂\n"
+        "Good night → 🌙😴\n"
+        "I love pizza → ❤️🍕\n"
+        "It's raining → 🌧️☔\n"
+        "Happy birthday → 🎉🎂🥳\n"
+        "I am so tired → 😴💤\n"
+        "Let’s go to the beach → 🏖️🌊😎\n"
+        "I’m feeling lucky → 🍀🤞\n"
+        "We’re getting married → 💍👰🤵\n"
+        "Merry Christmas → 🎄🎁🎅\n"
+        "Let’s party → 🎉🕺💃\n"
+        f"{cleaned_text} →"
+    )
+    # Tokenisierung und Generation
+    inputs = tokenizer(prompt, return_tensors="pt")
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=10,
+        do_sample=True,
+        temperature=0.9,
+        top_k=50,
+        pad_token_id=tokenizer.eos_token_id  # Prevents warning
+    )
+    # Decodieren
+    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Nur den generierten Teil nach dem letzten "→"
+    emoji_part = generated_text.split("→")[-1].strip().split("\n")[0]
+    return emoji_part
 # Gradio UI
 iface = gr.Interface(