Spaces:

ai01firebird
/

Emojinator

Sleeping

App Files Files

ai01firebird commited on Apr 28

Commit

0abc7a9

verified ·

1 Parent(s): 8634e34

switch to emojinator-gpt2-v3

Browse files

Files changed (1) hide show

app.py +34 -7

app.py CHANGED Viewed

@@ -5,7 +5,11 @@ import torch
 # Modell und Tokenizer laden
 HF_USER = "ai01firebird"
-MODEL_NAME = "emojinator-gpt2"
 # gpt2 outputs text!
 #tokenizer = AutoTokenizer.from_pretrained("openai-community/gpt2")
@@ -15,10 +19,6 @@ MODEL_NAME = "emojinator-gpt2"
 #tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
 #model = AutoModelForCausalLM.from_pretrained("distilgpt2")
-# fine-tuned
-model = AutoModelForCausalLM.from_pretrained(f"{HF_USER}/{MODEL_NAME}")
-tokenizer = AutoTokenizer.from_pretrained(f"{HF_USER}/{MODEL_NAME}")
 # tiny-gpt2 is only 20MB -> NOK, no emojis
 #tokenizer = AutoTokenizer.from_pretrained("sshleifer/tiny-gpt2")
 #model = AutoModelForCausalLM.from_pretrained("sshleifer/tiny-gpt2")
@@ -28,7 +28,7 @@ tokenizer = AutoTokenizer.from_pretrained(f"{HF_USER}/{MODEL_NAME}")
 #model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
 # OLD conversion method
-def text_to_emoji_OLD(input_text):
     # Eingabetext bereinigen (optional)
     cleaned_text = re.sub(r"[.,!?;:]", "", input_text)
@@ -54,7 +54,7 @@ def text_to_emoji_OLD(input_text):
     return emoji_part
 # conversion method
-def text_to_emoji(input_text):
     # Eingabetext bereinigen (optional)
     cleaned_text = re.sub(r"[.,!?;:]", "", input_text)
@@ -73,6 +73,7 @@ def text_to_emoji(input_text):
         "Let’s party → 🎉🕺💃\n"
         f"{cleaned_text} →"
     )
     # Tokenisierung und Generation
     inputs = tokenizer(prompt, return_tensors="pt")
@@ -93,6 +94,32 @@ def text_to_emoji(input_text):
     return emoji_part
 # Gradio UI
 iface = gr.Interface(
     fn=text_to_emoji,

 # Modell und Tokenizer laden
 HF_USER = "ai01firebird"
+MODEL_NAME = "emojinator-gpt2-v3"
+# fine-tuned
+model = AutoModelForCausalLM.from_pretrained(f"{HF_USER}/{MODEL_NAME}")
+tokenizer = AutoTokenizer.from_pretrained(f"{HF_USER}/{MODEL_NAME}")
 # gpt2 outputs text!
 #tokenizer = AutoTokenizer.from_pretrained("openai-community/gpt2")
 #tokenizer = AutoTokenizer.from_pretrained("distilgpt2")
 #model = AutoModelForCausalLM.from_pretrained("distilgpt2")
 # tiny-gpt2 is only 20MB -> NOK, no emojis
 #tokenizer = AutoTokenizer.from_pretrained("sshleifer/tiny-gpt2")
 #model = AutoModelForCausalLM.from_pretrained("sshleifer/tiny-gpt2")
 #model = AutoModelForCausalLM.from_pretrained("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
 # OLD conversion method
+def text_to_emoji_OLD_OLD(input_text):
     # Eingabetext bereinigen (optional)
     cleaned_text = re.sub(r"[.,!?;:]", "", input_text)
     return emoji_part
 # conversion method
+def text_to_emoji_OLD(input_text):
     # Eingabetext bereinigen (optional)
     cleaned_text = re.sub(r"[.,!?;:]", "", input_text)
         "Let’s party → 🎉🕺💃\n"
         f"{cleaned_text} →"
     )
+    prompt = f"Text: {input_text}\nEmoji:"
     # Tokenisierung und Generation
     inputs = tokenizer(prompt, return_tensors="pt")
     return emoji_part
+# conversion method
+def text_to_emoji(input_text):
+    # Eingabetext bereinigen (optional)
+    cleaned_text = re.sub(r"[.,!?;:]", "", input_text)
+    prompt = f"Text: {cleaned_text}\nEmoji:"
+    # Tokenisierung und Generation
+    inputs = tokenizer(prompt, return_tensors="pt")
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=10,
+        do_sample=True,
+        temperature=0.9,
+        top_k=50,
+        pad_token_id=tokenizer.eos_token_id  # Prevents warning
+    )
+    # Decodieren
+    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # Nur den generierten Teil nach dem letzten "→"
+    emoji_part = generated_text.split("→")[-1].strip().split("\n")[0]
+    return emoji_part
 # Gradio UI
 iface = gr.Interface(
     fn=text_to_emoji,