Spaces:

mya-mya
/

SentenceMixer

Running

App Files Files Community

Mya-Mya commited on Sep 19, 2023

Commit

5ea6a45

1 Parent(s): 4f1e4fb

Create T5Mixer

Browse files

Files changed (2) hide show

app.py +2 -1
t5mixer.py +52 -0

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from dummymixer import DummyMixer
 from frontend import launch
-launch(DummyMixer())

 from dummymixer import DummyMixer
+from t5mixer import T5Mixer
 from frontend import launch
+launch(T5Mixer())

t5mixer.py ADDED Viewed

	@@ -0,0 +1,52 @@

+from mixer import Mixer
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+import torch
+class T5Mixer(Mixer):
+    def __init__(self) -> None:
+        super().__init__()
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            "llm-book/t5-base-long-livedoor-news-corpus")
+        self.model = AutoModelForSeq2SeqLM.from_pretrained(
+            "llm-book/t5-base-long-livedoor-news-corpus")
+        self.tokenid_to_tokentext = {i: t for t,
+                                     i in self.tokenizer.get_vocab().items()}
+    def get_encoder_state(self, sentence: str):
+        inputs = self.tokenizer(sentence, return_tensors="pt")
+        eo = self.model.encoder.forward(**inputs)
+        es = eo["last_hidden_state"]
+        return es
+    def get_mixed_encode_state(
+            self, sentence_A: str, sentence_B: str, A_ratio: float = 0.5):
+        es_A = self.get_encoder_state(sentence_A)
+        es_B = self.get_encoder_state(sentence_B)
+        n_tokens_A = es_A.size(1)
+        n_tokens_B = es_B.size(1)
+        if n_tokens_A >= n_tokens_B:
+            es = es_A.clone().detach()*A_ratio
+            es[:, :n_tokens_B, :] += es_B*(1.-A_ratio)
+        else:
+            es = es_B.clone().detach()*(1.-A_ratio)
+            es[:, :n_tokens_A, :] += es_A*A_ratio
+        return es
+    def mix_sentences(self, sentence_A: str, sentence_B: str, A_ratio: float, max_n_tokens: int = 140):
+        es = self.get_mixed_encode_state(sentence_A, sentence_B, A_ratio)
+        to = torch.tensor([[self.tokenizer.pad_token_id]])
+        for i in range(max_n_tokens):
+            od = self.model.decoder.forward(
+                input_ids=to,
+                encoder_hidden_states=es+torch.randn_like(es)*noise_rate
+            )
+            sd = od.last_hidden_state
+            l = self.model.lm_head(sd[0, -1, :])
+            t_next = l.argmax()
+            ttext_next = self.tokenid_to_tokentext[int(t_next)]
+            to = torch.cat((to, t_next[None, None]), dim=-1)
+            if t_next == self.tokenizer.eos_token_id:
+                break
+        sentence = self.tokenizer.batch_decode(to)[0]
+        return sentence