paulhindemith
/

fasttext-jp-embedding

Feature Extraction

Model card Files Files and versions Community

Taizo Kaneko commited on Nov 6, 2022

Commit

3d6c14c

•

1 Parent(s): 70a4362

commit files to HF hub

Files changed (2) hide show

README.md +1 -0
fasttext_jp_embedding.py +8 -2

README.md CHANGED Viewed

@@ -40,4 +40,5 @@ Google Colaboratory Example
 from transformers import pipeline
 pipeline = pipeline("feature-extraction", model="paulhindemith/fasttext-jp-embedding", revision="2022.11.6", trust_remote_code=True)
 ```

 from transformers import pipeline
 pipeline = pipeline("feature-extraction", model="paulhindemith/fasttext-jp-embedding", revision="2022.11.6", trust_remote_code=True)
+pipeline("海賊王におれはなる")
 ```

fasttext_jp_embedding.py CHANGED Viewed

@@ -3,6 +3,7 @@ from transformers import PretrainedConfig
 from transformers import PreTrainedModel
 from torch import nn
 import torch
 class FastTextJpConfig(PretrainedConfig):
@@ -32,8 +33,13 @@ class FastTextJpModel(PreTrainedModel):
         self.word_embeddings = nn.Embedding(config.vocab_size,
                                             config.hidden_size)
-    def forward(self, input_ids, **kwargs):
-        return self.word_embeddings(torch.tensor([0]))
 # AutoModelに登録が必要だが、いろいろやり方が変わっているようで定まっていない。(2022/11/6)

 from transformers import PreTrainedModel
 from torch import nn
 import torch
+from torchtyping import TensorType
 class FastTextJpConfig(PretrainedConfig):
         self.word_embeddings = nn.Embedding(config.vocab_size,
                                             config.hidden_size)
+    def forward(self, **inputs) -> TensorType["batch", "word", "vectors"]:
+        """embeddingを行います。
+        Returns:
+            TensorType["batch", "word", "vectors"]: 単語ごとにベクトルを返します。
+        """
+        return self.word_embeddings(torch.Tensor(inputs["input_ids"]))
 # AutoModelに登録が必要だが、いろいろやり方が変わっているようで定まっていない。(2022/11/6)