update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,92 @@
|
|
1 |
---
|
2 |
license: apache-2.0
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
license: apache-2.0
|
3 |
---
|
4 |
+
# PLaMo-Embedding-1B
|
5 |
+
|
6 |
+
## モデルの概要
|
7 |
+
PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。
|
8 |
+
|
9 |
+
日本語の文章を入力することで数値ベクトルに変換することができ、情報検索、テキスト分類、クラスタリングなどをはじめとした幅広い用途でお使い頂けます。
|
10 |
+
|
11 |
+
日本語テキスト埋め込みのためのベンチマークである[JMTEB](https://github.com/sbintuitions/JMTEB)において、2025/4/*時点で最高水準のスコアを達成しました。
|
12 |
+
特に検索タスクにおいて一際優れた性能を示しています。
|
13 |
+
|
14 |
+
PLaMo-Embedding-1Bは [Apache v2.0](https://www.apache.org/licenses/LICENSE-2.0) ライセンスで公開されており、商用利用を含めて自由にお使い頂けます。
|
15 |
+
|
16 |
+
技術的詳細については次のTech Blogをご参照ください: [link]
|
17 |
+
|
18 |
+
## 使用方法
|
19 |
+
```python
|
20 |
+
import torch
|
21 |
+
import torch.nn.functional as F
|
22 |
+
from transformers import AutoModel, AutoTokenizer
|
23 |
+
|
24 |
+
# 🤗 Huggingface Hubから以下のようにしてモデルをダウンロードできます
|
25 |
+
tokenizer = AutoTokenizer.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
|
26 |
+
model = AutoModel.from_pretrained("pfnet/plamo-embedding-1b", trust_remote_code=True)
|
27 |
+
|
28 |
+
query = "PLaMo-Embedding-1Bとは何ですか?"
|
29 |
+
documents = [
|
30 |
+
"PLaMo-Embedding-1Bは、Preferred Networks, Inc. によって開発された日本語テキスト埋め込みモデルです。",
|
31 |
+
"最近は随分と暖かくなりましたね。"
|
32 |
+
]
|
33 |
+
|
34 |
+
with torch.inference_mode():
|
35 |
+
# 情報検索におけるクエリ文章の埋め込みに関しては、`encode_query` メソッドを用いてください
|
36 |
+
# tokenizerも渡す必要があります
|
37 |
+
query_embedding = model.encode_query(query, tokenizer)
|
38 |
+
# それ以外の文章に関しては、 `encode_document` メソッドを用いてください
|
39 |
+
# 情報検索以外の用途についても、 `encode_document` メソッドを用いてください
|
40 |
+
document_embeddings = model.encode_document(documents, tokenizer)
|
41 |
+
|
42 |
+
# モデルに文章を入力して得られたベクトル間の類似度は、近い文章は高く、遠い文章は低くなります
|
43 |
+
# この性質を用いて情報検索などに活用することができます
|
44 |
+
similarities = F.cosine_similarity(query_embedding, document_embeddings)
|
45 |
+
print(similarities)
|
46 |
+
# tensor([0.8812, 0.5533])
|
47 |
+
```
|
48 |
+
|
49 |
+
## ベンチマーク結果
|
50 |
+
日本語テキスト埋め込みのためのベンチマークである[JMTEB](https://github.com/sbintuitions/JMTEB)を用いて性能評価を行いました。
|
51 |
+
|
52 |
+
Model |Avg. | Retrieval | STS | Classification | Reranking | Clustering | PairClassification |
|
53 |
+
|:----------------------------------------------|:----------|:------------|:----------|:-----------------|:------------|:-------------|:---------------------|
|
54 |
+
| [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) |70.90 | 70.98 | 79.70 | 72.89 | 92.96 | 51.24 | 62.15 |
|
55 |
+
| [pkshatech/RoSEtta-base-ja](https://huggingface.co/pkshatech/RoSEtta-base-ja) |72.04 | 73.21 | 81.39 | 72.41 | 92.69 | 53.23 | 61.74 |
|
56 |
+
| [retrieva-jp/amber-large](https://huggingface.co/retrieva-jp/amber-large) |72.06 | 71.71 | 80.87 | 72.45 | 93.29 | 51.59 | **62.42** |
|
57 |
+
| [pkshatech/GLuCoSE-base-ja-v2](https://huggingface.co/pkshatech/GLuCoSE-base-ja-v2) |72.23 | 73.36 | 82.96 | 74.21 | 93.01 | 48.65 | 62.37 |
|
58 |
+
| [jinaai/jina-embeddings-v3](https://huggingface.co/jinaai/jina-embeddings-v3) |73.44 | 75.22 | 80.05 | 76.39 | 92.71 | 52.46 | 62.37 |
|
59 |
+
| [OpenAI/text-embedding-3-large](https://openai.com/index/new-embedding-models-and-api-updates/) |74.05 | 74.48 | 82.52 | 77.58 | 93.58 | 53.32 | 62.35 |
|
60 |
+
| [cl-nagoya/ruri-large-v2](https://huggingface.co/cl-nagoya/ruri-large-v2) |74.55 | 76.34 | 83.17 | 77.18 | 93.21 | 52.14 | 62.27 |
|
61 |
+
|[Sarashina-Embedding-v1-1B](https://huggingface.co/sbintuitions/sarashina-embedding-v1-1b)|75.50|77.61|82.71|**78.37**|**93.74**|**53.86**|62.00|
|
62 |
+
|||
|
63 |
+
|[**PLaMo-Embedding-1B**](https://huggingface.co/pfnet/plamo-embedding-1b) (This model) [^1]|**76.10**|**79.94**|**83.14**|77.20|93.57|53.47|62.37|
|
64 |
+
|
65 |
+
[^1]: コンテキスト長1024で計測。モデルとしてはコンテキスト長4096まで対応していますが、学習時に入れているコンテキスト長が1024までのため、1024で計測しています。ただし、4096で評価してもそこまでスコア平均に影響がないことがわかっています (Tech Blog参照)
|
66 |
+
|
67 |
+
## モデル詳細
|
68 |
+
|
69 |
+
- モデルサイズ: 1B
|
70 |
+
- コンテキスト長: 4096
|
71 |
+
- 埋め込み次元: 2048
|
72 |
+
- 類似度計測に用いる関数: cosine類似度
|
73 |
+
- 開発元: Preferred Networks, Inc
|
74 |
+
- 対応言語: 日本語
|
75 |
+
- ライセンス: [Apache v2.0](https://www.apache.org/licenses/LICENSE-2.0)
|
76 |
+
|
77 |
+
## ライセンス
|
78 |
+
|
79 |
+
このモデルは [Apache License, Version 2.0](https://www.apache.org/licenses/LICENSE-2.0) のもとで公開されており、商用利用を含めて自由にお使い頂けます。
|
80 |
+
|
81 |
+
|
82 |
+
## How to cite
|
83 |
+
|
84 |
+
```
|
85 |
+
@online{PLaMoEmbedding1B,
|
86 |
+
author = {Preferred Networks, Inc},
|
87 |
+
title = {PLaMo-Embedding-1B},
|
88 |
+
year = {2025},
|
89 |
+
url = {https://huggingface.co/pfnet/plamo-embedding-1b},
|
90 |
+
urldate = {2025-04-**}
|
91 |
+
}
|
92 |
+
```
|