wangyuxin
commited on
Commit
·
d664bdc
1
Parent(s):
92e1bdd
添加检索评测结果
Browse files
README.md
CHANGED
@@ -8,6 +8,11 @@ M3E 是 Moka Massive Mixed Embedding 的缩写
|
|
8 |
* Massive,此文本嵌入模型通过**千万级**的中文句对数据集进行训练
|
9 |
* Mixed,此文本嵌入模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
|
10 |
|
|
|
|
|
|
|
|
|
|
|
11 |
## 使用方式
|
12 |
|
13 |
您需要先安装 sentence-transformers
|
@@ -58,12 +63,13 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
|
|
58 |
|
59 |
## 评测
|
60 |
|
|
|
|
|
|
|
61 |
### 文本分类
|
62 |
|
63 |
- 数据集选择,选择开源在 HuggingFace 上的 6 种文本分类数据集,包括新闻、电商评论、股票评论、长文本等
|
64 |
- 评测方式,使用 MTEB 的方式进行评测,报告 Accuracy。
|
65 |
-
- 评测模型,[text2vec](https://github.com/shibing624/text2vec), m3e-base, m3e-small, openai-ada-002
|
66 |
-
- 评测脚本,具体参考此 [评测脚本](https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh/tasks.py)
|
67 |
|
68 |
| | text2vec | m3e-small | m3e-base | openai |
|
69 |
| ----------------- | -------- | --------- | -------- | ------ |
|
@@ -77,7 +83,30 @@ M3E 使用 in-batch 负采样的对比学习的方式在句对数据集进行训
|
|
77 |
|
78 |
### 检索排序
|
79 |
|
80 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
81 |
|
82 |
## M3E数据集
|
83 |
|
|
|
8 |
* Massive,此文本嵌入模型通过**千万级**的中文句对数据集进行训练
|
9 |
* Mixed,此文本嵌入模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索
|
10 |
|
11 |
+
## 更新说明
|
12 |
+
|
13 |
+
- 2023.06.08,添加检索任务的评测结果,在 T2Ranking 1W 中文数据集上,m3e-base 在 ndcg@10 上达到了 0.8004,超过了 openai-ada-002 的 0.7786
|
14 |
+
- 2023.06.07,添加文本分类任务的评测结果,在 6 种文本分类数据集上,m3e-base 在 accuracy 上达到了 0.6157,超过了 openai-ada-002 的 0.5956
|
15 |
+
|
16 |
## 使用方式
|
17 |
|
18 |
您需要先安装 sentence-transformers
|
|
|
63 |
|
64 |
## 评测
|
65 |
|
66 |
+
- 评测模型,[text2vec](https://github.com/shibing624/text2vec), m3e-base, m3e-small, openai-ada-002
|
67 |
+
- 评测脚本,具体参考此 [评测脚本](https://github.com/wangyuxinwhy/uniem/blob/main/mteb-zh)
|
68 |
+
|
69 |
### 文本分类
|
70 |
|
71 |
- 数据集选择,选择开源在 HuggingFace 上的 6 种文本分类数据集,包括新闻、电商评论、股票评论、长文本等
|
72 |
- 评测方式,使用 MTEB 的方式进行评测,报告 Accuracy。
|
|
|
|
|
73 |
|
74 |
| | text2vec | m3e-small | m3e-base | openai |
|
75 |
| ----------------- | -------- | --------- | -------- | ------ |
|
|
|
83 |
|
84 |
### 检索排序
|
85 |
|
86 |
+
#### T2Ranking 1W
|
87 |
+
|
88 |
+
- 数据集选择,使用 [T2Ranking](https://github.com/THUIR/T2Ranking/tree/main) 数据集,由于 T2Ranking 的数据集太大,openai 评测起来的时间成本和 api 费用有些高,所以我们只选择了 T2Ranking 中的前 10000 篇文章
|
89 |
+
- 评测方式,使用 MTEB 的方式进行评测,报告 map@1, map@10, mrr@1, mrr@10, ndcg@1, ndcg@10
|
90 |
+
|
91 |
+
| | text2vec | openai-ada-002 | m3e-small | m3e-base |
|
92 |
+
| ------- | -------- | -------------- | --------- | -------- |
|
93 |
+
| map@1 | 0.4684 | 0.6133 | 0.5574 | 0.626 |
|
94 |
+
| map@10 | 0.5877 | 0.7423 | 0.6878 | 0.7656 |
|
95 |
+
| mrr@1 | 0.5345 | 0.6931 | 0.6324 | 0.7047 |
|
96 |
+
| mrr@10 | 0.6217 | 0.7668 | 0.712 | 0.7841 |
|
97 |
+
| ndcg@1 | 0.5207 | 0.6764 | 0.6159 | 0.6881 |
|
98 |
+
| ndcg@10 | 0.6346 | 0.7786 | 0.7262 | 0.8004 |
|
99 |
+
|
100 |
+
#### T2Ranking
|
101 |
+
|
102 |
+
- 数据集选择,使用 T2Ranking,刨除 openai-ada-002 模型后,我们对剩余的三个模型,进行 T2Ranking 10W 和 T2Ranking 50W 的评测。(T2Ranking 评测太耗内存了... 128G 都不行)
|
103 |
+
- 评测方式,使用 MTEB 的方式进行评测,报告 ndcg@10
|
104 |
+
|
105 |
+
| | text2vec | m3e-small | m3e-base |
|
106 |
+
| ------- | -------- | --------- | -------- |
|
107 |
+
| t2r-1w | 0.6346 | 0.72621 | 0.8004 |
|
108 |
+
| t2r-10w | 0.44644 | 0.5251 | 0.6263 |
|
109 |
+
| t2r-50w | 0.33482 | 0.38626 | 0.47364 |
|
110 |
|
111 |
## M3E数据集
|
112 |
|