IEITYuan
/

Yuan-embedding-1.0

Model card Files Files and versions Community

IEIT-Yuan commited on Nov 7, 2024

Commit

520febe

·

verified ·

1 Parent(s): fed8cab

Update README.md

Files changed (1) hide show

README.md +39 -1

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 model-index:
-- name: Yuan-embedding-1.0
   results:
   - dataset:
       config: default
@@ -1259,3 +1259,41 @@ model-index:
 tags:
 - mteb
 ---

 ---
 model-index:
+- name: PLACEHOLDER
   results:
   - dataset:
       config: default
 tags:
 - mteb
 ---
+## Yuan-embedding-1.0
+Yuan-embedding-1.0是专门为中文文本检索任务设计的嵌入模型。它基于xiaobu-embedding-v2[1]，主要改动如下：
+- 在Hard negative sampling中，使用Rerank模型(bge-reranker-large [2])进行数据排序筛选
+- 通过LLM(llama3.1[3])迭代生成新query
+- 基于piccolo-embedding [4]进行训练
+## Usage
+```bash
+pip install -U sentence-transformers
+```
+使用示例：
+```python
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer("IEIYuan/Yuan-embedding-1.0")
+sentences = [
+    "这是一个样例-1",
+    "这是一个样例-2",
+]
+embeddings = model.encode(sentences)
+similarities = model.similarity(embeddings, embeddings)
+print(similarities)
+```
+## Reference
+1. https://huggingface.co/lier007/xiaobu-embedding-v2
+2. https://huggingface.co/BAAI/bge-reranker-large
+3. https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct
+4. https://github.com/hjq133/piccolo-embedding