itpossible
/

Chinese-Mistral-7B-v0.1

Text Generation

text-generation-inference

Model card Files Files and versions Community

itpossible commited on Mar 31, 2024

Commit

ca202ca

·

verified ·

1 Parent(s): a36136e

Update README.md

Files changed (1) hide show

README.md +34 -1

README.md CHANGED Viewed

@@ -3,4 +3,37 @@ license: apache-2.0
 language:
 - zh
 - en
----

 language:
 - zh
 - en
+---
+## 中文Mistral简介
+Chinese-Mistral由清华大学地学系地球空间信息科学实验室开发。
+该模型基于Mistral发布的Mistral-7B-v0.1训练得到。首先进行中文词表扩充，然后采用实验室提出的PREPARED训练框架（under review）在中英双语语料上进行增量预训练。
+## 训练语料及清洗
+语料采样于WuDao、WanJuan、Dolma等高质量开源数据集。我们仔细检查了这些数据集，发现可以进一步提高数据质量。我们采用KenLM计算文档的PPL、启发式算法、定义过滤规则等方法进一步清洗语料，最终保留了90%的语料。
+## 词表扩充
+采用BPE算法（Sentencepiece实现）扩充中文词表，将mistral的词表由32000扩充至63776。我们随机从WuDao中抽取了多个文档，这些文档包括67,013,857个单词。多个模型的词表性能对比如下表。
+结果显示，Chinese-Mistral的编码效率最高。
+![image.png](https://cdn-uploads.huggingface.co/production/uploads/64ccae20bb5d195b9947f99f/vHXNWBCsbTcRMf8Q9xDrW.png)
+## 中文与英文通用能力比较
+采用C-Eval（用于评测中文能力）、C-MMLU（用于评测中文能力）、MMLU（用于评测英文能力）的测试集进行评测。
+![image.png](https://cdn-uploads.huggingface.co/production/uploads/64ccae20bb5d195b9947f99f/eJ8smTBNmcR5w1CVp6vaY.png)
+与openbuddy社区开源的中文mistral在统一的实验环境中进行对比，显示Chinese-Mistral中英文能力均优于Openbuddy-mistral-7b-v13-base。
+![image.png](https://cdn-uploads.huggingface.co/production/uploads/64ccae20bb5d195b9947f99f/aMmvaHEEqJUsBpN5Sx_E6.png)
+## 模型推理
+```python
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
+device = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")
+model_path = "itpossible/Chinese-Mistral-7B-v0.1"
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map=device)
+text = "在一场大雨后，我"
+inputs = tokenizer(text, return_tensors="pt").to(device)
+outputs = model.generate(**inputs, max_new_tokens=20)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))