renillhuang commited on
Commit
0b157c9
·
verified ·
1 Parent(s): 3432261

Update README_zh.md

Browse files
Files changed (1) hide show
  1. README_zh.md +79 -71
README_zh.md CHANGED
@@ -1,12 +1,12 @@
1
  <!-- markdownlint-disable first-line-h1 -->
2
  <!-- markdownlint-disable html -->
3
  <div align="center">
4
- <img src="./assets/imgs/orion_star.PNG" alt="logo" width="50%" />
5
  </div>
6
 
7
  <div align="center">
8
  <h1>
9
- Orion-MOE8x7B
10
  </h1>
11
  </div>
12
 
@@ -39,14 +39,14 @@
39
  <a name="zh_model-introduction"></a><br>
40
  # 1. 模型介绍
41
 
42
- - Orion-MOE8x7B-Base是一个具有8乘以70亿参数的生成式稀疏混合专家大语言模型,该模型在训练数据语言上涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中,Orion-MOE8x7B-Base模型表现优异,多项指标显著超越同等参数基本的其他模型。
43
 
44
- - Orion-MOE8x7B-Base模型有以下几个特点:
45
  - 同规模参数级别基座大模型综合评测效果表现优异
46
  - 多语言能力强,在日语、韩语测试集上显著领先,在阿拉伯语、德语、法语、西班牙语测试集上也全面领先
47
 
48
- - Orion-MOE8x7B-Base模型超参
49
- - Orion-MOE8x7B-Base模型架构接近Mixtral 8x7B,超参细节请参考下表
50
 
51
  |Configuration |OrionMOE 8x7B|
52
  |-------------------|-------------|
@@ -62,11 +62,11 @@
62
  |seq_len | 8192 |
63
  |Vocabulary Size | 1136664 |
64
 
65
- - Orion-MOE8x7B-Base训练超参
66
  - 我们使用AdamW优化器将超参数设置为 𝛽1 = 0.9, 𝛽2 = 0.95,权重衰减为0.1。
67
  - 训练开始时进行2000次预热阶段迭代,学习率线性增加至峰值3e-4,之后采用余弦调度,逐渐将学习率降低到3e-5以完成整个训练过程。
68
  - 模型训练采用BF16/FP32混合精度,批量大小为2600,每步处理大约2200万个token。
69
- - Orion-MOE8x7B-Base训练数据组成
70
  - 预训练数据语种上主要由英语、中文和其他多语言语言组成,分别占比50%、25%和12%。数据分类上,代码占9%,数学文本占4%,分布参考下图。
71
  <div align="center">
72
  <img src="./assets/imgs/data_src_dist.png" alt="logo" width="50%" />
@@ -80,89 +80,97 @@
80
 
81
  | 模型名称 | HuggingFace下载链接 | ModelScope下载链接 |
82
  |---------|-------------------|-------------------|
83
- | ⚾ 基座模型 | [Orion-MOE8x7B-Base](https://huggingface.co/OrionStarAI/Orion-MOE8x7B-Base) | [Orion-MOE8x7B-Base](https://modelscope.cn/models/OrionStarAI/Orion-MOE8x7B-Base/summary) |
84
 
85
 
86
  <a name="zh_model-benchmark"></a><br>
87
  # 3. 评估结果
88
 
89
- ## 3.1. 基座模型Orion-MOE8x7B-Base评估
90
-
91
- ### 3.1.1. 基座模型基准测试对比
92
- |TestSet|Mixtral 8x7B|Qwen1.5-32b|Qwen2.5-32b|Orion 14B|Orion MOE8x7B|
93
- | -------------- | ---- | ---- | ---- | ---- | ---- |
94
- | MMLU | 70.4 | 73.4 | 82.9 | 69.9 | <span style="background-color: #add8e6;">**85.9**</span> |
95
- | MMLU Pro | 38.5 | 45.3 | 58.0 | 34.0 | <span style="background-color: #add8e6;">**58.3**</span> |
96
- | CEval | 54.1 | 83.5 | 87.7 | 72.8 | <span style="background-color: #add8e6;">**89.7**</span> |
97
- | CMMLU | 53.2 | 82.3 | 89.0 | 70.6 | <span style="background-color: #add8e6;">**89.2**</span> |
98
- | ARC_c | 85.1 | 90.2 | **94.2** | 79.7 | <span style="background-color: #add8e6;">91.9</span> |
99
- | HellaSwag | 81.9 | 82.0 | 82.5 | 78.5 | <span style="background-color: #add8e6;">**89.2**</span> |
100
- | LAMBADA | 76.8 | 73.7 | 75.4 | 78.8 | <span style="background-color: #add8e6;">**79.7**</span> |
101
- | BBH | 50.9 | 57.3 | **67.7** | 50.4 | <span style="background-color: #add8e6;">55.8</span> |
102
- | MuSR | 43.2 | 42.7 | 49.8 | 43.6 | <span style="background-color: #add8e6;">**49.9**</span> |
103
- | PIQA | 83.4 | 82.2 | 80.1 | 79.5 | <span style="background-color: #add8e6;">**87.3**</span> |
104
- | CommonSenseQA | 69.6 | **74.7** | 73.0 | 66.9 | <span style="background-color: #add8e6;">73.1</span> |
105
- | IFEval | 24.2 | 33.0 | **41.6** | 29.1 | <span style="background-color: #add8e6;">30.1</span> |
106
- | GQPA | 30.9 | 33.5 | 49.5 | 28.5 | <span style="background-color: #add8e6;">**52.2**</span> |
107
- | HumanEval | 33.5 | 36.0 | **47.0** | 20.1 | <span style="background-color: #add8e6;">44.5</span> |
108
-
109
-
110
- ### 3.1.2. 小语种: 日文
111
- |Model |Average|JSQuAD|JCommonSenseQA|JNLI|MARC-ja|JAQKET v2|PAWS-ja|
112
- |-------------|-------|-------|---------------|-----|-------|---------|-------|
113
- |Mixtral-8x7B |<span style="background-color: #ffffe0;">69.8</span> |89.0 |78.7 |32.1 |95.4 |78.9 |44.5 |
114
- |Qwen1.5-32B |<span style="background-color: #ffffe0;">74.7</span> |89.9 |84.5 |51.0 |97.1 |82.1 |43.8 |
115
- |Qwen2.5-32B |<span style="background-color: #ffffe0;">80.7</span> |89.1 |93.8 |72.1 |**97.9** |**89.3** |42.2 |
116
- |Orion-14B |<span style="background-color: #ffffe0;">74.2</span> |74.2 |88.2 |72.8 |94.1 |66.2 |49.9 |
117
- |Orion-MOE8x7B|<span style="background-color: #ffffe0;">**82.9**</span> |<span style="background-color: #add8e6;">**91.8**</span> |<span style="background-color: #add8e6;">90.4</span> |<span style="background-color: #add8e6;">**90.5**</span> |<span style="background-color: #add8e6;">96.4</span> |<span style="background-color: #add8e6;">81.2</span> |<span style="background-color: #add8e6;">**47.4**</span> |
118
-
119
- ### 3.1.3. 小语种: 韩文
120
- |Model|Average|HAE-RAE|KoBEST BoolQ|KoBEST COPA|KoBEST HellaSwag|KoBEST SentiNeg|KoBEST WiC|PAWS-ko|
121
- |-----|-------|-------|------------|-----------|----------------|---------------|----------|-------|
122
- |Mixtral-8x7B |<span style="background-color: #ffffe0;">60.7</span> |53.2 |78.6 |66.2 |56.6 |77.1 |49.4 |44.1 |
123
- |Qwen1.5-32B |<span style="background-color: #ffffe0;">58.6</span> |46.4 |76.3 |60.4 |53.0 |78.3 |52.1 |43.4 |
124
- |Qwen2.5-32B |<span style="background-color: #ffffe0;">71.4</span> |**70.7** |80.3 |76.7 |**61.2** |96.5 |**77.2** |37.1 |
125
- |Orion-14B |<span style="background-color: #ffffe0;">67.7</span> |69.7 |80.6 |77.1 |58.2 |92.4 |51.2 |44.6 |
126
- |Orion-MOE8x7B|<span style="background-color: #ffffe0;">**72.0**</span> |<span style="background-color: #add8e6;">65.2</span> |<span style="background-color: #add8e6;">**85.4**</span> |<span style="background-color: #add8e6;">**80.4**</span> |<span style="background-color: #add8e6;">56.0</span> |<span style="background-color: #add8e6;">**97.0**</span> |<span style="background-color: #add8e6;">73.6</span> |<span style="background-color: #add8e6;">**46.4**</span> |
127
-
128
- ### 3.1.4. 小语种: 阿拉伯语,德语,法语,西班牙语
 
 
 
 
 
 
 
 
 
 
 
 
129
  | Language | Spanish | | French | | German | | Arabic | |
130
  |----|----|----|----|----|----|----|----|----|
131
  |**Model**|**HellaSwag**|**ARC**|**HellaSwag**|**ARC**|**HellaSwag**|**ARC**|**HellaSwag**|**ARC**|
132
  |Mixtral-8x7B |74.3 |54.8 |73.9 |55.9 |69.2 |52.4 |47.9 |36.3 |
133
  |Qwen1.5-32B |70.5 |55.1 |68.9 |56.0 |63.8 |50.8 |50.1 |40.0 |
134
  |Qwen2.5-32B |75.0 |65.3 |74.2 |62.7 |69.8 |61.8 |59.8 |52.9 |
135
- |Orion-14B |62.0 |44.6 |60.2 |42.3 |54.7 |38.9 |42.3 |33.9 |
136
- |Orion-MOE8x7B|<span style="background-color: #add8e6;">**87.4**</span> |<span style="background-color: #add8e6;">**70.1**</span> |<span style="background-color: #add8e6;">**85.6**</span> |<span style="background-color: #add8e6;">**68.8**</span> |<span style="background-color: #add8e6;">**80.6**</span> |<span style="background-color: #add8e6;">**63.5**</span> |<span style="background-color: #add8e6;">**69.4**</span> |<span style="background-color: #add8e6;">**54.3</span>** |
137
 
138
- ### 3.1.5. 泄漏检测结果
139
  当大型语言模型的预训练数据包含特定数据集的内容时,该模型在该数据集上的表现可能会被人为提高,从而导致不准确的性能评估。为了解决这个问题,来自中国科学院深圳先进技术研究院和其他机构的研究人员提出了一种简单有效的数据泄露检测方法。该方法利用多选项的可互换性,通过打乱原始数据集中的选项生成派生数据。然后,使用模型计算派生数据集的对数概率分布,以检测原始数据集是否存在泄露。
140
 
141
  我们在三个基准数据集上进行了数据泄露检测实验:MMLU、CMMLU 和 C-Eval。<br>
142
  更多细节可以在论文中找到:https://web3.arxiv.org/pdf/2409.01790。<br>
143
  测试代码:https://github.com/nishiwen1214/Benchmark-leakage-detection。
144
 
145
- |Threshold 0.2|Qwen2.5 32B|Qwen1.5 32B|Orion MOE8x7B|Orion 14B|Mixtral 8x7B|
146
  |------|------|------|------|------|------|
147
- |MMLU | 0.30 | 0.27 | <span style="background-color: #add8e6;">**0.22**</span> | 0.28 | 0.25 |
148
- |CEval | 0.39 | 0.38 | <span style="background-color: #add8e6;">0.27</span> | **0.26** | **0.26** |
149
- |CMMLU | 0.38 | 0.39 | <span style="background-color: #add8e6;">0.23</span> | 0.27 | **0.22** |
150
 
151
- ### 3.1.6. 推理速度
152
  搭建基于8卡Nvidia RTX3090以及4卡Nvidia A100,采用"token/秒"为单位,从客户端统计测试结果。
153
- |Models | 8x3090 1concurrent | 8x3090 4concurrent | 4xA100 1concurrent | 4xA100 4concurrent|
154
  |---------|--------|-------|--------|-------|
155
- |OrionMOE | <span style="background-color: #add8e6;">**102.77**</span> | <span style="background-color: #add8e6;">**54.61**</span> | <span style="background-color: #add8e6;">**107.76**</span> | <span style="background-color: #add8e6;">**61.83**</span> |
156
- |Qwen32 | 52.93 | 46.06 | 62.43 | 56.81 |
157
 
158
  <br>
159
  同时测试了4卡A100上,基于不同输入长度(tokens)的推理速度比较,采用"token/秒"为单位,从客户端统计测试结果。
160
 
161
  | Input | 4k | 8k | 12k | 16k | 32k | 64k |
162
  |---------|-------|-------|-------|-------|-------|-------|
163
- |OrionMOE | <span style="background-color: #add8e6;">**90.86**</span> | <span style="background-color: #add8e6;">**54.40**</span> | <span style="background-color: #add8e6;">**31.08**</span> | <span style="background-color: #add8e6;">**29.04**</span> | <span style="background-color: #add8e6;">**22.69**</span> | <span style="background-color: #add8e6;">**14.51**</span> |
164
- |Qwen32 | 53.99 | 47.59 | 25.98 | 24.35 | 18.64 | 11.86 |
165
-
166
 
167
 
168
  <a name="zh_model-inference"></a><br>
@@ -178,15 +186,15 @@ import torch
178
  from transformers import AutoModelForCausalLM, AutoTokenizer
179
  from transformers.generation.utils import GenerationConfig
180
 
181
- tokenizer = AutoTokenizer.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
182
  use_fast=False,
183
  trust_remote_code=True)
184
- model = AutoModelForCausalLM.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
185
  device_map="auto",
186
  torch_dtype=torch.bfloat16,
187
  trust_remote_code=True)
188
 
189
- model.generation_config = GenerationConfig.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base")
190
  messages = [{"role": "user", "content": "你好! 你叫什么名字!"}]
191
  response = model.chat(tokenizer, messages, streaming=Flase)
192
  print(response)
@@ -200,7 +208,7 @@ print(response)
200
  ```shell
201
 
202
  # base model
203
- CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python demo/text_generation_base.py --model OrionStarAI/Orion-MOE8x7B-Base --tokenizer OrionStarAI/Orion-MOE8x7B-Base --prompt 你好,你叫什么名字
204
 
205
  ```
206
  ## 4.3. vLLM推理服务
@@ -212,7 +220,7 @@ docker build -t vllm_server:0.0.0.0 -f Dockerfile .
212
  ```
213
  开启docker镜像服务
214
  ```shell
215
- docker run --gpus all -it -p 9999:9999 -v $(pwd)/logs:/workspace/logs:rw -v $HOME/Downloads:/workspace/models -e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -e MODEL_DIR=Orion-MOE8x7B-Base -e MODEL_NAME=orion-moe vllm_server:0.0.0.0
216
  ```
217
  运行推理
218
  ```shell
@@ -225,8 +233,8 @@ curl http://0.0.0.0:9999/v1/chat/completions -H "Content-Type: application/json"
225
 
226
  ## 5.1. 声明
227
 
228
- 我们强烈呼吁所有使用者,不要利用 Orion-MOE8x7B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
229
- Orion-MOE8x7B 模型用于未经适当安全审查和备案的互联网服务。
230
 
231
  我们希望所有的使用者都能遵守这个原则,确保科技的发展能在规范和合法的环境下进行。
232
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
@@ -234,7 +242,7 @@ Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全
234
 
235
  ## 5.2. 协议
236
 
237
- 社区使用Orion-MOE8x7B系列模型
238
  - 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
239
  - 模型请遵循 [Orion系列模型社区许可协议](./ModelsCommunityLicenseAgreement)
240
 
 
1
  <!-- markdownlint-disable first-line-h1 -->
2
  <!-- markdownlint-disable html -->
3
  <div align="center">
4
+ <img src="./assets/imgs/orion_star.PNG" alt="logo" width="80%" />
5
  </div>
6
 
7
  <div align="center">
8
  <h1>
9
+ Orion-MoE8x7B
10
  </h1>
11
  </div>
12
 
 
39
  <a name="zh_model-introduction"></a><br>
40
  # 1. 模型介绍
41
 
42
+ - Orion-MoE8x7B是一个具有8乘以70亿参数的生成式稀疏混合专家大语言模型,该模型在训练数据语言上涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中,Orion-MoE8x7B模型表现优异,多项指标显著超越同等参数基本的其他模型。
43
 
44
+ - Orion-MoE8x7B模型有以下几个特点:
45
  - 同规模参数级别基座大模型综合评测效果表现优异
46
  - 多语言能力强,在日语、韩语测试集上显著领先,在阿拉伯语、德语、法语、西班牙语测试集上也全面领先
47
 
48
+ - Orion-MoE8x7B模型超参
49
+ - Orion-MoE8x7B模型架构接近Mixtral 8x7B,超参细节请参考下表
50
 
51
  |Configuration |OrionMOE 8x7B|
52
  |-------------------|-------------|
 
62
  |seq_len | 8192 |
63
  |Vocabulary Size | 1136664 |
64
 
65
+ - Orion-MoE8x7B训练超参
66
  - 我们使用AdamW优化器将超参数设置为 𝛽1 = 0.9, 𝛽2 = 0.95,权重衰减为0.1。
67
  - 训练开始时进行2000次预热阶段迭代,学习率线性增加至峰值3e-4,之后采用余弦调度,逐渐将学习率降低到3e-5以完成整个训练过程。
68
  - 模型训练采用BF16/FP32混合精度,批量大小为2600,每步处理大约2200万个token。
69
+ - Orion-MoE8x7B训练数据组成
70
  - 预训练数据语种上主要由英语、中文和其他多语言语言组成,分别占比50%、25%和12%。数据分类上,代码占9%,数学文本占4%,分布参考下图。
71
  <div align="center">
72
  <img src="./assets/imgs/data_src_dist.png" alt="logo" width="50%" />
 
80
 
81
  | 模型名称 | HuggingFace下载链接 | ModelScope下载链接 |
82
  |---------|-------------------|-------------------|
83
+ | ⚾ 基座模型 | [Orion-MoE8x7B](https://huggingface.co/OrionStarAI/Orion-MoE8x7B) | [Orion-MoE8x7B](https://modelscope.cn/models/OrionStarAI/Orion-MoE8x7B-Base/summary) |
84
 
85
 
86
  <a name="zh_model-benchmark"></a><br>
87
  # 3. 评估结果
88
 
89
+ <style>
90
+ table th {
91
+ background-color: #f2f2f2;
92
+ }
93
+
94
+ td.orion{
95
+ background-color: #e6ffe6;
96
+ }
97
+
98
+ td.avg{
99
+ background-color: #ffffe0;
100
+ }
101
+ </style>
102
+
103
+ ### 3.1. 基座模型基准测试对比
104
+ |TestSet|Mixtral 8x7B|Qwen1.5-32b|Qwen2.5-32b|Orion 14B |Qwen2-57B-A14 <th> Orion MoE8x7B</th>
105
+ | -------------- | ---- | ---- | ---- | ---- | ----
106
+ | MMLU | 70.4 | 73.4 | 82.9 | 69.9 | 76.5 <td class="orion">**85.9**</td>
107
+ | MMLU Pro | 38.5 | 45.3 | 58.0 | 34.0 |48.6 <td class="orion">**58.3**</td>
108
+ | CEval | 54.1 | 83.5 | 87.7 | 72.8 | 87.7 <td class="orion">**89.7**</td>
109
+ | CMMLU | 53.2 | 82.3 | 89.0 | 70.6 | 88.5 <td class="orion">**89.2**</td>
110
+ | ARC_c | 85.1 | 90.2 | **94.2** | 79.7 |91.5 <td class="orion">91.9</td>
111
+ | HellaSwag | 81.9 | 82.0 | 82.5 | 78.5 | 85.2 <td class="orion">**89.2**</td>
112
+ | LAMBADA | 76.8 | 73.7 | 75.4 | 78.8 | 72.6 <td class="orion">**79.7**</td>
113
+ | BBH | 50.9 | 57.3 | **67.7** | 50.4 | 55.1 <td class="orion">55.8</td>
114
+ | MuSR | 43.2 | 42.7 | 49.8 | 43.6 | 39.0 <td class="orion">**49.9**</td>
115
+ | PIQA | 83.4 | 82.2 | 80.1 | 79.5 | 81.9 <td class="orion">**87.3**</td>
116
+ | CommonSenseQA | 69.6 | **74.7** | 73.0 | 66.9 | 69.9 <td class="orion">73.1</td>
117
+ | IFEval | 24.2 | 33.0 | **41.6** | 29.1 | 31.2 <td class="orion">30.1</td>
118
+ | GQPA | 30.9 | 33.5 | 49.5 | 28.5 | 32.6 <td class="orion">**52.2**</td>
119
+ | HumanEval | 33.5 | 36.0 | **47.0** | 20.1 | 53.0 <td class="orion">44.5</td>
120
+
121
+
122
+ ### 3.2. 小语种: 日文
123
+ |Model <th>Average</th>|JSQuAD|JCommonSenseQA|JNLI|MARC-ja|JAQKET v2|PAWS-ja|
124
+ |-------------|-------|-------|---------------|-----|-------|---------|
125
+ |Mixtral-8x7B <td class="avg">69.8</td> |89.0 |78.7 |32.1 |95.4 |78.9 |44.5 |
126
+ |Qwen1.5-32B <td class="avg">74.7</td> |89.9 |84.5 |51.0 |97.1 |82.1 |43.8 |
127
+ |Qwen2.5-32B <td class="avg">80.7</td> |89.1 |93.8 |72.1 |**97.9** |**89.3** |42.2 |
128
+ |Orion-14B <td class="avg">74.2</td> |74.2 |88.2 |72.8 |94.1 |66.2 |49.9 |
129
+ |Orion-MoE8x7B <td class="avg">**82.9**</td> | **91.8** | 90.4 | **90.5** | 96.4 | 81.2 | **47.4** |
130
+
131
+ ### 3.3. 小语种: 韩文
132
+ |Model <th>Average</th>|HAE-RAE|KoBEST BoolQ|KoBEST COPA|KoBEST HellaSwag|KoBEST SentiNeg|KoBEST WiC|PAWS-ko|
133
+ |-----|-------|-------|------------|-----------|----------------|---------------|----------|
134
+ |Mixtral-8x7B <td class="avg">60.7</td> |53.2 |78.6 |66.2 |56.6 |77.1 |49.4 |44.1 |
135
+ |Qwen1.5-32B <td class="avg">58.6</td> |46.4 |76.3 |60.4 |53.0 |78.3 |52.1 |43.4 |
136
+ |Qwen2.5-32B <td class="avg">71.4</td> |**70.7** |80.3 |76.7 |**61.2** |96.5 |**77.2** |37.1 |
137
+ |Orion-14B <td class="avg">67.7</td> |69.7 |80.6 |77.1 |58.2 |92.4 |51.2 |44.6 |
138
+ |Orion-MoE8x7B <td class="avg">**72.0**</td> | 65.2 | **85.4** | **80.4** | 56.0 | **97.0** | 73.6 | **46.4** |
139
+
140
+ ### 3.4. 小语种: 阿拉伯语,德语,法语,西班牙语
141
  | Language | Spanish | | French | | German | | Arabic | |
142
  |----|----|----|----|----|----|----|----|----|
143
  |**Model**|**HellaSwag**|**ARC**|**HellaSwag**|**ARC**|**HellaSwag**|**ARC**|**HellaSwag**|**ARC**|
144
  |Mixtral-8x7B |74.3 |54.8 |73.9 |55.9 |69.2 |52.4 |47.9 |36.3 |
145
  |Qwen1.5-32B |70.5 |55.1 |68.9 |56.0 |63.8 |50.8 |50.1 |40.0 |
146
  |Qwen2.5-32B |75.0 |65.3 |74.2 |62.7 |69.8 |61.8 |59.8 |52.9 |
147
+ |Orion-14B |62.0 |44.6 |60.2 |42.3 |54.7 |38.9 |42.3 |33.9 <tr><td> Orion-MoE8x7B</td> <td class="orion">**87.4**</td> <td class="orion">**70.1**</td> <td class="orion">**85.6**</td> <td class="orion">**68.8**</td> <td class="orion">**80.6**</td> <td class="orion">**63.5**</td> <td class="orion">**69.4**</td> <td class="orion">**54.3</td>** </tr>
 
148
 
149
+ ### 3.5. 泄漏检测结果
150
  当大型语言模型的预训练数据包含特定数据集的内容时,该模型在该数据集上的表现可能会被人为提高,从而导致不准确的性能评估。为了解决这个问题,来自中国科学院深圳先进技术研究院和其他机构的研究人员提出了一种简单有效的数据泄露检测方法。该方法利用多选项的可互换性,通过打乱原始数据集中的选项生成派生数据。然后,使用模型计算派生数据集的对数概率分布,以检测原始数据集是否存在泄露。
151
 
152
  我们在三个基准数据集上进行了数据泄露检测实验:MMLU、CMMLU 和 C-Eval。<br>
153
  更多细节可以在论文中找到:https://web3.arxiv.org/pdf/2409.01790。<br>
154
  测试代码:https://github.com/nishiwen1214/Benchmark-leakage-detection。
155
 
156
+ |Threshold 0.2|Qwen2.5 32B|Qwen1.5 32B| Orion MoE8x7B |Orion 14B|Mixtral 8x7B|
157
  |------|------|------|------|------|------|
158
+ |MMLU | 0.30 | 0.27 | 0.22 | 0.28 | 0.25 |
159
+ |CEval | 0.39 | 0.38 | 0.27 | 0.26 | 0.26 |
160
+ |CMMLU | 0.38 | 0.39 | 0.23 | 0.27 | 0.22 |
161
 
162
+ ### 3.6. 推理速度
163
  搭建基于8卡Nvidia RTX3090以及4卡Nvidia A100,采用"token/秒"为单位,从客户端统计测试结果。
164
+ |Models | 8x3090 1 concurrent | 8x3090 4 concurrent | 4xA100 1 concurrent | 4xA100 4 concurrent|
165
  |---------|--------|-------|--------|-------|
166
+ |Qwen32 | 52.93 | 46.06 | 62.43 | 56.81 <tr><td>Orion-MoE</td> <td class="orion">**102.77**</td> <td class="orion">**54.61**</td> <td class="orion">**107.76**</td> <td class="orion">**61.83**</td> </tr>
 
167
 
168
  <br>
169
  同时测试了4卡A100上,基于不同输入长度(tokens)的推理速度比较,采用"token/秒"为单位,从客户端统计测试结果。
170
 
171
  | Input | 4k | 8k | 12k | 16k | 32k | 64k |
172
  |---------|-------|-------|-------|-------|-------|-------|
173
+ |Qwen32 | 53.99 | 47.59 | 25.98 | 24.35 | 18.64 | 11.86 <tr><td>Orion-MoE</td> <td class="orion">**90.86**</td> <td class="orion">**54.40**</td> <td class="orion">**31.08**</td> <td class="orion">**29.04**</td> <td class="orion">**22.69**</td> <td class="orion">**14.51**</td> </tr>
 
 
174
 
175
 
176
  <a name="zh_model-inference"></a><br>
 
186
  from transformers import AutoModelForCausalLM, AutoTokenizer
187
  from transformers.generation.utils import GenerationConfig
188
 
189
+ tokenizer = AutoTokenizer.from_pretrained("OrionStarAI/Orion-MoE8x7B",
190
  use_fast=False,
191
  trust_remote_code=True)
192
+ model = AutoModelForCausalLM.from_pretrained("OrionStarAI/Orion-MoE8x7B",
193
  device_map="auto",
194
  torch_dtype=torch.bfloat16,
195
  trust_remote_code=True)
196
 
197
+ model.generation_config = GenerationConfig.from_pretrained("OrionStarAI/Orion-MoE8x7B")
198
  messages = [{"role": "user", "content": "你好! 你叫什么名字!"}]
199
  response = model.chat(tokenizer, messages, streaming=Flase)
200
  print(response)
 
208
  ```shell
209
 
210
  # base model
211
+ CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python demo/text_generation_base.py --model OrionStarAI/Orion-MoE8x7B --tokenizer OrionStarAI/Orion-MoE8x7B --prompt 你好,你叫什么名字
212
 
213
  ```
214
  ## 4.3. vLLM推理服务
 
220
  ```
221
  开启docker镜像服务
222
  ```shell
223
+ docker run --gpus all -it -p 9999:9999 -v $(pwd)/logs:/workspace/logs:rw -v $HOME/Downloads:/workspace/models -e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -e MODEL_DIR=Orion-MoE8x7B -e MODEL_NAME=orion-moe vllm_server:0.0.0.0
224
  ```
225
  运行推理
226
  ```shell
 
233
 
234
  ## 5.1. 声明
235
 
236
+ 我们强烈呼吁所有使用者,不要利用 Orion-MoE8x7B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
237
+ Orion-MoE8x7B 模型用于未经适当安全审查和备案的互联网服务。
238
 
239
  我们希望所有的使用者都能遵守这个原则,确保科技的发展能在规范和合法的环境下进行。
240
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
 
242
 
243
  ## 5.2. 协议
244
 
245
+ 社区使用Orion-MoE8x7B系列模型
246
  - 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
247
  - 模型请遵循 [Orion系列模型社区许可协议](./ModelsCommunityLicenseAgreement)
248