DachengZhang commited on
Commit
0641956
1 Parent(s): cf2561e

Update README_cn.md

Browse files
Files changed (1) hide show
  1. README_cn.md +66 -60
README_cn.md CHANGED
@@ -11,7 +11,9 @@ pipeline_tag: text-generation
11
 
12
  <!-- markdownlint-disable first-line-h1 -->
13
  <!-- markdownlint-disable html -->
14
- ![](./assets/imgs/orion_start.PNG)
 
 
15
 
16
  <div align="center">
17
  <h1>
@@ -43,9 +45,9 @@ pipeline_tag: text-generation
43
  - [🥇 企业介绍](#企业介绍)
44
  - [📜 声明协议](#声明协议)
45
 
46
- # 模型介绍
47
 
48
- - Orion-14B-Chat 是基于Orion-14B-Base 使用85W左右的高质量语料库微调而来(仅sft),同样支持中英日韩。在MT-Bench、AlignBench评测集上表现优异,多项指标显著超越同等参数基本的其他模型。
49
 
50
  - 85W微调语料包含两部分:22W左右的人工精标数据集和63W从开源数据里经过模型筛选、语义去重整理而来。其中日韩数据共7W,仅做了简单清洗和去重。
51
 
@@ -55,7 +57,9 @@ pipeline_tag: text-generation
55
  - 微调模型适应性强,在人类标注盲测中,表现突出
56
  - 长上下文版本支持超长文本,长达200k token
57
  - 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%
58
- ![](./assets/imgs/model_cap_zh.png)
 
 
59
 
60
  - 具体而言,Orion-14B系列大语言模型包含:
61
  - **Orion-14B-Base:** 基于2.5万亿令牌多样化数据集训练处的140亿参数量级的多语言基座模型。
@@ -66,7 +70,7 @@ pipeline_tag: text-generation
66
  - **Orion-14B-Base-Int4:** 一个使用4位整数进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
67
  - **Orion-14B-Chat-Int4:** 一个使用4位整数进行量化的对话模型。
68
 
69
- # 下载路径
70
 
71
  发布模型和下载链接见下表:
72
 
@@ -80,10 +84,11 @@ pipeline_tag: text-generation
80
  | 💼 基座Int4量化模型 | [Orion-14B-Base-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Base-Int4) | [Orion-14B-Base-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Base-Int4/summary) |
81
  | 📦 对话Int4量化模型 | [Orion-14B-Chat-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Chat-Int4) | [Orion-14B-Chat-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Chat-Int4/summary) |
82
 
83
- # 评估结果
84
 
85
- ## 1. 基座模型评估
86
- ### 专业知识与试题评估结果
 
87
  | 模型名称 | C-Eval | CMMLU | MMLU | AGIEval | Gaokao | BBH |
88
  |--------------------|----------|----------|----------|----------|----------|----------|
89
  | LLaMA2-13B | 41.4 | 38.4 | 55.0 | 30.9 | 18.2 | 45.6 |
@@ -93,7 +98,7 @@ pipeline_tag: text-generation
93
  | InternLM-20B | 58.8 | 59.0 | 62.1 | 44.6 | 45.5 | 52.5 |
94
  | **Orion-14B-Base** | **72.9** | **70.6** | **69.9** | **54.7** | 62.1 | **56.5** |
95
 
96
- ### 理解与通识评估结果
97
  | 模型名称 |RACE-middle|RACE-high| HellaSwag| PIQA | Lambada | WSC |
98
  |--------------------|----------|----------|----------|----------|----------|----------|
99
  | LLaMA 2-13B | 63.0 | 58.9 | 77.5 | 79.8 | 76.5 | 66.3 |
@@ -103,7 +108,7 @@ pipeline_tag: text-generation
103
  | InternLM-20B | 86.4 | 83.3 | 78.1 | **80.3** | 71.8 | 68.3 |
104
  | **Orion-14B-Base** | **93.3** | **91.3** | 78.5 | 79.5 | **78.9** | **70.2** |
105
 
106
- ### OpenCompass评测集评估结果
107
  | 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
108
  |------------------|----------|----------|----------|----------|----------|----------|
109
  | LLaMA 2-13B | 47.3 | 45.2 | 47.0 | 58.3 | 50.9 | 43.6 |
@@ -113,7 +118,7 @@ pipeline_tag: text-generation
113
  | InternLM-20B | 59.4 | 62.5 | 55.0 | **60.1** | 67.3 | 54.9 |
114
  |**Orion-14B-Base**| **64.4** | **71.4** | **55.0** | 60.0 | **71.9** | **61.6** |
115
 
116
- ### 日语测试集评估结果
117
  | 模型名称 |**Average**| JCQA | JNLI | MARC | JSQD | JQK | XLS | XWN | MGSM |
118
  |--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
119
  | PLaMo-13B | 52.3 | 56.7 | 42.8 | 95.8 | 70.6 | 71.0 | 8.70 | 70.5 | 2.40 |
@@ -126,7 +131,7 @@ pipeline_tag: text-generation
126
  | Yi-34B | 67.1 | 83.8 | 61.2 | 95.2 | **86.1** | 78.5 | **27.2** | 69.2 | 35.2 |
127
  | **Orion-14B-Base** | **69.1** | **88.2** | **75.8** | 94.1 | 75.7 | **85.1** | 17.3 | **78.8** | **38.0** |
128
 
129
- ### 韩语测试集n-shot评估结果
130
  | 模型名称 | **Average**<br>n=0&nbsp;&nbsp;n=5 | HellaSwag<br>n=0&nbsp;&nbsp;n=5 | COPA<br> n=0&nbsp;&nbsp;n=5 | BooIQ<br>n=0&nbsp;&nbsp;n=5 | SentiNeg<br>n=0&nbsp;&nbsp;n=5|
131
  |------------------|------------------------------|------------------------------|------------------------------|------------------------------|------------------------------|
132
  | KoGPT | 53.0 &nbsp;&nbsp; 70.1 | 55.9 &nbsp;&nbsp; 58.3 | 73.5 &nbsp;&nbsp; 72.9 | 45.1 &nbsp;&nbsp; 59.8 | 37.5 &nbsp;&nbsp; 89.4 |
@@ -137,7 +142,7 @@ pipeline_tag: text-generation
137
  | Yi-34B | 54.2 &nbsp;&nbsp; 72.1 | 44.6 &nbsp;&nbsp; 44.7 | 58.0 &nbsp;&nbsp; 60.6 | 65.9 &nbsp;&nbsp; 90.2 | 48.3 &nbsp;&nbsp; 92.9 |
138
  |**Orion-14B-Base**|**74.5** &nbsp;&nbsp; **79.6**| 47.0 &nbsp;&nbsp; 49.6 | 77.7 &nbsp;&nbsp; 79.4 |**81.6** &nbsp;&nbsp; **90.7**|**92.4** &nbsp;&nbsp; **98.7**|
139
 
140
- ### 多语言评估结果
141
  | 模型名称 | Train Lang | Japanese | Korean | Chinese | English |
142
  |--------------------|------------|----------|----------|----------|----------|
143
  | PLaMo-13B | En,Jp | 52.3 | * | * | * |
@@ -152,8 +157,8 @@ pipeline_tag: text-generation
152
  | Yi-34B | Multi | 67.1 | 72.2 | 58.7 | **68.8** |
153
  | **Orion-14B-Base** | Multi | **69.1** | **79.5** | **67.9** | 67.3 |
154
 
155
- ## 2. 对话模型评估
156
- ### 对话模型MTBench主观评估
157
  | 模型名称 | 第一轮 | 第二轮 | **平均** |
158
  |----------------------|----------|----------|----------|
159
  | Baichuan2-13B-Chat | 7.05 | 6.47 | 6.76 |
@@ -163,7 +168,7 @@ pipeline_tag: text-generation
163
  | **Orion-14B-Chat** | **7.68** | **7.07** | **7.37** |
164
  \*这里评测使用vllm进行推理
165
 
166
- ### 对话模型AlignBench主观评估
167
  | 模型名称 | 数学能力 | 逻辑推理 | 基本能力 | 中文理解 | 综合问答 | 写作能力 | 角色扮演 | 专业知识 | **平均** |
168
  |--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
169
  | Baichuan2-13B-Chat | 3.76 | 4.07 | 6.22 | 6.05 | 7.11 | 6.97 | 6.75 | 6.43 | 5.25 |
@@ -173,8 +178,8 @@ pipeline_tag: text-generation
173
  | **Orion-14B-Chat** | 4.00 | 4.24 | 6.18 | **6.57** | 7.16 | **7.36** | **7.16** | **6.99** | 5.51 |
174
  \*这里评测使用vllm进行推理
175
 
176
- ## 3. 长上下文模型评估
177
- ### 长上下文模型LongBench评估
178
  | 模型名称 | NarrativeQA| MultiFieldQA-en| MultiFieldQA-zh | DuReader | QMSum | VCSUM | TREC | TriviaQA | LSHT | RepoBench-P |
179
  |--------------------------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|
180
  | GPT-3.5-Turbo-16k | **23.60** | **52.30** | **61.20** | 28.70 | 23.40 | **16.00** | 68.00 | **91.40** | 29.20 | 53.60 |
@@ -183,8 +188,8 @@ pipeline_tag: text-generation
183
  | Yi-6B-200K | 14.11 | 36.74 | 22.68 | 14.01 | 20.44 | 8.08 | 72.00 | 86.61 | 38.00 | **63.29** |
184
  | Orion-14B-LongChat | 19.47 | 48.11 | 55.84 | **37.02** | **24.87** | 15.44 | **77.00** | 89.12 | **45.50** | 54.31 |
185
 
186
- ## 4. 检索增强模型评估
187
- ### 自建检索增强测试集评估结果
188
  |模型名称|回复效果(关键字)|*回复效果(主观打分)|引用能力|兜底能力|*AutoQA|*抽取数据|
189
  |---------------------|------|------|------|------|------|------|
190
  | Baichuan2-13B-Chat | 85 | 76 | 1 | 0 | 69 | 51 |
@@ -194,8 +199,8 @@ pipeline_tag: text-generation
194
  | Orion-14B-Chat-RAG | 86 | 87 | 91 | 97 | 73 | 71 |
195
  \* 表示人工评判结果
196
 
197
- ## 5. 插件模型评估
198
- ### 自建插件测试集评估结果
199
  | 模型名称 | 全参数意图识别 | 缺参数意图识别 | 非插件调用识别 |
200
  |-----------------------|--------|-----------|--------|
201
  | Baichuan2-13B-Chat | 25 | 0 | 0 |
@@ -203,20 +208,20 @@ pipeline_tag: text-generation
203
  | GPT-4 | **95** | 52.38 | 70 |
204
  | Orion-14B-Chat-Plugin | 92.5 | **60.32** | **90** |
205
 
206
- ## 6. 量化模型评估
207
- ### 量化前后��体对比
208
  |模型名称|模型大小(GB)|推理速度(令牌数/秒)|C-Eval |CMMLU |MMLU |RACE | HellaSwag|
209
  |-------------------------|------|-----|------|------|------|------|------|
210
  | OrionStar-14B-Base | 28.0 | 135 | 72.8 | 70.6 | 70.0 | 93.3 | 78.5 |
211
  | OrionStar-14B-Base-Int4 | 8.3 | 178 | 71.8 | 69.8 | 69.2 | 93.1 | 78.0 |
212
 
213
 
214
- # 模型推理
215
 
216
  推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从
217
  Hugging Face 下载所需资源。
218
 
219
- ## Python 代码方式
220
 
221
  ```python
222
  import torch
@@ -237,7 +242,7 @@ print(response)
237
  在上述两段代码中,模型加载指定 `device_map='auto'`
238
  ,会使用所有可用显卡。如需指定使用的设备,可以使用类似 `export CUDA_VISIBLE_DEVICES=0,1`(使用了0、1号显卡)的方式控制。
239
 
240
- ## 命令行工具方式
241
 
242
  ```shell
243
  CUDA_VISIBLE_DEVICES=0 python cli_demo.py
@@ -245,7 +250,7 @@ CUDA_VISIBLE_DEVICES=0 python cli_demo.py
245
 
246
  本命令行工具是为 Chat 场景设计,因此我们不支持使用该工具调用 Base 模型。
247
 
248
- ## 脚本直接推理
249
 
250
  ```shell
251
  # base model
@@ -256,9 +261,9 @@ CUDA_VISIBLE_DEVICES=0 python demo/text_generation.py --model OrionStarAI/Orion-
256
 
257
  ```
258
 
259
- ## 示例输出
260
 
261
- ## 闲聊
262
 
263
  `````
264
  用户:你好,你叫什么名字
@@ -266,26 +271,26 @@ Orion-14B:你好!我是一个人工智能助手,没有固定的名字。你可
266
  用户:讲个故事
267
  Orion-14B:从前有一个小男孩叫杰克,他住在一个小村庄里。杰克非常喜欢冒险和探索,总是梦想着能够发现一些神奇的事情。
268
 
269
- 有一天,杰克听说在附近的森林深处有一座传说中的魔法城堡,里面住着一个邪恶的巨人。这个巨人的名字叫格里姆,他被困在城堡中,无法离开。
270
 
271
- 杰克决定要去解救这个巨人,因为他相信格里姆一定有自己的原因被困在那里。于是,他带着勇气和决心,踏上了前往魔法城堡的旅程。
272
 
273
- 经过长时间的跋涉,杰克终于来到了城堡的大门前。他小心翼翼地推开大门,进入了一个充满神秘气息的房间。
274
 
275
- 房间里弥漫着黑暗的气息,但杰克并没有被吓倒。他勇敢地向城堡深处走去,最终找到了格里姆。
276
 
277
- 格里姆告诉杰克,他是被一个邪恶的女巫诅咒的,只有通过解开咒语才能获得自由。杰克决定要帮助格里姆,他开始寻找线索和解开咒语的方法。
278
 
279
- 经过一番努力,杰克终于找到了一条通往女巫的秘密实验室的道路。他在那里发现了女巫留下的魔法书,书中记载了解开咒语的方法。
280
 
281
- 杰克按照书上所写的步骤进行操作,成功地解开了格里姆身上的诅咒。巨人感激不已,他答应帮助杰克实现他的愿望。
282
 
283
- 从此以后,杰克和格里姆成为了好朋友,他们一起经历了许多惊险刺激的冒险,并用他们的勇气和智慧战胜了各种困难。
284
 
285
- 这个故事告诉我们,只要有勇气和决心,我们就能克服一切困难,实现自己的梦想。
286
  `````
287
 
288
- ## 日韩
289
 
290
  `````
291
  用户:自己を紹介してください
@@ -294,24 +299,10 @@ Orion-14B:こんにちは、私の名前はChatMaxで、OrionStarによって
294
  Orion-14B:안녕하세요, 제 이름은 ChatMax입니다. OrionStar에서 개발한 AI 어시스턴트입니다. 저는 사용자들에게 정확하�� 객관적이며 유용한 답변을 제공하여 문제를 해결하고 정보를 얻는 데 도움을 줄 수 있습니다.
295
  `````
296
 
297
- # 企业介绍
298
-
299
- 猎户星空(OrionStar)是一家全球领先的服务机器人解决方案公司,成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人,使人们能够摆脱重复的体力劳动,使人类的工作和生活更加智能和有趣,通过技术使社会和世界变得更加美好。
300
-
301
- 猎户星空拥有完全自主开发的全链条人工智能技术,如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台,它推出了ORION
302
- STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee
303
- Master等产品,并建立了Orion机器人的开放平台OrionOS。通过为 **真正有用的机器人而生** 的理念实践,它通过AI技术为更多人赋能。
304
-
305
- 凭借7年AI经验积累,猎户星空已推出的大模型深度应用“聚言”,并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案,真正帮助客户实现企业经营效率领先同行目标。
306
-
307
- **猎户星空具备全链条大模型应用能力的核心优势**,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt
308
- Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。
309
-
310
- ***欢迎有大模型应用落地需求的企业联系我们进行商务合作,咨询电话 400-898-7779 。***
311
 
312
- # 声明、协议
313
 
314
- ## 声明
315
 
316
  我们强烈呼吁所有使用者,不要利用 Orion-14B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
317
  Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
@@ -320,14 +311,29 @@ Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
320
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
321
  Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
322
 
323
- ## 协议
324
 
325
  社区使用Orion-14B系列模型
326
  - 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
327
  - 模型请遵循 [Orion-14B系列模型社区许可协议](./ModelsCommunityLicenseAgreement)
328
 
329
- # 联系我们
 
 
330
 
331
- 电子邮箱: [email protected]
 
 
332
 
333
- ![](./assets/imgs/wechat_group.jpg)
 
 
 
 
 
 
 
 
 
 
 
 
11
 
12
  <!-- markdownlint-disable first-line-h1 -->
13
  <!-- markdownlint-disable html -->
14
+ <div align="center">
15
+ <img src="./assets/imgs/orion_start.PNG" alt="logo" width="50%" />
16
+ </div>
17
 
18
  <div align="center">
19
  <h1>
 
45
  - [🥇 企业介绍](#企业介绍)
46
  - [📜 声明协议](#声明协议)
47
 
48
+ # 1. 模型介绍
49
 
50
+ - Orion-14B-Chat 是基于Orion-14B-Base 使用85W左右的高质量语料库微调而来(仅sft),同样支持中英日韩。在MT-Bench、AlignBench评测集上表现优异,多项指标显著超越同等参数基本的其他模型。具体技术细节请参考[技术报告](https://github.com/OrionStarAI/Orion/blob/master/doc/Orion14B_v3.pdf)。
51
 
52
  - 85W微调语料包含两部分:22W左右的人工精标数据集和63W从开源数据里经过模型筛选、语义去重整理而来。其中日韩数据共7W,仅做了简单清洗和去重。
53
 
 
57
  - 微调模型适应性强,在人类标注盲测中,表现突出
58
  - 长上下文版本支持超长文本,长达200k token
59
  - 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%
60
+ <div align="center">
61
+ <img src="./assets/imgs/model_cap_zh.png" alt="model_cap" width="50%" />
62
+ </div>
63
 
64
  - 具体而言,Orion-14B系列大语言模型包含:
65
  - **Orion-14B-Base:** 基于2.5万亿令牌多样化数据集训练处的140亿参数量级的多语言基座模型。
 
70
  - **Orion-14B-Base-Int4:** 一个使用4位整数进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
71
  - **Orion-14B-Chat-Int4:** 一个使用4位整数进行量化的对话模型。
72
 
73
+ # 2. 下载路径
74
 
75
  发布模型和下载链接见下表:
76
 
 
84
  | 💼 基座Int4量化模型 | [Orion-14B-Base-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Base-Int4) | [Orion-14B-Base-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Base-Int4/summary) |
85
  | 📦 对话Int4量化模型 | [Orion-14B-Chat-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Chat-Int4) | [Orion-14B-Chat-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Chat-Int4/summary) |
86
 
87
+ # 3. 评估结果
88
 
89
+ ## 3.1. 基座模型Orion-14B-Base评估
90
+
91
+ ### 3.1.1. 专业知识与试题评估结果
92
  | 模型名称 | C-Eval | CMMLU | MMLU | AGIEval | Gaokao | BBH |
93
  |--------------------|----------|----------|----------|----------|----------|----------|
94
  | LLaMA2-13B | 41.4 | 38.4 | 55.0 | 30.9 | 18.2 | 45.6 |
 
98
  | InternLM-20B | 58.8 | 59.0 | 62.1 | 44.6 | 45.5 | 52.5 |
99
  | **Orion-14B-Base** | **72.9** | **70.6** | **69.9** | **54.7** | 62.1 | **56.5** |
100
 
101
+ ### 3.1.2. 理解与通识评估结果
102
  | 模型名称 |RACE-middle|RACE-high| HellaSwag| PIQA | Lambada | WSC |
103
  |--------------------|----------|----------|----------|----------|----------|----------|
104
  | LLaMA 2-13B | 63.0 | 58.9 | 77.5 | 79.8 | 76.5 | 66.3 |
 
108
  | InternLM-20B | 86.4 | 83.3 | 78.1 | **80.3** | 71.8 | 68.3 |
109
  | **Orion-14B-Base** | **93.3** | **91.3** | 78.5 | 79.5 | **78.9** | **70.2** |
110
 
111
+ ### 3.1.3. OpenCompass评测集评估结果
112
  | 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
113
  |------------------|----------|----------|----------|----------|----------|----------|
114
  | LLaMA 2-13B | 47.3 | 45.2 | 47.0 | 58.3 | 50.9 | 43.6 |
 
118
  | InternLM-20B | 59.4 | 62.5 | 55.0 | **60.1** | 67.3 | 54.9 |
119
  |**Orion-14B-Base**| **64.4** | **71.4** | **55.0** | 60.0 | **71.9** | **61.6** |
120
 
121
+ ### 3.1.4. 日语测试集评估结果
122
  | 模型名称 |**Average**| JCQA | JNLI | MARC | JSQD | JQK | XLS | XWN | MGSM |
123
  |--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
124
  | PLaMo-13B | 52.3 | 56.7 | 42.8 | 95.8 | 70.6 | 71.0 | 8.70 | 70.5 | 2.40 |
 
131
  | Yi-34B | 67.1 | 83.8 | 61.2 | 95.2 | **86.1** | 78.5 | **27.2** | 69.2 | 35.2 |
132
  | **Orion-14B-Base** | **69.1** | **88.2** | **75.8** | 94.1 | 75.7 | **85.1** | 17.3 | **78.8** | **38.0** |
133
 
134
+ ### 3.1.5. 韩语测试集n-shot评估结果
135
  | 模型名称 | **Average**<br>n=0&nbsp;&nbsp;n=5 | HellaSwag<br>n=0&nbsp;&nbsp;n=5 | COPA<br> n=0&nbsp;&nbsp;n=5 | BooIQ<br>n=0&nbsp;&nbsp;n=5 | SentiNeg<br>n=0&nbsp;&nbsp;n=5|
136
  |------------------|------------------------------|------------------------------|------------------------------|------------------------------|------------------------------|
137
  | KoGPT | 53.0 &nbsp;&nbsp; 70.1 | 55.9 &nbsp;&nbsp; 58.3 | 73.5 &nbsp;&nbsp; 72.9 | 45.1 &nbsp;&nbsp; 59.8 | 37.5 &nbsp;&nbsp; 89.4 |
 
142
  | Yi-34B | 54.2 &nbsp;&nbsp; 72.1 | 44.6 &nbsp;&nbsp; 44.7 | 58.0 &nbsp;&nbsp; 60.6 | 65.9 &nbsp;&nbsp; 90.2 | 48.3 &nbsp;&nbsp; 92.9 |
143
  |**Orion-14B-Base**|**74.5** &nbsp;&nbsp; **79.6**| 47.0 &nbsp;&nbsp; 49.6 | 77.7 &nbsp;&nbsp; 79.4 |**81.6** &nbsp;&nbsp; **90.7**|**92.4** &nbsp;&nbsp; **98.7**|
144
 
145
+ ### 3.1.6. 多语言评估结果
146
  | 模型名称 | Train Lang | Japanese | Korean | Chinese | English |
147
  |--------------------|------------|----------|----------|----------|----------|
148
  | PLaMo-13B | En,Jp | 52.3 | * | * | * |
 
157
  | Yi-34B | Multi | 67.1 | 72.2 | 58.7 | **68.8** |
158
  | **Orion-14B-Base** | Multi | **69.1** | **79.5** | **67.9** | 67.3 |
159
 
160
+ ## 3.2. 对话模型Orion-14B-Chat评估
161
+ ### 3.2.1. 对话模型MTBench主观评估
162
  | 模型名称 | 第一轮 | 第二轮 | **平均** |
163
  |----------------------|----------|----------|----------|
164
  | Baichuan2-13B-Chat | 7.05 | 6.47 | 6.76 |
 
168
  | **Orion-14B-Chat** | **7.68** | **7.07** | **7.37** |
169
  \*这里评测使用vllm进行推理
170
 
171
+ ### 3.2.2. 对话模型AlignBench主观评估
172
  | 模型名称 | 数学能力 | 逻辑推理 | 基本能力 | 中文理解 | 综合问答 | 写作能力 | 角色扮演 | 专业知识 | **平均** |
173
  |--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
174
  | Baichuan2-13B-Chat | 3.76 | 4.07 | 6.22 | 6.05 | 7.11 | 6.97 | 6.75 | 6.43 | 5.25 |
 
178
  | **Orion-14B-Chat** | 4.00 | 4.24 | 6.18 | **6.57** | 7.16 | **7.36** | **7.16** | **6.99** | 5.51 |
179
  \*这里评测使用vllm进行推理
180
 
181
+ ## 3.3. 长上下文模型Orion-14B-LongChat评估
182
+ ### 3.3.1. 长上下文模型LongBench评估
183
  | 模型名称 | NarrativeQA| MultiFieldQA-en| MultiFieldQA-zh | DuReader | QMSum | VCSUM | TREC | TriviaQA | LSHT | RepoBench-P |
184
  |--------------------------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|
185
  | GPT-3.5-Turbo-16k | **23.60** | **52.30** | **61.20** | 28.70 | 23.40 | **16.00** | 68.00 | **91.40** | 29.20 | 53.60 |
 
188
  | Yi-6B-200K | 14.11 | 36.74 | 22.68 | 14.01 | 20.44 | 8.08 | 72.00 | 86.61 | 38.00 | **63.29** |
189
  | Orion-14B-LongChat | 19.47 | 48.11 | 55.84 | **37.02** | **24.87** | 15.44 | **77.00** | 89.12 | **45.50** | 54.31 |
190
 
191
+ ## 3.4. 检索增强模型Orion-14B-Chat-RAG评估
192
+ ### 3.4.1. 自建检索增强测试集评估结果
193
  |模型名称|回复效果(关键字)|*回复效果(主观打分)|引用能力|兜底能力|*AutoQA|*抽取数据|
194
  |---------------------|------|------|------|------|------|------|
195
  | Baichuan2-13B-Chat | 85 | 76 | 1 | 0 | 69 | 51 |
 
199
  | Orion-14B-Chat-RAG | 86 | 87 | 91 | 97 | 73 | 71 |
200
  \* 表示人工评判结果
201
 
202
+ ## 3.5. 插件模型Orion-14B-Chat-Plugin评估
203
+ ### 3.5.1. 自建插件测试集评估结果
204
  | 模型名称 | 全参数意图识别 | 缺参数意图识别 | 非插件调用识别 |
205
  |-----------------------|--------|-----------|--------|
206
  | Baichuan2-13B-Chat | 25 | 0 | 0 |
 
208
  | GPT-4 | **95** | 52.38 | 70 |
209
  | Orion-14B-Chat-Plugin | 92.5 | **60.32** | **90** |
210
 
211
+ ## 3.6. 量化模型Orion-14B-Base-Int4评估
212
+ ### 3.6.1. 量化前后整体对比
213
  |模型名称|模型大小(GB)|推理速度(令牌数/秒)|C-Eval |CMMLU |MMLU |RACE | HellaSwag|
214
  |-------------------------|------|-----|------|------|------|------|------|
215
  | OrionStar-14B-Base | 28.0 | 135 | 72.8 | 70.6 | 70.0 | 93.3 | 78.5 |
216
  | OrionStar-14B-Base-Int4 | 8.3 | 178 | 71.8 | 69.8 | 69.2 | 93.1 | 78.0 |
217
 
218
 
219
+ # 4. 模型推理
220
 
221
  推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从
222
  Hugging Face 下载所需资源。
223
 
224
+ ## 4.1. Python 代码方式
225
 
226
  ```python
227
  import torch
 
242
  在上述两段代码中,模型加载指定 `device_map='auto'`
243
  ,会使用所有可用显卡。如需指定使用的设备,可以使用类似 `export CUDA_VISIBLE_DEVICES=0,1`(使用了0、1号显卡)的方式控制。
244
 
245
+ ## 4.2. 命令行工具方式
246
 
247
  ```shell
248
  CUDA_VISIBLE_DEVICES=0 python cli_demo.py
 
250
 
251
  本命令行工具是为 Chat 场景设计,因此我们不支持使用该工具调用 Base 模型。
252
 
253
+ ## 4.3. 脚本直接推理
254
 
255
  ```shell
256
  # base model
 
261
 
262
  ```
263
 
264
+ ## 4.4. 示例输出
265
 
266
+ ### 4.4.1. 闲聊
267
 
268
  `````
269
  用户:你好,你叫什么名字
 
271
  用户:讲个故事
272
  Orion-14B:从前有一个小男孩叫杰克,他住在一个小村庄里。杰克非常喜欢冒险和探索,总是梦想着能够发现一些神奇的事情。
273
 
274
+ 有一天,杰克听说在附近的森林深处有一座传说中的魔法城堡,里面住着一个邪恶的巨人。这个巨人的名字叫格里姆,他被困在城堡中,无法离开。
275
 
276
+ 杰克决定要去解救这个巨人,因为他相信格里姆一定有自己的原因被困在那里。于是,他带着勇气和决心,踏上了前往魔法城堡的旅程。
277
 
278
+ 经过长时间的跋涉,杰克终于来到了城堡的大门前。他小心翼翼地推开大门,进入了一个充满神秘气息的房间。
279
 
280
+ 房间里弥漫着黑暗的气息,但杰克并没有被吓倒。他勇敢地向城堡深处走去,最终找到了格里姆。
281
 
282
+ 格里姆告诉杰克,他是被一个邪恶的女巫诅咒的,只有通过解开咒语才能获得自由。杰克决定要帮助格里姆,他开始寻找线索和解开咒语的方法。
283
 
284
+ 经过一番努力,杰克终于找到了一条通往女巫的秘密实验室的道路。他在那里发现了女巫留下的魔法书,书中记载了解开咒语的方法。
285
 
286
+ 杰克按照书上所写的步骤进行操作,成功地解开了格里姆身上的诅咒。巨人感激不已,他答应帮助杰克实现他的愿望。
287
 
288
+ 从此以后,杰克和格里姆成为了好朋友,他们一起经历了许多惊险刺激的冒险,并用他们的勇气和智慧战胜了各种困难。
289
 
290
+ 这个故事告诉我们,只要有勇气和决心,我们就能克服一切困难,实现自己的梦想。
291
  `````
292
 
293
+ ### 4.4.2. 日韩
294
 
295
  `````
296
  用户:自己を紹介してください
 
299
  Orion-14B:안녕하세요, 제 이름은 ChatMax입니다. OrionStar에서 개발한 AI 어시스턴트입니다. 저는 사용자들에게 정확하�� 객관적이며 유용한 답변을 제공하여 문제를 해결하고 정보를 얻는 데 도움을 줄 수 있습니다.
300
  `````
301
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
302
 
303
+ # 5. 声明、协议
304
 
305
+ ## 5.1. 声明
306
 
307
  我们强烈呼吁所有使用者,不要利用 Orion-14B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
308
  Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
 
311
  我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
312
  Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
313
 
314
+ ## 5.2. 协议
315
 
316
  社区使用Orion-14B系列模型
317
  - 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
318
  - 模型请遵循 [Orion-14B系列模型社区许可协议](./ModelsCommunityLicenseAgreement)
319
 
320
+ # 6. 企业介绍
321
+
322
+ 猎户星空(OrionStar)是一家全球领先的服务机器人解决方案公司,成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人,使人们能够摆脱重复的体力劳动,使人类的工作和生活更加智能和有趣,通过技术使社会和世界变得更加美好。
323
 
324
+ 猎户星空拥有完全自主开发的全链条人工智能技术,如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台,它推出了ORION
325
+ STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee
326
+ Master等产品,并建立了Orion机器人的开放平台OrionOS。通过为 **真正有用的机器人而生** 的理念实践,它通过AI技术为更多人赋能。
327
 
328
+ 凭借7年AI经验积累,猎户星空已推出的大模型深度应用“聚言”,并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案,真正帮助客户实现企业经营效率领先同行目标。
329
+
330
+ **猎户星空具备全链条大模型应用能力的核心优势**,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt
331
+ Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。
332
+
333
+ ***欢迎有大模型应用落地需求的企业联系我们进行商务合作***<br>
334
+ **咨询电话:** 400-898-7779<br>
335
+ **电子邮箱:** [email protected]
336
+
337
+ <div align="center">
338
+ <img src="./assets/imgs/wechat_group.jpg" alt="wechat" width="40%" />
339
+ </div>