DachengZhang
commited on
Commit
•
0641956
1
Parent(s):
cf2561e
Update README_cn.md
Browse files- README_cn.md +66 -60
README_cn.md
CHANGED
@@ -11,7 +11,9 @@ pipeline_tag: text-generation
|
|
11 |
|
12 |
<!-- markdownlint-disable first-line-h1 -->
|
13 |
<!-- markdownlint-disable html -->
|
14 |
-
|
|
|
|
|
15 |
|
16 |
<div align="center">
|
17 |
<h1>
|
@@ -43,9 +45,9 @@ pipeline_tag: text-generation
|
|
43 |
- [🥇 企业介绍](#企业介绍)
|
44 |
- [📜 声明协议](#声明协议)
|
45 |
|
46 |
-
# 模型介绍
|
47 |
|
48 |
-
- Orion-14B-Chat 是基于Orion-14B-Base 使用85W左右的高质量语料库微调而来(仅sft),同样支持中英日韩。在MT-Bench、AlignBench
|
49 |
|
50 |
- 85W微调语料包含两部分:22W左右的人工精标数据集和63W从开源数据里经过模型筛选、语义去重整理而来。其中日韩数据共7W,仅做了简单清洗和去重。
|
51 |
|
@@ -55,7 +57,9 @@ pipeline_tag: text-generation
|
|
55 |
- 微调模型适应性强,在人类标注盲测中,表现突出
|
56 |
- 长上下文版本支持超长文本,长达200k token
|
57 |
- 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%
|
58 |
-
|
|
|
|
|
59 |
|
60 |
- 具体而言,Orion-14B系列大语言模型包含:
|
61 |
- **Orion-14B-Base:** 基于2.5万亿令牌多样化数据集训练处的140亿参数量级的多语言基座模型。
|
@@ -66,7 +70,7 @@ pipeline_tag: text-generation
|
|
66 |
- **Orion-14B-Base-Int4:** 一个使用4位整数进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
|
67 |
- **Orion-14B-Chat-Int4:** 一个使用4位整数进行量化的对话模型。
|
68 |
|
69 |
-
# 下载路径
|
70 |
|
71 |
发布模型和下载链接见下表:
|
72 |
|
@@ -80,10 +84,11 @@ pipeline_tag: text-generation
|
|
80 |
| 💼 基座Int4量化模型 | [Orion-14B-Base-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Base-Int4) | [Orion-14B-Base-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Base-Int4/summary) |
|
81 |
| 📦 对话Int4量化模型 | [Orion-14B-Chat-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Chat-Int4) | [Orion-14B-Chat-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Chat-Int4/summary) |
|
82 |
|
83 |
-
# 评估结果
|
84 |
|
85 |
-
## 1.
|
86 |
-
|
|
|
87 |
| 模型名称 | C-Eval | CMMLU | MMLU | AGIEval | Gaokao | BBH |
|
88 |
|--------------------|----------|----------|----------|----------|----------|----------|
|
89 |
| LLaMA2-13B | 41.4 | 38.4 | 55.0 | 30.9 | 18.2 | 45.6 |
|
@@ -93,7 +98,7 @@ pipeline_tag: text-generation
|
|
93 |
| InternLM-20B | 58.8 | 59.0 | 62.1 | 44.6 | 45.5 | 52.5 |
|
94 |
| **Orion-14B-Base** | **72.9** | **70.6** | **69.9** | **54.7** | 62.1 | **56.5** |
|
95 |
|
96 |
-
### 理解与通识评估结果
|
97 |
| 模型名称 |RACE-middle|RACE-high| HellaSwag| PIQA | Lambada | WSC |
|
98 |
|--------------------|----------|----------|----------|----------|----------|----------|
|
99 |
| LLaMA 2-13B | 63.0 | 58.9 | 77.5 | 79.8 | 76.5 | 66.3 |
|
@@ -103,7 +108,7 @@ pipeline_tag: text-generation
|
|
103 |
| InternLM-20B | 86.4 | 83.3 | 78.1 | **80.3** | 71.8 | 68.3 |
|
104 |
| **Orion-14B-Base** | **93.3** | **91.3** | 78.5 | 79.5 | **78.9** | **70.2** |
|
105 |
|
106 |
-
### OpenCompass评测集评估结果
|
107 |
| 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
|
108 |
|------------------|----------|----------|----------|----------|----------|----------|
|
109 |
| LLaMA 2-13B | 47.3 | 45.2 | 47.0 | 58.3 | 50.9 | 43.6 |
|
@@ -113,7 +118,7 @@ pipeline_tag: text-generation
|
|
113 |
| InternLM-20B | 59.4 | 62.5 | 55.0 | **60.1** | 67.3 | 54.9 |
|
114 |
|**Orion-14B-Base**| **64.4** | **71.4** | **55.0** | 60.0 | **71.9** | **61.6** |
|
115 |
|
116 |
-
### 日语测试集评估结果
|
117 |
| 模型名称 |**Average**| JCQA | JNLI | MARC | JSQD | JQK | XLS | XWN | MGSM |
|
118 |
|--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
|
119 |
| PLaMo-13B | 52.3 | 56.7 | 42.8 | 95.8 | 70.6 | 71.0 | 8.70 | 70.5 | 2.40 |
|
@@ -126,7 +131,7 @@ pipeline_tag: text-generation
|
|
126 |
| Yi-34B | 67.1 | 83.8 | 61.2 | 95.2 | **86.1** | 78.5 | **27.2** | 69.2 | 35.2 |
|
127 |
| **Orion-14B-Base** | **69.1** | **88.2** | **75.8** | 94.1 | 75.7 | **85.1** | 17.3 | **78.8** | **38.0** |
|
128 |
|
129 |
-
### 韩语测试集n-shot评估结果
|
130 |
| 模型名称 | **Average**<br>n=0 n=5 | HellaSwag<br>n=0 n=5 | COPA<br> n=0 n=5 | BooIQ<br>n=0 n=5 | SentiNeg<br>n=0 n=5|
|
131 |
|------------------|------------------------------|------------------------------|------------------------------|------------------------------|------------------------------|
|
132 |
| KoGPT | 53.0 70.1 | 55.9 58.3 | 73.5 72.9 | 45.1 59.8 | 37.5 89.4 |
|
@@ -137,7 +142,7 @@ pipeline_tag: text-generation
|
|
137 |
| Yi-34B | 54.2 72.1 | 44.6 44.7 | 58.0 60.6 | 65.9 90.2 | 48.3 92.9 |
|
138 |
|**Orion-14B-Base**|**74.5** **79.6**| 47.0 49.6 | 77.7 79.4 |**81.6** **90.7**|**92.4** **98.7**|
|
139 |
|
140 |
-
### 多语言评估结果
|
141 |
| 模型名称 | Train Lang | Japanese | Korean | Chinese | English |
|
142 |
|--------------------|------------|----------|----------|----------|----------|
|
143 |
| PLaMo-13B | En,Jp | 52.3 | * | * | * |
|
@@ -152,8 +157,8 @@ pipeline_tag: text-generation
|
|
152 |
| Yi-34B | Multi | 67.1 | 72.2 | 58.7 | **68.8** |
|
153 |
| **Orion-14B-Base** | Multi | **69.1** | **79.5** | **67.9** | 67.3 |
|
154 |
|
155 |
-
## 2.
|
156 |
-
### 对话模型MTBench主观评估
|
157 |
| 模型名称 | 第一轮 | 第二轮 | **平均** |
|
158 |
|----------------------|----------|----------|----------|
|
159 |
| Baichuan2-13B-Chat | 7.05 | 6.47 | 6.76 |
|
@@ -163,7 +168,7 @@ pipeline_tag: text-generation
|
|
163 |
| **Orion-14B-Chat** | **7.68** | **7.07** | **7.37** |
|
164 |
\*这里评测使用vllm进行推理
|
165 |
|
166 |
-
### 对话模型AlignBench主观评估
|
167 |
| 模型名称 | 数学能力 | 逻辑推理 | 基本能力 | 中文理解 | 综合问答 | 写作能力 | 角色扮演 | 专业知识 | **平均** |
|
168 |
|--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
|
169 |
| Baichuan2-13B-Chat | 3.76 | 4.07 | 6.22 | 6.05 | 7.11 | 6.97 | 6.75 | 6.43 | 5.25 |
|
@@ -173,8 +178,8 @@ pipeline_tag: text-generation
|
|
173 |
| **Orion-14B-Chat** | 4.00 | 4.24 | 6.18 | **6.57** | 7.16 | **7.36** | **7.16** | **6.99** | 5.51 |
|
174 |
\*这里评测使用vllm进行推理
|
175 |
|
176 |
-
## 3.
|
177 |
-
### 长上下文模型LongBench评估
|
178 |
| 模型名称 | NarrativeQA| MultiFieldQA-en| MultiFieldQA-zh | DuReader | QMSum | VCSUM | TREC | TriviaQA | LSHT | RepoBench-P |
|
179 |
|--------------------------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|
|
180 |
| GPT-3.5-Turbo-16k | **23.60** | **52.30** | **61.20** | 28.70 | 23.40 | **16.00** | 68.00 | **91.40** | 29.20 | 53.60 |
|
@@ -183,8 +188,8 @@ pipeline_tag: text-generation
|
|
183 |
| Yi-6B-200K | 14.11 | 36.74 | 22.68 | 14.01 | 20.44 | 8.08 | 72.00 | 86.61 | 38.00 | **63.29** |
|
184 |
| Orion-14B-LongChat | 19.47 | 48.11 | 55.84 | **37.02** | **24.87** | 15.44 | **77.00** | 89.12 | **45.50** | 54.31 |
|
185 |
|
186 |
-
## 4.
|
187 |
-
### 自建检索增强测试集评估结果
|
188 |
|模型名称|回复效果(关键字)|*回复效果(主观打分)|引用能力|兜底能力|*AutoQA|*抽取数据|
|
189 |
|---------------------|------|------|------|------|------|------|
|
190 |
| Baichuan2-13B-Chat | 85 | 76 | 1 | 0 | 69 | 51 |
|
@@ -194,8 +199,8 @@ pipeline_tag: text-generation
|
|
194 |
| Orion-14B-Chat-RAG | 86 | 87 | 91 | 97 | 73 | 71 |
|
195 |
\* 表示人工评判结果
|
196 |
|
197 |
-
## 5.
|
198 |
-
### 自建插件测试集评估结果
|
199 |
| 模型名称 | 全参数意图识别 | 缺参数意图识别 | 非插件调用识别 |
|
200 |
|-----------------------|--------|-----------|--------|
|
201 |
| Baichuan2-13B-Chat | 25 | 0 | 0 |
|
@@ -203,20 +208,20 @@ pipeline_tag: text-generation
|
|
203 |
| GPT-4 | **95** | 52.38 | 70 |
|
204 |
| Orion-14B-Chat-Plugin | 92.5 | **60.32** | **90** |
|
205 |
|
206 |
-
## 6.
|
207 |
-
###
|
208 |
|模型名称|模型大小(GB)|推理速度(令牌数/秒)|C-Eval |CMMLU |MMLU |RACE | HellaSwag|
|
209 |
|-------------------------|------|-----|------|------|------|------|------|
|
210 |
| OrionStar-14B-Base | 28.0 | 135 | 72.8 | 70.6 | 70.0 | 93.3 | 78.5 |
|
211 |
| OrionStar-14B-Base-Int4 | 8.3 | 178 | 71.8 | 69.8 | 69.2 | 93.1 | 78.0 |
|
212 |
|
213 |
|
214 |
-
# 模型推理
|
215 |
|
216 |
推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从
|
217 |
Hugging Face 下载所需资源。
|
218 |
|
219 |
-
## Python 代码方式
|
220 |
|
221 |
```python
|
222 |
import torch
|
@@ -237,7 +242,7 @@ print(response)
|
|
237 |
在上述两段代码中,模型加载指定 `device_map='auto'`
|
238 |
,会使用所有可用显卡。如需指定使用的设备,可以使用类似 `export CUDA_VISIBLE_DEVICES=0,1`(使用了0、1号显卡)的方式控制。
|
239 |
|
240 |
-
## 命令行工具方式
|
241 |
|
242 |
```shell
|
243 |
CUDA_VISIBLE_DEVICES=0 python cli_demo.py
|
@@ -245,7 +250,7 @@ CUDA_VISIBLE_DEVICES=0 python cli_demo.py
|
|
245 |
|
246 |
本命令行工具是为 Chat 场景设计,因此我们不支持使用该工具调用 Base 模型。
|
247 |
|
248 |
-
## 脚本直接推理
|
249 |
|
250 |
```shell
|
251 |
# base model
|
@@ -256,9 +261,9 @@ CUDA_VISIBLE_DEVICES=0 python demo/text_generation.py --model OrionStarAI/Orion-
|
|
256 |
|
257 |
```
|
258 |
|
259 |
-
## 示例输出
|
260 |
|
261 |
-
|
262 |
|
263 |
`````
|
264 |
用户:你好,你叫什么名字
|
@@ -266,26 +271,26 @@ Orion-14B:你好!我是一个人工智能助手,没有固定的名字。你可
|
|
266 |
用户:讲个故事
|
267 |
Orion-14B:从前有一个小男孩叫杰克,他住在一个小村庄里。杰克非常喜欢冒险和探索,总是梦想着能够发现一些神奇的事情。
|
268 |
|
269 |
-
有一天,杰克听说在附近的森林深处有一座传说中的魔法城堡,里面住着一个邪恶的巨人。这个巨人的名字叫格里姆,他被困在城堡中,无法离开。
|
270 |
|
271 |
-
杰克决定要去解救这个巨人,因为他相信格里姆一定有自己的原因被困在那里。于是,他带着勇气和决心,踏上了前往魔法城堡的旅程。
|
272 |
|
273 |
-
经过长时间的跋涉,杰克终于来到了城堡的大门前。他小心翼翼地推开大门,进入了一个充满神秘气息的房间。
|
274 |
|
275 |
-
房间里弥漫着黑暗的气息,但杰克并没有被吓倒。他勇敢地向城堡深处走去,最终找到了格里姆。
|
276 |
|
277 |
-
格里姆告诉杰克,他是被一个邪恶的女巫诅咒的,只有通过解开咒语才能获得自由。杰克决定要帮助格里姆,他开始寻找线索和解开咒语的方法。
|
278 |
|
279 |
-
经过一番努力,杰克终于找到了一条通往女巫的秘密实验室的道路。他在那里发现了女巫留下的魔法书,书中记载了解开咒语的方法。
|
280 |
|
281 |
-
杰克按照书上所写的步骤进行操作,成功地解开了格里姆身上的诅咒。巨人感激不已,他答应帮助杰克实现他的愿望。
|
282 |
|
283 |
-
从此以后,杰克和格里姆成为了好朋友,他们一起经历了许多惊险刺激的冒险,并用他们的勇气和智慧战胜了各种困难。
|
284 |
|
285 |
-
这个故事告诉我们,只要有勇气和决心,我们就能克服一切困难,实现自己的梦想。
|
286 |
`````
|
287 |
|
288 |
-
|
289 |
|
290 |
`````
|
291 |
用户:自己を紹介してください
|
@@ -294,24 +299,10 @@ Orion-14B:こんにちは、私の名前はChatMaxで、OrionStarによって
|
|
294 |
Orion-14B:안녕하세요, 제 이름은 ChatMax입니다. OrionStar에서 개발한 AI 어시스턴트입니다. 저는 사용자들에게 정확하�� 객관적이며 유용한 답변을 제공하여 문제를 해결하고 정보를 얻는 데 도움을 줄 수 있습니다.
|
295 |
`````
|
296 |
|
297 |
-
# 企业介绍
|
298 |
-
|
299 |
-
猎户星空(OrionStar)是一家全球领先的服务机器人解决方案公司,成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人,使人们能够摆脱重复的体力劳动,使人类的工作和生活更加智能和有趣,通过技术使社会和世界变得更加美好。
|
300 |
-
|
301 |
-
猎户星空拥有完全自主开发的全链条人工智能技术,如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台,它推出了ORION
|
302 |
-
STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee
|
303 |
-
Master等产品,并建立了Orion机器人的开放平台OrionOS。通过为 **真正有用的机器人而生** 的理念实践,它通过AI技术为更多人赋能。
|
304 |
-
|
305 |
-
凭借7年AI经验积累,猎户星空已推出的大模型深度应用“聚言”,并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案,真正帮助客户实现企业经营效率领先同行目标。
|
306 |
-
|
307 |
-
**猎户星空具备全链条大模型应用能力的核心优势**,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt
|
308 |
-
Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。
|
309 |
-
|
310 |
-
***欢迎有大模型应用落地需求的企业联系我们进行商务合作,咨询电话 400-898-7779 。***
|
311 |
|
312 |
-
# 声明、协议
|
313 |
|
314 |
-
## 声明
|
315 |
|
316 |
我们强烈呼吁所有使用者,不要利用 Orion-14B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
|
317 |
Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
|
@@ -320,14 +311,29 @@ Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
|
|
320 |
我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
|
321 |
Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
|
322 |
|
323 |
-
## 协议
|
324 |
|
325 |
社区使用Orion-14B系列模型
|
326 |
- 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
|
327 |
- 模型请遵循 [Orion-14B系列模型社区许可协议](./ModelsCommunityLicenseAgreement)
|
328 |
|
329 |
-
#
|
|
|
|
|
330 |
|
331 |
-
|
|
|
|
|
332 |
|
333 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
11 |
|
12 |
<!-- markdownlint-disable first-line-h1 -->
|
13 |
<!-- markdownlint-disable html -->
|
14 |
+
<div align="center">
|
15 |
+
<img src="./assets/imgs/orion_start.PNG" alt="logo" width="50%" />
|
16 |
+
</div>
|
17 |
|
18 |
<div align="center">
|
19 |
<h1>
|
|
|
45 |
- [🥇 企业介绍](#企业介绍)
|
46 |
- [📜 声明协议](#声明协议)
|
47 |
|
48 |
+
# 1. 模型介绍
|
49 |
|
50 |
+
- Orion-14B-Chat 是基于Orion-14B-Base 使用85W左右的高质量语料库微调而来(仅sft),同样支持中英日韩。在MT-Bench、AlignBench评测集上表现优异,多项指标显著超越同等参数基本的其他模型。具体技术细节请参考[技术报告](https://github.com/OrionStarAI/Orion/blob/master/doc/Orion14B_v3.pdf)。
|
51 |
|
52 |
- 85W微调语料包含两部分:22W左右的人工精标数据集和63W从开源数据里经过模型筛选、语义去重整理而来。其中日韩数据共7W,仅做了简单清洗和去重。
|
53 |
|
|
|
57 |
- 微调模型适应性强,在人类标注盲测中,表现突出
|
58 |
- 长上下文版本支持超长文本,长达200k token
|
59 |
- 量化版本模型大小缩小70%,推理速度提升30%,性能损失小于1%
|
60 |
+
<div align="center">
|
61 |
+
<img src="./assets/imgs/model_cap_zh.png" alt="model_cap" width="50%" />
|
62 |
+
</div>
|
63 |
|
64 |
- 具体而言,Orion-14B系列大语言模型包含:
|
65 |
- **Orion-14B-Base:** 基于2.5万亿令牌多样化数据集训练处的140亿参数量级的多语言基座模型。
|
|
|
70 |
- **Orion-14B-Base-Int4:** 一个使用4位整数进行量化的基座模型。它将模型大小显著减小了70%,同时提高了推理速度30%,仅引入了1%的最小性能损失。
|
71 |
- **Orion-14B-Chat-Int4:** 一个使用4位整数进行量化的对话模型。
|
72 |
|
73 |
+
# 2. 下载路径
|
74 |
|
75 |
发布模型和下载链接见下表:
|
76 |
|
|
|
84 |
| 💼 基座Int4量化模型 | [Orion-14B-Base-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Base-Int4) | [Orion-14B-Base-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Base-Int4/summary) |
|
85 |
| 📦 对话Int4量化模型 | [Orion-14B-Chat-Int4](https://huggingface.co/OrionStarAI/Orion-14B-Chat-Int4) | [Orion-14B-Chat-Int4](https://modelscope.cn/models/OrionStarAI/Orion-14B-Chat-Int4/summary) |
|
86 |
|
87 |
+
# 3. 评估结果
|
88 |
|
89 |
+
## 3.1. 基座模型Orion-14B-Base评估
|
90 |
+
|
91 |
+
### 3.1.1. 专业知识与试题评估结果
|
92 |
| 模型名称 | C-Eval | CMMLU | MMLU | AGIEval | Gaokao | BBH |
|
93 |
|--------------------|----------|----------|----------|----------|----------|----------|
|
94 |
| LLaMA2-13B | 41.4 | 38.4 | 55.0 | 30.9 | 18.2 | 45.6 |
|
|
|
98 |
| InternLM-20B | 58.8 | 59.0 | 62.1 | 44.6 | 45.5 | 52.5 |
|
99 |
| **Orion-14B-Base** | **72.9** | **70.6** | **69.9** | **54.7** | 62.1 | **56.5** |
|
100 |
|
101 |
+
### 3.1.2. 理解与通识评估结果
|
102 |
| 模型名称 |RACE-middle|RACE-high| HellaSwag| PIQA | Lambada | WSC |
|
103 |
|--------------------|----------|----------|----------|----------|----------|----------|
|
104 |
| LLaMA 2-13B | 63.0 | 58.9 | 77.5 | 79.8 | 76.5 | 66.3 |
|
|
|
108 |
| InternLM-20B | 86.4 | 83.3 | 78.1 | **80.3** | 71.8 | 68.3 |
|
109 |
| **Orion-14B-Base** | **93.3** | **91.3** | 78.5 | 79.5 | **78.9** | **70.2** |
|
110 |
|
111 |
+
### 3.1.3. OpenCompass评测集评估结果
|
112 |
| 模型名称 | Average | Examination | Language | Knowledge | Understanding | Reasoning |
|
113 |
|------------------|----------|----------|----------|----------|----------|----------|
|
114 |
| LLaMA 2-13B | 47.3 | 45.2 | 47.0 | 58.3 | 50.9 | 43.6 |
|
|
|
118 |
| InternLM-20B | 59.4 | 62.5 | 55.0 | **60.1** | 67.3 | 54.9 |
|
119 |
|**Orion-14B-Base**| **64.4** | **71.4** | **55.0** | 60.0 | **71.9** | **61.6** |
|
120 |
|
121 |
+
### 3.1.4. 日语测试集评估结果
|
122 |
| 模型名称 |**Average**| JCQA | JNLI | MARC | JSQD | JQK | XLS | XWN | MGSM |
|
123 |
|--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
|
124 |
| PLaMo-13B | 52.3 | 56.7 | 42.8 | 95.8 | 70.6 | 71.0 | 8.70 | 70.5 | 2.40 |
|
|
|
131 |
| Yi-34B | 67.1 | 83.8 | 61.2 | 95.2 | **86.1** | 78.5 | **27.2** | 69.2 | 35.2 |
|
132 |
| **Orion-14B-Base** | **69.1** | **88.2** | **75.8** | 94.1 | 75.7 | **85.1** | 17.3 | **78.8** | **38.0** |
|
133 |
|
134 |
+
### 3.1.5. 韩语测试集n-shot评估结果
|
135 |
| 模型名称 | **Average**<br>n=0 n=5 | HellaSwag<br>n=0 n=5 | COPA<br> n=0 n=5 | BooIQ<br>n=0 n=5 | SentiNeg<br>n=0 n=5|
|
136 |
|------------------|------------------------------|------------------------------|------------------------------|------------------------------|------------------------------|
|
137 |
| KoGPT | 53.0 70.1 | 55.9 58.3 | 73.5 72.9 | 45.1 59.8 | 37.5 89.4 |
|
|
|
142 |
| Yi-34B | 54.2 72.1 | 44.6 44.7 | 58.0 60.6 | 65.9 90.2 | 48.3 92.9 |
|
143 |
|**Orion-14B-Base**|**74.5** **79.6**| 47.0 49.6 | 77.7 79.4 |**81.6** **90.7**|**92.4** **98.7**|
|
144 |
|
145 |
+
### 3.1.6. 多语言评估结果
|
146 |
| 模型名称 | Train Lang | Japanese | Korean | Chinese | English |
|
147 |
|--------------------|------------|----------|----------|----------|----------|
|
148 |
| PLaMo-13B | En,Jp | 52.3 | * | * | * |
|
|
|
157 |
| Yi-34B | Multi | 67.1 | 72.2 | 58.7 | **68.8** |
|
158 |
| **Orion-14B-Base** | Multi | **69.1** | **79.5** | **67.9** | 67.3 |
|
159 |
|
160 |
+
## 3.2. 对话模型Orion-14B-Chat评估
|
161 |
+
### 3.2.1. 对话模型MTBench主观评估
|
162 |
| 模型名称 | 第一轮 | 第二轮 | **平均** |
|
163 |
|----------------------|----------|----------|----------|
|
164 |
| Baichuan2-13B-Chat | 7.05 | 6.47 | 6.76 |
|
|
|
168 |
| **Orion-14B-Chat** | **7.68** | **7.07** | **7.37** |
|
169 |
\*这里评测使用vllm进行推理
|
170 |
|
171 |
+
### 3.2.2. 对话模型AlignBench主观评估
|
172 |
| 模型名称 | 数学能力 | 逻辑推理 | 基本能力 | 中文理解 | 综合问答 | 写作能力 | 角色扮演 | 专业知识 | **平均** |
|
173 |
|--------------------|----------|----------|----------|----------|----------|----------|----------|----------|----------|
|
174 |
| Baichuan2-13B-Chat | 3.76 | 4.07 | 6.22 | 6.05 | 7.11 | 6.97 | 6.75 | 6.43 | 5.25 |
|
|
|
178 |
| **Orion-14B-Chat** | 4.00 | 4.24 | 6.18 | **6.57** | 7.16 | **7.36** | **7.16** | **6.99** | 5.51 |
|
179 |
\*这里评测使用vllm进行推理
|
180 |
|
181 |
+
## 3.3. 长上下文模型Orion-14B-LongChat评估
|
182 |
+
### 3.3.1. 长上下文模型LongBench评估
|
183 |
| 模型名称 | NarrativeQA| MultiFieldQA-en| MultiFieldQA-zh | DuReader | QMSum | VCSUM | TREC | TriviaQA | LSHT | RepoBench-P |
|
184 |
|--------------------------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|-----------|
|
185 |
| GPT-3.5-Turbo-16k | **23.60** | **52.30** | **61.20** | 28.70 | 23.40 | **16.00** | 68.00 | **91.40** | 29.20 | 53.60 |
|
|
|
188 |
| Yi-6B-200K | 14.11 | 36.74 | 22.68 | 14.01 | 20.44 | 8.08 | 72.00 | 86.61 | 38.00 | **63.29** |
|
189 |
| Orion-14B-LongChat | 19.47 | 48.11 | 55.84 | **37.02** | **24.87** | 15.44 | **77.00** | 89.12 | **45.50** | 54.31 |
|
190 |
|
191 |
+
## 3.4. 检索增强模型Orion-14B-Chat-RAG评估
|
192 |
+
### 3.4.1. 自建检索增强测试集评估结果
|
193 |
|模型名称|回复效果(关键字)|*回复效果(主观打分)|引用能力|兜底能力|*AutoQA|*抽取数据|
|
194 |
|---------------------|------|------|------|------|------|------|
|
195 |
| Baichuan2-13B-Chat | 85 | 76 | 1 | 0 | 69 | 51 |
|
|
|
199 |
| Orion-14B-Chat-RAG | 86 | 87 | 91 | 97 | 73 | 71 |
|
200 |
\* 表示人工评判结果
|
201 |
|
202 |
+
## 3.5. 插件模型Orion-14B-Chat-Plugin评估
|
203 |
+
### 3.5.1. 自建插件测试集评估结果
|
204 |
| 模型名称 | 全参数意图识别 | 缺参数意图识别 | 非插件调用识别 |
|
205 |
|-----------------------|--------|-----------|--------|
|
206 |
| Baichuan2-13B-Chat | 25 | 0 | 0 |
|
|
|
208 |
| GPT-4 | **95** | 52.38 | 70 |
|
209 |
| Orion-14B-Chat-Plugin | 92.5 | **60.32** | **90** |
|
210 |
|
211 |
+
## 3.6. 量化模型Orion-14B-Base-Int4评估
|
212 |
+
### 3.6.1. 量化前后整体对比
|
213 |
|模型名称|模型大小(GB)|推理速度(令牌数/秒)|C-Eval |CMMLU |MMLU |RACE | HellaSwag|
|
214 |
|-------------------------|------|-----|------|------|------|------|------|
|
215 |
| OrionStar-14B-Base | 28.0 | 135 | 72.8 | 70.6 | 70.0 | 93.3 | 78.5 |
|
216 |
| OrionStar-14B-Base-Int4 | 8.3 | 178 | 71.8 | 69.8 | 69.2 | 93.1 | 78.0 |
|
217 |
|
218 |
|
219 |
+
# 4. 模型推理
|
220 |
|
221 |
推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从
|
222 |
Hugging Face 下载所需资源。
|
223 |
|
224 |
+
## 4.1. Python 代码方式
|
225 |
|
226 |
```python
|
227 |
import torch
|
|
|
242 |
在上述两段代码中,模型加载指定 `device_map='auto'`
|
243 |
,会使用所有可用显卡。如需指定使用的设备,可以使用类似 `export CUDA_VISIBLE_DEVICES=0,1`(使用了0、1号显卡)的方式控制。
|
244 |
|
245 |
+
## 4.2. 命令行工具方式
|
246 |
|
247 |
```shell
|
248 |
CUDA_VISIBLE_DEVICES=0 python cli_demo.py
|
|
|
250 |
|
251 |
本命令行工具是为 Chat 场景设计,因此我们不支持使用该工具调用 Base 模型。
|
252 |
|
253 |
+
## 4.3. 脚本直接推理
|
254 |
|
255 |
```shell
|
256 |
# base model
|
|
|
261 |
|
262 |
```
|
263 |
|
264 |
+
## 4.4. 示例输出
|
265 |
|
266 |
+
### 4.4.1. 闲聊
|
267 |
|
268 |
`````
|
269 |
用户:你好,你叫什么名字
|
|
|
271 |
用户:讲个故事
|
272 |
Orion-14B:从前有一个小男孩叫杰克,他住在一个小村庄里。杰克非常喜欢冒险和探索,总是梦想着能够发现一些神奇的事情。
|
273 |
|
274 |
+
有一天,杰克听说在附近的森林深处有一座传说中的魔法城堡,里面住着一个邪恶的巨人。这个巨人的名字叫格里姆,他被困在城堡中,无法离开。
|
275 |
|
276 |
+
杰克决定要去解救这个巨人,因为他相信格里姆一定有自己的原因被困在那里。于是,他带着勇气和决心,踏上了前往魔法城堡的旅程。
|
277 |
|
278 |
+
经过长时间的跋涉,杰克终于来到了城堡的大门前。他小心翼翼地推开大门,进入了一个充满神秘气息的房间。
|
279 |
|
280 |
+
房间里弥漫着黑暗的气息,但杰克并没有被吓倒。他勇敢地向城堡深处走去,最终找到了格里姆。
|
281 |
|
282 |
+
格里姆告诉杰克,他是被一个邪恶的女巫诅咒的,只有通过解开咒语才能获得自由。杰克决定要帮助格里姆,他开始寻找线索和解开咒语的方法。
|
283 |
|
284 |
+
经过一番努力,杰克终于找到了一条通往女巫的秘密实验室的道路。他在那里发现了女巫留下的魔法书,书中记载了解开咒语的方法。
|
285 |
|
286 |
+
杰克按照书上所写的步骤进行操作,成功地解开了格里姆身上的诅咒。巨人感激不已,他答应帮助杰克实现他的愿望。
|
287 |
|
288 |
+
从此以后,杰克和格里姆成为了好朋友,他们一起经历了许多惊险刺激的冒险,并用他们的勇气和智慧战胜了各种困难。
|
289 |
|
290 |
+
这个故事告诉我们,只要有勇气和决心,我们就能克服一切困难,实现自己的梦想。
|
291 |
`````
|
292 |
|
293 |
+
### 4.4.2. 日韩
|
294 |
|
295 |
`````
|
296 |
用户:自己を紹介してください
|
|
|
299 |
Orion-14B:안녕하세요, 제 이름은 ChatMax입니다. OrionStar에서 개발한 AI 어시스턴트입니다. 저는 사용자들에게 정확하�� 객관적이며 유용한 답변을 제공하여 문제를 해결하고 정보를 얻는 데 도움을 줄 수 있습니다.
|
300 |
`````
|
301 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
302 |
|
303 |
+
# 5. 声明、协议
|
304 |
|
305 |
+
## 5.1. 声明
|
306 |
|
307 |
我们强烈呼吁所有使用者,不要利用 Orion-14B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
|
308 |
Orion-14B 模型用于未经适当安全审查和备案的互联网服务。
|
|
|
311 |
我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
|
312 |
Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
|
313 |
|
314 |
+
## 5.2. 协议
|
315 |
|
316 |
社区使用Orion-14B系列模型
|
317 |
- 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
|
318 |
- 模型请遵循 [Orion-14B系列模型社区许可协议](./ModelsCommunityLicenseAgreement)
|
319 |
|
320 |
+
# 6. 企业介绍
|
321 |
+
|
322 |
+
猎户星空(OrionStar)是一家全球领先的服务机器人解决方案公司,成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人,使人们能够摆脱重复的体力劳动,使人类的工作和生活更加智能和有趣,通过技术使社会和世界变得更加美好。
|
323 |
|
324 |
+
猎户星空拥有完全自主开发的全链条人工智能技术,如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台,它推出了ORION
|
325 |
+
STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee
|
326 |
+
Master等产品,并建立了Orion机器人的开放平台OrionOS。通过为 **真正有用的机器人而生** 的理念实践,它通过AI技术为更多人赋能。
|
327 |
|
328 |
+
凭借7年AI经验积累,猎户星空已推出的大模型深度应用“聚言”,并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案,真正帮助客户实现企业经营效率领先同行目标。
|
329 |
+
|
330 |
+
**猎户星空具备全链条大模型应用能力的核心优势**,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt
|
331 |
+
Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。
|
332 |
+
|
333 |
+
***欢迎有大模型应用落地需求的企业联系我们进行商务合作***<br>
|
334 |
+
**咨询电话:** 400-898-7779<br>
|
335 |
+
**电子邮箱:** [email protected]
|
336 |
+
|
337 |
+
<div align="center">
|
338 |
+
<img src="./assets/imgs/wechat_group.jpg" alt="wechat" width="40%" />
|
339 |
+
</div>
|