Orion-MoE8x7B / README_zh.md
renillhuang's picture
readme: Modify benchmark tables
4871737
|
raw
history blame
11.6 kB
<!-- markdownlint-disable first-line-h1 -->
<!-- markdownlint-disable html -->
<div align="center">
<img src="./assets/imgs/orion_star.PNG" alt="logo" width="50%" />
</div>
<div align="center">
<h1>
Orion-MOE8x7B
</h1>
</div>
<div align="center">
<div align="center">
<b>🇨🇳中文</b> | <a href="./README.md">🌐English</a>
</div>
<h4 align="center">
<p>
🤗 <a href="https://huggingface.co/OrionStarAI" target="_blank">HuggingFace Mainpage</a> | 🤖 <a href="https://modelscope.cn/organization/OrionStarAI" target="_blank">ModelScope Mainpage</a><br>
<p>
</h4>
</div>
# 目录
- [📖 模型介绍](#zh_model-introduction)
- [🔗 下载路径](#zh_model-download)
- [🔖 评估结果](#zh_model-benchmark)
- [📜 声明协议](#zh_declarations-license)
- [🥇 企业介绍](#zh_company-introduction)
<a name="zh_model-introduction"></a><br>
# 1. 模型介绍
- Orion-MOE8x7B-Base是一个具有8乘以70亿参数的生成式稀疏混合专家大语言模型,该模型在训练数据语言上涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中,Orion-MOE8x7B-Base模型表现优异,多项指标显著超越同等参数基本的其他模型。
- Orion-MOE8x7B-Base模型有以下几个特点:
- 同规模参数级别基座大模型综合评测效果表现优异
- 多语言能力强,在日语、韩语测试集上显著领先,在阿拉伯语、德语、法语、西班牙语测试集上也全面领先
<a name="zh_model-download"></a><br>
# 2. 下载路径
发布模型和下载链接见下表:
| 模型名称 | HuggingFace下载链接 | ModelScope下载链接 |
|---------------------|-----------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------|
| ⚾ 基座模型 | [Orion-MOE8x7B-Base](https://huggingface.co/OrionStarAI/Orion-MOE8x7B-Base) | [Orion-MOE8x7B-Base](https://modelscope.cn/models/OrionStarAI/Orion-MOE8x7B-Base/summary) |
<a name="zh_model-benchmark"></a><br>
# 3. 评估结果
## 3.1. 基座模型Orion-MOE8x7B-Base评估
### 3.1.1. 基座模型基准测试对比
|TestSet | Mixtral 8*7B | Qwen1.5-32b | Qwen2.5-32b | Orion 14B | Orion 8*7B|
| -- | -- | -- | -- | -- | -- |
|ceval | 54.0861 | 83.5 | 87.7414 | 72.8 | 89.74|
|cmmlu | 53.21 | 82.3 | 89.0088 | 70.57 | 89.1555|
|mmlu | 70.4 | 73.4 | 82.9 | 69.94 | 85.9|
|mmlu_pro | 38.5 | 45.25 | 58.01 | 33.95 | 58.31|
|ARC_c | 85.0847 | 90.1695 | 94.2373 | 79.66 | 91.8644|
|hellaswag | 81.9458 | 81.9757 | 82.5134 | 78.53 | 89.19|
|lambada | 76.7902 | 73.7434 | 75.3736 | 78.83 | 79.7399|
|bbh | 50.87 | 57.28 | 67.69 | 50.35 | 55.82|
|musr | 43.21 | 42.65 | 49.78 | 43.61 | 49.93|
|piqa | 83.41 | 82.15 | 80.05 | 79.54 | 87.32|
|commonsense_qa | 69.62 | 74.69 | 72.97 | 66.91 | 73.05|
|IFEval | 24.15 | 32.97 | 41.59 | 29.08 | 30.06|
|GQPA | 30.9 | 33.49 | 49.5 | 28.53 | 52.17|
|human-eval | 33.5366 | 35.9756 | 46.9512 | 20.12 | 44.5122|
|MBPP | 60.7 | 49.4 | 71 | 30 | 43.4|
|math lv5 | 9 | 25 | 31.72 | 2.54 | 5.07|
|gsm8k | 47.5 | 77.4 | 80.363 | 52.01 | 59.82|
|math | 28.4 | 36.1 | 48.88 | 7.84 | 23.68|
### 3.1.2. 小语种: 日文
| Model | jsquad | jcommonsenseqa | jnli | marc_ja | jaqket_v2 | paws_ja | avg |
|-------|---------|--------|-------|----------|-------|-----------|-----|
|Mixtral-8x7B | 0.8900 | 0.7873 | 0.3213 | 0.9544 | 0.7886 | 44.5000 | 8.0403 |
|Qwen1.5-32B | 0.8986 | 0.8454 | 0.5099 | 0.9708 | 0.8214 | 0.4380 | 0.7474 |
|Qwen2.5-32B | 0.8909 | 0.9383 | 0.7214 | 0.9786 | 0.8927 | 0.4215 | 0.8073 |
|Orion-14B-Base | 0.7422 | 0.8820 | 0.7285 | 0.9406 | 0.6620 | 0.4990 | 0.7424 |
|Orion 8x7B |0.9177 |0.9043 |0.9046 |0.9640 |0.8119 |0.4735 |0.8293 |
### 3.1.3. 小语种: 韩文
|Model | haerae | kobest boolq | kobest copa | kobest hellaswag | kobest sentineg | kobest wic | paws_ko | avg |
|--------|----|----|----|----|----|----|----|----|
|Mixtral-8x7B | 53.16 | 78.56 | 66.2 | 56.6 | 77.08 | 49.37 | 44.05 | 60.71714286 |
|Qwen1.5-32B | 46.38 | 76.28 | 60.4 | 53 | 78.34 | 52.14 | 43.4 | 58.56285714 |
|Qwen2.5-32B | 70.67 | 80.27 | 76.7 | 61.2 | 96.47 | 77.22 | 37.05 | 71.36857143 |
|Orion-14B-Base | 69.66 | 80.63 | 77.1 | 58.2 | 92.44 | 51.19 | 44.55 | 67.68142857 |
|Orion 8x7B |65.17 |85.4 |80.4 |56 |96.98 |73.57 |46.35 |71.98142857 |
### 3.1.4. 小语种: 阿拉伯语,德语,法语,西班牙语
| Lang | ar | | de | | fr | | es | |
|------|----|--|----|--|----|--|----|--|
|**model**|**hellaswag**|**arc**|**hellaswag**|**arc**|**hellaswag**|**arc**|**hellaswag**|**arc**|
|Mixtral-8x7B | 47.93 | 36.27 | 69.17 | 52.35 | 73.9 | 55.86 | 74.25 | 54.79 |
|Qwen1.5-32B | 50.07 | 39.95 | 63.77 | 50.81 | 68.86 | 55.95 | 70.5 | 55.13 |
|Qwen2.5-32B | 59.76 | 52.87 | 69.82 | 61.76 | 74.15 | 62.7 | 75.04 | 65.3 |
|Orion-14B-Base | 42.26 | 33.88 | 54.65 | 38.92 | 60.21 | 42.34 | 62 | 44.62 |
|Orion 8x7B |69.39 |54.32 |80.6 |63.47 |85.56 |68.78 |87.41 |70.09 |
### 3.1.5. 泄漏检测结果
检测测试题目的泄露程度,值越大泄露的越严重
- 检测代码: https://github.com/nishiwen1214/Benchmark-leakage-detection
- 论文: https://web3.arxiv.org/pdf/2409.01790
- 英文测试:mmlu
- 中文测试:ceval, cmmlu
|Threshold 0.2 | qwen2.5 32b | qwen1.5 32b | orion 8x7b | orion 14b | mixtral 8x7b |
|----|----|----|----|----|----|
|mmlu | 0.3 | 0.27 | 0.22 | 0.28 | 0.25 |
|ceval | 0.39 | 0.38 | 0.27 | 0.26 | 0.26 |
|cmmlu | 0.38 | 0.39 | 0.23 | 0.27 | 0.22 |
### 3.1.6. 推理速度
基于8卡Nvidia RTX3090,单位是令牌每秒
|OrionLLM_V2.4.6.1 | 1并发_输出62 | 1并发_输出85 | 1并发_输出125 | 1并发_输出210 |
|----|----|----|----|----|
|OrionMOE | 33.03544296 | 33.43113606 | 33.53014102 | 33.58693529 |
|Qwen32B | 26.46267188 | 26.72846906 | 26.80413838 | 27.03123611 |
|Orion14B | 41.69121312 | 41.77423491 | 41.76050902 | 42.26096669 |
|OrionLLM_V2.4.6.1 | 4并发_输出62 | 4并发_输出90 | 4并发_输出125 | 4并发_输出220 |
|----|----|----|----|----|
|OrionMOE | 29.45015743 | 30.4472947 | 31.03748516 | 31.45783599 |
|Qwen32B | 23.60912215 | 24.30431956 | 24.86132023 | 25.16827535 |
|Orion14B | 38.08240373 | 38.8572788 | 39.50040645 | 40.44875947 |
|OrionLLM_V2.4.6.1 | 8并发_输出62 | 8并发_输出85 | 8并发_输出125 | 8并发_输出220 |
|----|----|----|----|----|
|OrionMOE | 25.71006327 | 27.13446743 | 28.89463226 | 29.70440167 |
|Qwen32B | 21.15920951 | 21.92001035 | 23.13867947 | 23.5649106 |
|Orion14B | 34.4151923 | 36.05635893 | 37.0874908 | 37.91705944 |
<div align="center">
<img src="./assets/imgs/inf_spd_zh.png" alt="inf_speed" width="100%" />
</div>
# 4. 模型推理
推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从
Hugging Face 下载所需资源。
## 4.1. Python 代码方式
```python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation.utils import GenerationConfig
tokenizer = AutoTokenizer.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
use_fast=False,
trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
device_map="auto",
torch_dtype=torch.bfloat16,
trust_remote_code=True)
model.generation_config = GenerationConfig.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base")
messages = [{"role": "user", "content": "你好! 你叫什么名字!"}]
response = model.chat(tokenizer, messages, streaming=Flase)
print(response)
```
在上述两段代码中,模型加载指定 `device_map='auto'`
,会使用所有可用显卡。如需指定使用的设备,可以使用类似 `export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7`(使用了0、1、2、3、4、5、6、7号显卡)的方式控制。
## 4.2. 脚本直接推理
```shell
# base model
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python demo/text_generation_base.py --model OrionStarAI/Orion-MOE8x7B-Base --tokenizer OrionStarAI/Orion-MOE8x7B-Base --prompt 你好,你叫什么名字
```
<a name="zh_declarations-license"></a><br>
# 5. 声明、协议
## 5.1. 声明
我们强烈呼吁所有使用者,不要利用 Orion-MOE8x7B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将
Orion-MOE8x7B 模型用于未经适当安全审查和备案的互联网服务。
我们希望所有的使用者都能遵守这个原则,确保科技的发展能在规范和合法的环境下进行。
我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用
Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。
## 5.2. 协议
社区使用Orion-MOE8x7B系列模型
- 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
- 模型请遵循 [Orion系列模型社区许可协议](./ModelsCommunityLicenseAgreement)
<a name="zh_company-introduction"></a><br>
# 6. 企业介绍
猎户星空(OrionStar)是一家全球领先的服务机器人解决方案公司,成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人,使人们能够摆脱重复的体力劳动,使人类的工作和生活更加智能和有趣,通过技术使社会和世界变得更加美好。
猎户星空拥有完全自主开发的全链条人工智能技术,如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台,它推出了ORION
STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee
Master等产品,并建立了Orion机器人的开放平台OrionOS。通过为 **真正有用的机器人而生** 的理念实践,它通过AI技术为更多人赋能。
凭借7年AI经验积累,猎户星空已推出的大模型深度应用“聚言”,并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案,真正帮助客户实现企业经营效率领先同行目标。
**猎户星空具备全链条大模型应用能力的核心优势**,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt
Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。
***欢迎有大模型应用落地需求的企业联系我们进行商务合作***<br>
**咨询电话:** 400-898-7779<br>
**电子邮箱:** [email protected]<br>
**Discord社区链接: https://discord.gg/zumjDWgdAs**
<div align="center">
<img src="./assets/imgs/wechat_group.jpg" alt="wechat" width="40%" />
</div>