Orion-MoE8x7B / README_zh.md

readme: Modify benchmark tables

4871737 2 months ago

11.6 kB

	<!-- markdownlint-disable first-line-h1 -->
	<!-- markdownlint-disable html -->
	<div align="center">
	<img src="./assets/imgs/orion_star.PNG" alt="logo" width="50%" />
	</div>

	<div align="center">
	<h1>
	Orion-MOE8x7B
	</h1>
	</div>

	<div align="center">

	<div align="center">
	<b>🇨🇳中文</b> \| <a href="./README.md">🌐English</a>
	</div>

	<h4 align="center">
	<p>
	🤗 <a href="https://huggingface.co/OrionStarAI" target="_blank">HuggingFace Mainpage</a> \| 🤖 <a href="https://modelscope.cn/organization/OrionStarAI" target="_blank">ModelScope Mainpage</a><br>
	<p>
	</h4>

	</div>


	# 目录


	- [📖 模型介绍](#zh_model-introduction)
	- [🔗 下载路径](#zh_model-download)
	- [🔖 评估结果](#zh_model-benchmark)
	- [📜 声明协议](#zh_declarations-license)
	- [🥇 企业介绍](#zh_company-introduction)


	<a name="zh_model-introduction"></a><br>
	# 1. 模型介绍

	- Orion-MOE8x7B-Base是一个具有8乘以70亿参数的生成式稀疏混合专家大语言模型，该模型在训练数据语言上涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中，Orion-MOE8x7B-Base模型表现优异，多项指标显著超越同等参数基本的其他模型。

	- Orion-MOE8x7B-Base模型有以下几个特点：
	- 同规模参数级别基座大模型综合评测效果表现优异
	- 多语言能力强，在日语、韩语测试集上显著领先，在阿拉伯语、德语、法语、西班牙语测试集上也全面领先





	<a name="zh_model-download"></a><br>
	# 2. 下载路径

	发布模型和下载链接见下表：

	\| 模型名称 \| HuggingFace下载链接 \| ModelScope下载链接 \|
	\|---------------------\|-----------------------------------------------------------------------------------\|------------------------------------------------------------------------------------------------\|
	\| ⚾ 基座模型 \| [Orion-MOE8x7B-Base](https://huggingface.co/OrionStarAI/Orion-MOE8x7B-Base) \| [Orion-MOE8x7B-Base](https://modelscope.cn/models/OrionStarAI/Orion-MOE8x7B-Base/summary) \|



	<a name="zh_model-benchmark"></a><br>
	# 3. 评估结果

	## 3.1. 基座模型Orion-MOE8x7B-Base评估

	### 3.1.1. 基座模型基准测试对比
	\|TestSet \| Mixtral 87B \| Qwen1.5-32b \| Qwen2.5-32b \| Orion 14B \| Orion 87B\|
	\| -- \| -- \| -- \| -- \| -- \| -- \|
	\|ceval \| 54.0861 \| 83.5 \| 87.7414 \| 72.8 \| 89.74\|
	\|cmmlu \| 53.21 \| 82.3 \| 89.0088 \| 70.57 \| 89.1555\|
	\|mmlu \| 70.4 \| 73.4 \| 82.9 \| 69.94 \| 85.9\|
	\|mmlu_pro \| 38.5 \| 45.25 \| 58.01 \| 33.95 \| 58.31\|
	\|ARC_c \| 85.0847 \| 90.1695 \| 94.2373 \| 79.66 \| 91.8644\|
	\|hellaswag \| 81.9458 \| 81.9757 \| 82.5134 \| 78.53 \| 89.19\|
	\|lambada \| 76.7902 \| 73.7434 \| 75.3736 \| 78.83 \| 79.7399\|
	\|bbh \| 50.87 \| 57.28 \| 67.69 \| 50.35 \| 55.82\|
	\|musr \| 43.21 \| 42.65 \| 49.78 \| 43.61 \| 49.93\|
	\|piqa \| 83.41 \| 82.15 \| 80.05 \| 79.54 \| 87.32\|
	\|commonsense_qa \| 69.62 \| 74.69 \| 72.97 \| 66.91 \| 73.05\|
	\|IFEval \| 24.15 \| 32.97 \| 41.59 \| 29.08 \| 30.06\|
	\|GQPA \| 30.9 \| 33.49 \| 49.5 \| 28.53 \| 52.17\|
	\|human-eval \| 33.5366 \| 35.9756 \| 46.9512 \| 20.12 \| 44.5122\|
	\|MBPP \| 60.7 \| 49.4 \| 71 \| 30 \| 43.4\|
	\|math lv5 \| 9 \| 25 \| 31.72 \| 2.54 \| 5.07\|
	\|gsm8k \| 47.5 \| 77.4 \| 80.363 \| 52.01 \| 59.82\|
	\|math \| 28.4 \| 36.1 \| 48.88 \| 7.84 \| 23.68\|



	### 3.1.2. 小语种：日文
	\| Model \| jsquad \| jcommonsenseqa \| jnli \| marc_ja \| jaqket_v2 \| paws_ja \| avg \|
	\|-------\|---------\|--------\|-------\|----------\|-------\|-----------\|-----\|
	\|Mixtral-8x7B \| 0.8900 \| 0.7873 \| 0.3213 \| 0.9544 \| 0.7886 \| 44.5000 \| 8.0403 \|
	\|Qwen1.5-32B \| 0.8986 \| 0.8454 \| 0.5099 \| 0.9708 \| 0.8214 \| 0.4380 \| 0.7474 \|
	\|Qwen2.5-32B \| 0.8909 \| 0.9383 \| 0.7214 \| 0.9786 \| 0.8927 \| 0.4215 \| 0.8073 \|
	\|Orion-14B-Base \| 0.7422 \| 0.8820 \| 0.7285 \| 0.9406 \| 0.6620 \| 0.4990 \| 0.7424 \|
	\|Orion 8x7B \|0.9177 \|0.9043 \|0.9046 \|0.9640 \|0.8119 \|0.4735 \|0.8293 \|


	### 3.1.3. 小语种：韩文
	\|Model \| haerae \| kobest boolq \| kobest copa \| kobest hellaswag \| kobest sentineg \| kobest wic \| paws_ko \| avg \|
	\|--------\|----\|----\|----\|----\|----\|----\|----\|----\|
	\|Mixtral-8x7B \| 53.16 \| 78.56 \| 66.2 \| 56.6 \| 77.08 \| 49.37 \| 44.05 \| 60.71714286 \|
	\|Qwen1.5-32B \| 46.38 \| 76.28 \| 60.4 \| 53 \| 78.34 \| 52.14 \| 43.4 \| 58.56285714 \|
	\|Qwen2.5-32B \| 70.67 \| 80.27 \| 76.7 \| 61.2 \| 96.47 \| 77.22 \| 37.05 \| 71.36857143 \|
	\|Orion-14B-Base \| 69.66 \| 80.63 \| 77.1 \| 58.2 \| 92.44 \| 51.19 \| 44.55 \| 67.68142857 \|
	\|Orion 8x7B \|65.17 \|85.4 \|80.4 \|56 \|96.98 \|73.57 \|46.35 \|71.98142857 \|



	### 3.1.4. 小语种：阿拉伯语，德语，法语，西班牙语
	\| Lang \| ar \| \| de \| \| fr \| \| es \| \|
	\|------\|----\|--\|----\|--\|----\|--\|----\|--\|
	\|model\|hellaswag\|arc\|hellaswag\|arc\|hellaswag\|arc\|hellaswag\|arc\|
	\|Mixtral-8x7B \| 47.93 \| 36.27 \| 69.17 \| 52.35 \| 73.9 \| 55.86 \| 74.25 \| 54.79 \|
	\|Qwen1.5-32B \| 50.07 \| 39.95 \| 63.77 \| 50.81 \| 68.86 \| 55.95 \| 70.5 \| 55.13 \|
	\|Qwen2.5-32B \| 59.76 \| 52.87 \| 69.82 \| 61.76 \| 74.15 \| 62.7 \| 75.04 \| 65.3 \|
	\|Orion-14B-Base \| 42.26 \| 33.88 \| 54.65 \| 38.92 \| 60.21 \| 42.34 \| 62 \| 44.62 \|
	\|Orion 8x7B \|69.39 \|54.32 \|80.6 \|63.47 \|85.56 \|68.78 \|87.41 \|70.09 \|


	### 3.1.5. 泄漏检测结果
	检测测试题目的泄露程度，值越大泄露的越严重
	- 检测代码: https://github.com/nishiwen1214/Benchmark-leakage-detection
	- 论文： https://web3.arxiv.org/pdf/2409.01790
	- 英文测试：mmlu
	- 中文测试：ceval, cmmlu

	\|Threshold 0.2 \| qwen2.5 32b \| qwen1.5 32b \| orion 8x7b \| orion 14b \| mixtral 8x7b \|
	\|----\|----\|----\|----\|----\|----\|
	\|mmlu \| 0.3 \| 0.27 \| 0.22 \| 0.28 \| 0.25 \|
	\|ceval \| 0.39 \| 0.38 \| 0.27 \| 0.26 \| 0.26 \|
	\|cmmlu \| 0.38 \| 0.39 \| 0.23 \| 0.27 \| 0.22 \|


	### 3.1.6. 推理速度
	基于8卡Nvidia RTX3090，单位是令牌每秒
	\|OrionLLM_V2.4.6.1 \| 1并发_输出62 \| 1并发_输出85 \| 1并发_输出125 \| 1并发_输出210 \|
	\|----\|----\|----\|----\|----\|
	\|OrionMOE \| 33.03544296 \| 33.43113606 \| 33.53014102 \| 33.58693529 \|
	\|Qwen32B \| 26.46267188 \| 26.72846906 \| 26.80413838 \| 27.03123611 \|
	\|Orion14B \| 41.69121312 \| 41.77423491 \| 41.76050902 \| 42.26096669 \|

	\|OrionLLM_V2.4.6.1 \| 4并发_输出62 \| 4并发_输出90 \| 4并发_输出125 \| 4并发_输出220 \|
	\|----\|----\|----\|----\|----\|
	\|OrionMOE \| 29.45015743 \| 30.4472947 \| 31.03748516 \| 31.45783599 \|
	\|Qwen32B \| 23.60912215 \| 24.30431956 \| 24.86132023 \| 25.16827535 \|
	\|Orion14B \| 38.08240373 \| 38.8572788 \| 39.50040645 \| 40.44875947 \|

	\|OrionLLM_V2.4.6.1 \| 8并发_输出62 \| 8并发_输出85 \| 8并发_输出125 \| 8并发_输出220 \|
	\|----\|----\|----\|----\|----\|
	\|OrionMOE \| 25.71006327 \| 27.13446743 \| 28.89463226 \| 29.70440167 \|
	\|Qwen32B \| 21.15920951 \| 21.92001035 \| 23.13867947 \| 23.5649106 \|
	\|Orion14B \| 34.4151923 \| 36.05635893 \| 37.0874908 \| 37.91705944 \|

	<div align="center">
	<img src="./assets/imgs/inf_spd_zh.png" alt="inf_speed" width="100%" />
	</div>


	# 4. 模型推理

	推理所需的模型权重、源码、配置已发布在 Hugging Face，下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从
	Hugging Face 下载所需资源。

	## 4.1. Python 代码方式

	```python
	import torch
	from transformers import AutoModelForCausalLM, AutoTokenizer
	from transformers.generation.utils import GenerationConfig

	tokenizer = AutoTokenizer.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
	use_fast=False,
	trust_remote_code=True)
	model = AutoModelForCausalLM.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
	device_map="auto",
	torch_dtype=torch.bfloat16,
	trust_remote_code=True)

	model.generation_config = GenerationConfig.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base")
	messages = [{"role": "user", "content": "你好! 你叫什么名字!"}]
	response = model.chat(tokenizer, messages, streaming=Flase)
	print(response)

	```

	在上述两段代码中，模型加载指定 `device_map='auto'`
	，会使用所有可用显卡。如需指定使用的设备，可以使用类似 `export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7`（使用了0、1、2、3、4、5、6、7号显卡）的方式控制。


	## 4.2. 脚本直接推理

	```shell

	# base model
	CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python demo/text_generation_base.py --model OrionStarAI/Orion-MOE8x7B-Base --tokenizer OrionStarAI/Orion-MOE8x7B-Base --prompt 你好,你叫什么名字

	```



	<a name="zh_declarations-license"></a><br>
	# 5. 声明、协议

	## 5.1. 声明

	我们强烈呼吁所有使用者，不要利用 Orion-MOE8x7B 模型进行任何危害国家社会安全或违法的活动。另外，我们也要求使用者不要将
	Orion-MOE8x7B 模型用于未经适当安全审查和备案的互联网服务。

	我们希望所有的使用者都能遵守这个原则，确保科技的发展能在规范和合法的环境下进行。
	我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用
	Orion-14B 开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。

	## 5.2. 协议

	社区使用Orion-MOE8x7B系列模型
	- 代码请遵循 [Apache License Version 2.0](./LICENSE)<br>
	- 模型请遵循 [Orion系列模型社区许可协议](./ModelsCommunityLicenseAgreement)


	<a name="zh_company-introduction"></a><br>
	# 6. 企业介绍

	猎户星空（OrionStar）是一家全球领先的服务机器人解决方案公司，成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人，使人们能够摆脱重复的体力劳动，使人类的工作和生活更加智能和有趣，通过技术使社会和世界变得更加美好。

	猎户星空拥有完全自主开发的全链条人工智能技术，如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台，它推出了ORION
	STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee
	Master等产品，并建立了Orion机器人的开放平台OrionOS。通过为真正有用的机器人而生的理念实践，它通过AI技术为更多人赋能。

	凭借7年AI经验积累，猎户星空已推出的大模型深度应用“聚言”，并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案，真正帮助客户实现企业经营效率领先同行目标。

	猎户星空具备全链条大模型应用能力的核心优势，包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt
	Engineering 、Agent开发的全链条能力和经验积累；拥有完整的端到端模型训练能力，包括系统化的数据处理流程和数百张GPU的并行模型训练能力，现已在大政务、云服务、出海电商、快消等多个行业场景落地。

	*欢迎有大模型应用落地需求的企业联系我们进行商务合作*<br>
	咨询电话: 400-898-7779<br>
	电子邮箱: [email protected]<br>
	Discord社区链接: https://discord.gg/zumjDWgdAs

	<div align="center">
	<img src="./assets/imgs/wechat_group.jpg" alt="wechat" width="40%" />
	</div>