Orion-MOE8x7B

🇨🇳中文 | 🌐English

🤗 HuggingFace Mainpage | 🤖 ModelScope Mainpage

1. 模型介绍

Orion-MOE8x7B-Base是一个具有8乘以70亿参数的生成式稀疏混合专家大语言模型，该模型在训练数据语言上涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中，Orion-MOE8x7B-Base模型表现优异，多项指标显著超越同等参数基本的其他模型。
Orion-MOE8x7B-Base模型有以下几个特点：
- 同规模参数级别基座大模型综合评测效果表现优异
- 多语言能力强，在日语、韩语测试集上显著领先，在阿拉伯语、德语、法语、西班牙语测试集上也全面领先

Orion-MOE8x7B-Base模型超参

Orion-MOE8x7B-Base模型架构接近Mixtral 8x7B,超参细节请参考下表

Configuration	OrionMOE 8x7B
Hidden Size	4096
# Layers	32
# Query Heads	32
# KV Heads	8
Intermediate Size	14592
# Experts	8
# Activated Experts	2
Embedding Tying	False
Position embedding	RoPE
seq_len	8192
Vocabulary Size	1136664

Orion-MOE8x7B-Base训练超参
- 我们使用AdamW优化器将超参数设置为 𝛽1 = 0.9, 𝛽2 = 0.95，权重衰减为0.1。
- 训练开始时进行2000次预热阶段迭代，学习率线性增加至峰值3e-4，之后采用余弦调度，逐渐将学习率降低到3e-5以完成整个训练过程。
- 模型训练采用BF16/FP32混合精度，批量大小为2600，每步处理大约2200万个token。
Orion-MOE8x7B-Base训练数据组成
- 预训练数据语种上主要由英语、中文和其他多语言语言组成，分别占比50%、25%和12%。数据分类上，代码占9%，数学文本占4%，分布参考下图。

2. 下载路径

发布模型和下载链接见下表：

模型名称	HuggingFace下载链接	ModelScope下载链接
⚾ 基座模型	Orion-MOE8x7B-Base	Orion-MOE8x7B-Base

3. 评估结果

3.1. 基座模型Orion-MOE8x7B-Base评估

3.1.1. 基座模型基准测试对比

TestSet	Mixtral 8x7B	Qwen1.5-32b	Qwen2.5-32b	Orion 14B	Orion 8x7B
CEval	54.09	83.50	87.74	72.80	89.74
CMMLU	53.21	82.30	89.01	70.57	89.16
MMLU	70.40	73.40	82.90	69.94	85.90
MMLU Pro	38.50	45.25	58.01	33.95	58.31
ARC_c	85.08	90.17	94.24	79.66	91.86
HellaSwag	81.95	81.98	82.51	78.53	89.19
LAMBADA	76.79	73.74	75.37	78.83	79.74
BBH	50.87	57.28	67.69	50.35	55.82
MuSR	43.21	42.65	49.78	43.61	49.93
PIQA	83.41	82.15	80.05	79.54	87.32
CommonSenseQA	69.62	74.69	72.97	66.91	73.05
IFEval	24.15	32.97	41.59	29.08	30.06
GPQA	30.90	33.49	49.50	28.53	52.17
HumanEval	33.54	35.98	46.95	20.12	44.51
MBPP	60.70	49.40	71.00	30.00	43.40
MATH Lv5	9.00	25.00	31.72	2.54	5.07
GSM8K	47.50	77.40	80.36	52.01	59.82
MATH	28.40	36.10	48.88	7.84	23.68

3.1.2. 小语种：日文

Model	JSQuAD	JCommonSenseQA	JNLI	MARC-ja	JAQKET v2	PAWS-ja	avg
Mixtral-8x7B	89.00	78.73	32.13	95.44	78.86	44.50	69.78
Qwen1.5-32B	89.86	84.54	50.99	97.08	82.14	43.80	74.74
Qwen2.5-32B	89.09	93.83	72.14	97.86	89.27	42.15	80.73
Orion-14B-Base	74.22	88.20	72.85	94.06	66.20	49.90	74.24
Orion 8x7B	91.77	90.43	90.46	96.40	81.19	47.35	82.93

3.1.3. 小语种：韩文

Model	HAE-RAE	KoBEST BoolQ	KoBEST COPA	KoBEST HellaSwag	KoBEST SentiNeg	KoBEST WiC	PAWS-ko	avg
Mixtral-8x7B	53.16	78.56	66.20	56.60	77.08	49.37	44.05	60.72
Qwen1.5-32B	46.38	76.28	60.40	53.00	78.34	52.14	43.40	58.56
Qwen2.5-32B	70.67	80.27	76.70	61.20	96.47	77.22	37.05	71.37
Orion-14B-Base	69.66	80.63	77.10	58.20	92.44	51.19	44.55	67.68
Orion 8x7B	65.17	85.40	80.40	56.00	96.98	73.57	46.35	71.98

3.1.4. 小语种：阿拉伯语，德语，法语，西班牙语

Lang	ar		de		fr		es
Model	HellaSwag	ARC	HellaSwag	ARC	HellaSwag	ARC	HellaSwag	ARC
Mixtral-8x7B	53.16	78.56	66.20	56.60	77.08	49.37	44.05	60.72
Qwen1.5-32B	46.38	76.28	60.40	53.00	78.34	52.14	43.40	58.56
Qwen2.5-32B	70.67	80.27	76.70	61.20	96.47	77.22	37.05	71.37
Orion-14B-Base	69.66	80.63	77.10	58.20	92.44	51.19	44.55	67.68
Orion 8x7B	65.17	85.40	80.40	56.00	96.98	73.57	46.35	71.98

3.1.5. 泄漏检测结果

当大型语言模型的预训练数据包含特定数据集的内容时，该模型在该数据集上的表现可能会被人为提高，从而导致不准确的性能评估。为了解决这个问题，来自中国科学院深圳先进技术研究院和其他机构的研究人员提出了一种简单有效的数据泄露检测方法。该方法利用多选项的可互换性，通过打乱原始数据集中的选项生成派生数据。然后，使用模型计算派生数据集的对数概率分布，以检测原始数据集是否存在泄露。

我们在三个基准数据集上进行了数据泄露检测实验：MMLU、CMMLU 和 C-Eval。
更多细节可以在论文中找到：https://web3.arxiv.org/pdf/2409.01790。
测试代码：https://github.com/nishiwen1214/Benchmark-leakage-detection。

Threshold 0.2	Qwen2.5 32B	Qwen1.5 32B	Orion 8x7B	Orion 14B	Mixtral 8x7B
MMLU	0.30	0.27	0.22	0.28	0.25
CEval	0.39	0.38	0.27	0.26	0.26
CMMLU	0.38	0.39	0.23	0.27	0.22

3.1.6. 推理速度

搭建基于8卡Nvidia RTX3090，采用"token/秒"为单位，从客户端统计测试结果。

OrionLLM_V2.4.6.1	1并发_输出62	1并发_输出85	1并发_输出125	1并发_输出210
OrionMOE	33.04	33.43	33.53	33.59
Qwen32	26.46	26.73	26.80	27.03

OrionLLM_V2.4.6.1	4并发_输出62	4并发_输出90	4并发_输出125	4并发_220
OrionMOE	29.45	30.45	31.04	31.46
Qwen32	23.61	24.30	24.86	25.17

OrionLLM_V2.4.6.1	8并发_输出62	8并发_输出85	8并发_输出125	8并发_输出220
OrionMOE	25.71	27.13	28.89	29.70
Qwen32	21.16	21.92	23.14	23.56

我们发现根据推理的并发数以及模型输出长度的不同，推理速度的结果会有变化，为了方便横向对比，我们做了多组数据的测试，每一组测试数据的格式含义：客户端并发数_每次推理输出token数，在此前提条件下的推理速度，例如:4para_out220，表示客户端4并发打请求，输出token数平均在220个token时的推理速度。

4. 模型推理

推理所需的模型权重、源码、配置已发布在 Hugging Face，下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从 Hugging Face 下载所需资源。

4.1. Python 代码方式

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation.utils import GenerationConfig

tokenizer = AutoTokenizer.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
                                          use_fast=False,
                                          trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
                                             device_map="auto",
                                             torch_dtype=torch.bfloat16,
                                             trust_remote_code=True)

model.generation_config = GenerationConfig.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base")
messages = [{"role": "user", "content": "你好! 你叫什么名字!"}]
response = model.chat(tokenizer, messages, streaming=Flase)
print(response)

在上述两段代码中，模型加载指定 device_map='auto' ，会使用所有可用显卡。如需指定使用的设备，可以使用类似 export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7（使用了0、1、2、3、4、5、6、7号显卡）的方式控制。

4.2. 脚本直接推理


# base model
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python demo/text_generation_base.py --model OrionStarAI/Orion-MOE8x7B-Base --tokenizer OrionStarAI/Orion-MOE8x7B-Base --prompt 你好,你叫什么名字

4.3. vLLM推理服务

下载工程(https://github.com/OrionStarAI/vllm_server), 搭建基于vLLM的推理服务镜像.

git clone [email protected]:OrionStarAI/vllm_server.git
cd vllm_server
docker build -t vllm_server:0.0.0.0 -f Dockerfile .

开启docker镜像服务

docker run --gpus all -it -p 9999:9999 -v $(pwd)/logs:/workspace/logs:rw -v $HOME/Downloads:/workspace/models -e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -e MODEL_DIR=Orion-MOE8x7B-Base -e MODEL_NAME=orion-moe vllm_server:0.0.0.0

运行推理

curl http://0.0.0.0:9999/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "orion-moe","temperature": 0.2,"stream": false, "messages": [{"role": "user", "content":"Which company developed you as an AI agent?"}]}'

5. 声明、协议

5.1. 声明

我们强烈呼吁所有使用者，不要利用 Orion-MOE8x7B 模型进行任何危害国家社会安全或违法的活动。另外，我们也要求使用者不要将 Orion-MOE8x7B 模型用于未经适当安全审查和备案的互联网服务。

我们希望所有的使用者都能遵守这个原则，确保科技的发展能在规范和合法的环境下进行。我们已经尽我们所能，来确保模型训练过程中使用的数据的合规性。然而，尽管我们已经做出了巨大的努力，但由于模型和数据的复杂性，仍有可能存在一些无法预见的问题。因此，如果由于使用 Orion-14B 开源模型而导致的任何问题，包括但不限于数据安全问题、公共舆论风险，或模型被误导、滥用、传播或不当利用所带来的任何风险和问题，我们将不承担任何责任。

5.2. 协议

社区使用Orion-MOE8x7B系列模型

代码请遵循 Apache License Version 2.0
模型请遵循 Orion系列模型社区许可协议

6. 企业介绍

猎户星空（OrionStar）是一家全球领先的服务机器人解决方案公司，成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人，使人们能够摆脱重复的体力劳动，使人类的工作和生活更加智能和有趣，通过技术使社会和世界变得更加美好。

猎户星空拥有完全自主开发的全链条人工智能技术，如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台，它推出了ORION STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee Master等产品，并建立了Orion机器人的开放平台OrionOS。通过为 真正有用的机器人而生 的理念实践，它通过AI技术为更多人赋能。

凭借7年AI经验积累，猎户星空已推出的大模型深度应用“聚言”，并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案，真正帮助客户实现企业经营效率领先同行目标。

猎户星空具备全链条大模型应用能力的核心优势，包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt Engineering 、Agent开发的全链条能力和经验积累；拥有完整的端到端模型训练能力，包括系统化的数据处理流程和数百张GPU的并行模型训练能力，现已在大政务、云服务、出海电商、快消等多个行业场景落地。

欢迎有大模型应用落地需求的企业联系我们进行商务合作
咨询电话: 400-898-7779
电子邮箱: [email protected]
Discord社区链接: https://discord.gg/zumjDWgdAs

OrionStarAI
/

Orion-MoE8x7B

Orion-MOE8x7B

🤗 HuggingFace Mainpage | 🤖 ModelScope Mainpage

目录

1. 模型介绍

2. 下载路径

3. 评估结果

3.1. 基座模型Orion-MOE8x7B-Base评估

3.1.1. 基座模型基准测试对比

3.1.2. 小语种：日文

3.1.3. 小语种：韩文

3.1.4. 小语种：阿拉伯语，德语，法语，西班牙语

3.1.5. 泄漏检测结果

3.1.6. 推理速度

4. 模型推理

4.1. Python 代码方式

4.2. 脚本直接推理

4.3. vLLM推理服务

5. 声明、协议

5.1. 声明

5.2. 协议

6. 企业介绍

Orion-MOE8x7B

🤗 HuggingFace Mainpage | 🤖 ModelScope Mainpage

目录

1. 模型介绍

2. 下载路径

3. 评估结果

3.1. 基座模型Orion-MOE8x7B-Base评估

3.1.1. 基座模型基准测试对比

3.1.2. 小语种： 日文

3.1.3. 小语种： 韩文

3.1.4. 小语种： 阿拉伯语，德语，法语，西班牙语

3.1.5. 泄漏检测结果

3.1.6. 推理速度

4. 模型推理

4.1. Python 代码方式

4.2. 脚本直接推理

4.3. vLLM推理服务

5. 声明、协议

5.1. 声明

5.2. 协议

6. 企业介绍

3.1.2. 小语种：日文

3.1.3. 小语种：韩文

3.1.4. 小语种：阿拉伯语，德语，法语，西班牙语