Orion-MoE8x7B / README_zh.md
renillhuang's picture
readme: Update inference code
94f9d42
|
raw
history blame
14.4 kB
logo

Orion-MOE8x7B

目录


1. 模型介绍

  • Orion-MOE8x7B-Base是一个具有8乘以70亿参数的生成式稀疏混合专家大语言模型,该模型在训练数据语言上涵盖了中文、英语、日语、韩语等多种语言。在多语言环境下的一系列任务中展现出卓越的性能。在主流的公开基准评测中,Orion-MOE8x7B-Base模型表现优异,多项指标显著超越同等参数基本的其他模型。

  • Orion-MOE8x7B-Base模型有以下几个特点:

    • 同规模参数级别基座大模型综合评测效果表现优异
    • 多语言能力强,在日语、韩语测试集上显著领先,在阿拉伯语、德语、法语、西班牙语测试集上也全面领先
  • Orion-MOE8x7B-Base模型超参

    • Orion-MOE8x7B-Base模型架构接近Mixtral 8x7B,超参细节请参考下表

      Configuration OrionMOE 8x7B
      Hidden Size 4096
      # Layers 32
      # Query Heads 32
      # KV Heads 8
      Intermediate Size 14592
      # Experts 8
      # Activated Experts 2
      Embedding Tying False
      Position embedding RoPE
      seq_len 8192
      Vocabulary Size 1136664
  • Orion-MOE8x7B-Base训练超参

    • 我们使用AdamW优化器将超参数设置为 𝛽1 = 0.9, 𝛽2 = 0.95,权重衰减为0.1。
    • 训练开始时进行2000次预热阶段迭代,学习率线性增加至峰值3e-4,之后采用余弦调度,逐渐将学习率降低到3e-5以完成整个训练过程。
    • 模型训练采用BF16/FP32混合精度,批量大小为2600,每步处理大约2200万个token。
  • Orion-MOE8x7B-Base训练数据组成

    • 预训练数据语种上主要由英语、中文和其他多语言语言组成,分别占比50%、25%和12%。数据分类上,代码占9%,数学文本占4%,分布参考下图。
      logo


2. 下载路径

发布模型和下载链接见下表:

模型名称 HuggingFace下载链接 ModelScope下载链接
⚾ 基座模型 Orion-MOE8x7B-Base Orion-MOE8x7B-Base


3. 评估结果

3.1. 基座模型Orion-MOE8x7B-Base评估

3.1.1. 基座模型基准测试对比

TestSet Mixtral 8x7B Qwen1.5-32b Qwen2.5-32b Orion 14B Orion 8x7B
CEval 54.09 83.50 87.74 72.80 89.74
CMMLU 53.21 82.30 89.01 70.57 89.16
MMLU 70.40 73.40 82.90 69.94 85.90
MMLU Pro 38.50 45.25 58.01 33.95 58.31
ARC_c 85.08 90.17 94.24 79.66 91.86
HellaSwag 81.95 81.98 82.51 78.53 89.19
LAMBADA 76.79 73.74 75.37 78.83 79.74
BBH 50.87 57.28 67.69 50.35 55.82
MuSR 43.21 42.65 49.78 43.61 49.93
PIQA 83.41 82.15 80.05 79.54 87.32
CommonSenseQA 69.62 74.69 72.97 66.91 73.05
IFEval 24.15 32.97 41.59 29.08 30.06
GPQA 30.90 33.49 49.50 28.53 52.17
HumanEval 33.54 35.98 46.95 20.12 44.51
MBPP 60.70 49.40 71.00 30.00 43.40
MATH Lv5 9.00 25.00 31.72 2.54 5.07
GSM8K 47.50 77.40 80.36 52.01 59.82
MATH 28.40 36.10 48.88 7.84 23.68

3.1.2. 小语种: 日文

Model JSQuAD JCommonSenseQA JNLI MARC-ja JAQKET v2 PAWS-ja avg
Mixtral-8x7B 89.00 78.73 32.13 95.44 78.86 44.50 69.78
Qwen1.5-32B 89.86 84.54 50.99 97.08 82.14 43.80 74.74
Qwen2.5-32B 89.09 93.83 72.14 97.86 89.27 42.15 80.73
Orion-14B-Base 74.22 88.20 72.85 94.06 66.20 49.90 74.24
Orion 8x7B 91.77 90.43 90.46 96.40 81.19 47.35 82.93

3.1.3. 小语种: 韩文

Model HAE-RAE KoBEST BoolQ KoBEST COPA KoBEST HellaSwag KoBEST SentiNeg KoBEST WiC PAWS-ko avg
Mixtral-8x7B 53.16 78.56 66.20 56.60 77.08 49.37 44.05 60.72
Qwen1.5-32B 46.38 76.28 60.40 53.00 78.34 52.14 43.40 58.56
Qwen2.5-32B 70.67 80.27 76.70 61.20 96.47 77.22 37.05 71.37
Orion-14B-Base 69.66 80.63 77.10 58.20 92.44 51.19 44.55 67.68
Orion 8x7B 65.17 85.40 80.40 56.00 96.98 73.57 46.35 71.98

3.1.4. 小语种: 阿拉伯语,德语,法语,西班牙语

Lang ar de fr es
Model HellaSwag ARC HellaSwag ARC HellaSwag ARC HellaSwag ARC
Mixtral-8x7B 53.16 78.56 66.20 56.60 77.08 49.37 44.05 60.72
Qwen1.5-32B 46.38 76.28 60.40 53.00 78.34 52.14 43.40 58.56
Qwen2.5-32B 70.67 80.27 76.70 61.20 96.47 77.22 37.05 71.37
Orion-14B-Base 69.66 80.63 77.10 58.20 92.44 51.19 44.55 67.68
Orion 8x7B 65.17 85.40 80.40 56.00 96.98 73.57 46.35 71.98

3.1.5. 泄漏检测结果

当大型语言模型的预训练数据包含特定数据集的内容时,该模型在该数据集上的表现可能会被人为提高,从而导致不准确的性能评估。为了解决这个问题,来自中国科学院深圳先进技术研究院和其他机构的研究人员提出了一种简单有效的数据泄露检测方法。该方法利用多选项的可互换性,通过打乱原始数据集中的选项生成派生数据。然后,使用模型计算派生数据集的对数概率分布,以检测原始数据集是否存在泄露。

我们在三个基准数据集上进行了数据泄露检测实验:MMLU、CMMLU 和 C-Eval。
更多细节可以在论文中找到:https://web3.arxiv.org/pdf/2409.01790。
测试代码:https://github.com/nishiwen1214/Benchmark-leakage-detection。

Threshold 0.2 Qwen2.5 32B Qwen1.5 32B Orion 8x7B Orion 14B Mixtral 8x7B
MMLU 0.30 0.27 0.22 0.28 0.25
CEval 0.39 0.38 0.27 0.26 0.26
CMMLU 0.38 0.39 0.23 0.27 0.22

3.1.6. 推理速度

搭建基于8卡Nvidia RTX3090,采用"token/秒"为单位,从客户端统计测试结果。

OrionLLM_V2.4.6.1 1并发_输出62 1并发_输出85 1并发_输出125 1并发_输出210
OrionMOE 33.04 33.43 33.53 33.59
Qwen32 26.46 26.73 26.80 27.03
OrionLLM_V2.4.6.1 4并发_输出62 4并发_输出90 4并发_输出125 4并发_220
OrionMOE 29.45 30.45 31.04 31.46
Qwen32 23.61 24.30 24.86 25.17
OrionLLM_V2.4.6.1 8并发_输出62 8并发_输出85 8并发_输出125 8并发_输出220
OrionMOE 25.71 27.13 28.89 29.70
Qwen32 21.16 21.92 23.14 23.56

我们发现根据推理的并发数以及模型输出长度的不同,推理速度的结果会有变化,为了方便横向对比,我们做了多组数据的测试,每一组测试数据的格式含义:客户端并发数_每次推理输出token数,在此前提条件下的推理速度,例如:4para_out220,表示客户端4并发打请求,输出token数平均在220个token时的推理速度。

inf_speed


4. 模型推理

推理所需的模型权重、源码、配置已发布在 Hugging Face,下载链接见本文档最开始的表格。我们在此示范多种推理方式。程序会自动从 Hugging Face 下载所需资源。

4.1. Python 代码方式

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from transformers.generation.utils import GenerationConfig

tokenizer = AutoTokenizer.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
                                          use_fast=False,
                                          trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base",
                                             device_map="auto",
                                             torch_dtype=torch.bfloat16,
                                             trust_remote_code=True)

model.generation_config = GenerationConfig.from_pretrained("OrionStarAI/Orion-MOE8x7B-Base")
messages = [{"role": "user", "content": "你好! 你叫什么名字!"}]
response = model.chat(tokenizer, messages, streaming=Flase)
print(response)

在上述两段代码中,模型加载指定 device_map='auto' ,会使用所有可用显卡。如需指定使用的设备,可以使用类似 export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7(使用了0、1、2、3、4、5、6、7号显卡)的方式控制。

4.2. 脚本直接推理


# base model
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python demo/text_generation_base.py --model OrionStarAI/Orion-MOE8x7B-Base --tokenizer OrionStarAI/Orion-MOE8x7B-Base --prompt 你好,你叫什么名字

4.3. vLLM推理服务

下载工程(https://github.com/OrionStarAI/vllm_server), 搭建基于vLLM的推理服务镜像.

git clone [email protected]:OrionStarAI/vllm_server.git
cd vllm_server
docker build -t vllm_server:0.0.0.0 -f Dockerfile .

开启docker镜像服务

docker run --gpus all -it -p 9999:9999 -v $(pwd)/logs:/workspace/logs:rw -v $HOME/Downloads:/workspace/models -e CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 -e MODEL_DIR=Orion-MOE8x7B-Base -e MODEL_NAME=orion-moe vllm_server:0.0.0.0

运行推理

curl http://0.0.0.0:9999/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "orion-moe","temperature": 0.2,"stream": false, "messages": [{"role": "user", "content":"Which company developed you as an AI agent?"}]}'


5. 声明、协议

5.1. 声明

我们强烈呼吁所有使用者,不要利用 Orion-MOE8x7B 模型进行任何危害国家社会安全或违法的活动。另外,我们也要求使用者不要将 Orion-MOE8x7B 模型用于未经适当安全审查和备案的互联网服务。

我们希望所有的使用者都能遵守这个原则,确保科技的发展能在规范和合法的环境下进行。 我们已经尽我们所能,来确保模型训练过程中使用的数据的合规性。然而,尽管我们已经做出了巨大的努力,但由于模型和数据的复杂性,仍有可能存在一些无法预见的问题。因此,如果由于使用 Orion-14B 开源模型而导致的任何问题,包括但不限于数据安全问题、公共舆论风险,或模型被误导、滥用、传播或不当利用所带来的任何风险和问题,我们将不承担任何责任。

5.2. 协议

社区使用Orion-MOE8x7B系列模型


6. 企业介绍

猎户星空(OrionStar)是一家全球领先的服务机器人解决方案公司,成立于2016年9月。猎户星空致力于基于人工智能技术打造下一代革命性机器人,使人们能够摆脱重复的体力劳动,使人类的工作和生活更加智能和有趣,通过技术使社会和世界变得更加美好。

猎户星空拥有完全自主开发的全链条人工智能技术,如语音交互和视觉导航。它整合了产品开发能力和技术应用能力。基于Orion机械臂平台,它推出了ORION STAR AI Robot Greeting、AI Robot Greeting Mini、Lucki、Coffee Master等产品,并建立了Orion机器人的开放平台OrionOS。通过为 真正有用的机器人而生 的理念实践,它通过AI技术为更多人赋能。

凭借7年AI经验积累,猎户星空已推出的大模型深度应用“聚言”,并陆续面向行业客户提供定制化AI大模型咨询与服务解决方案,真正帮助客户实现企业经营效率领先同行目标。

猎户星空具备全链条大模型应用能力的核心优势,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。

欢迎有大模型应用落地需求的企业联系我们进行商务合作
咨询电话: 400-898-7779
电子邮箱: [email protected]
Discord社区链接: https://discord.gg/zumjDWgdAs

wechat