IEIT-Yuan commited on
Commit
dc85010
·
verified ·
1 Parent(s): fd4308f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +2 -2
README.md CHANGED
@@ -35,7 +35,7 @@ license_link: https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/LICENSE-Yuan
35
  ## 1. Introduction
36
 
37
 
38
- 浪潮信息 **“源2.0 M32”大模型(简称,Yuan2.0-M32)** 采用稀疏混合专家架构(MoE),以Yuan2.0-2B模型作为基底模型,通过创新的门控网络(Attention Router)实现32个专家间(Expers*32)的协同工作与任务调度,在显著降低模型推理算力需求的情况下,带来了更强的模型精度表现与推理性能;源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示,源2.0-M32在多项任务评测中,展示出了较为先进的能力表现,并在MATH(数学求解)、MMLU(综合知识能力)ARC-C(科学问答)榜单上全面超越LLaMA3-700亿模型。。**Yuan2.0-M32大模型** 基本信息如下:
39
 
40
  + **模型参数量:** 40B <br>
41
  + **专家数量:** 32 <br>
@@ -94,7 +94,7 @@ Yuan2.0-M32 模型与多个闭源、开源模型相比,均呈现出较好的
94
  | Llama3-70B | 70 | 70 | 140 | 420 | 79.25 | 0.57 |
95
  | Llama3-8B | 8 | 8 | 16 | 48 | 64.15 | 4.00 |
96
  | Mistral-8*22B | 141 | 39 | 78 | 234 | 72.38 | 0.93 |
97
- | Mistral-8*7B | 47 | 129 | 25.8 | 77,3 | 60.83 | 2.36 |
98
  | **Yuan2.0-M32** | 40 | 3.7 | 7.4 | 22.2 | 79.15 | 10.69 |
99
 
100
 
 
35
  ## 1. Introduction
36
 
37
 
38
+ 浪潮信息 “源2.0 M32”大模型(简称,Yuan2.0-M32 采用稀疏混合专家架构(MoE),以Yuan2.0-2B模型作为基底模型,通过创新的门控网络(Attention Router)实现32个专家间(Expers*32)的协同工作与任务调度,在显著降低模型推理算力需求的情况下,带来了更强的模型精度表现与推理性能;源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示,源2.0-M32在多项任务评测中,展示出了较为先进的能力表现,MATH(数学求解)、ARC-C(科学问答)测试成绩超越LLaMA3-700亿模型。Yuan2.0-M32大模型 基本信息如下:
39
 
40
  + **模型参数量:** 40B <br>
41
  + **专家数量:** 32 <br>
 
94
  | Llama3-70B | 70 | 70 | 140 | 420 | 79.25 | 0.57 |
95
  | Llama3-8B | 8 | 8 | 16 | 48 | 64.15 | 4.00 |
96
  | Mistral-8*22B | 141 | 39 | 78 | 234 | 72.38 | 0.93 |
97
+ | Mistral-8*7B | 47 | 12.9 | 25.8 | 77,3 | 60.83 | 2.36 |
98
  | **Yuan2.0-M32** | 40 | 3.7 | 7.4 | 22.2 | 79.15 | 10.69 |
99
 
100