IEITYuan
/

Yuan2-M32-hf

Text Generation

Model card Files Files and versions Community

IEIT-Yuan commited on May 28, 2024

Commit

978434f

·

verified ·

1 Parent(s): dc85010

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -35,7 +35,7 @@ license_link: https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/LICENSE-Yuan
 ##  1. Introduction
-浪潮信息 “源2.0 M32”大模型（简称，Yuan2.0-M32） 采用稀疏混合专家架构（MoE），以Yuan2.0-2B模型作为基底模型，通过创新的门控网络（Attention Router）实现32个专家间（Expers*32）的协同工作与任务调度，在显著降低模型推理算力需求的情况下，带来了更强的模型精度表现与推理性能；源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示，源2.0-M32在多项任务评测中，展示出了较为先进的能力表现，MATH（数学求解）、ARC-C（科学问答）测试成绩超越LLaMA3-700亿模型。Yuan2.0-M32大模型 基本信息如下：
 + **模型参数量：** 40B <br>
 + **专家数量：** 32 <br>

 ##  1. Introduction
+浪潮信息 “源2.0 M32”大模型（简称，Yuan2.0-M32） 采用稀疏混合专家架构（MoE），以Yuan2.0-2B模型作为基底模型，通过创新的门控网络（Attention Router）实现32个专家间（Experts*32）的协同工作与任务调度，在显著降低模型推理算力需求的情况下，带来了更强的模型精度表现与推理性能；源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示，源2.0-M32在多项任务评测中，展示出了较为先进的能力表现，MATH（数学求解）、ARC-C（科学问答）测试成绩超越LLaMA3-700亿模型。Yuan2.0-M32大模型 基本信息如下：
 + **模型参数量：** 40B <br>
 + **专家数量：** 32 <br>