IEITYuan
/

Yuan2-M32-hf

Text Generation

Transformers

PyTorch

yuan

custom_code

Model card Files Files and versions Community

IEIT-Yuan commited on May 28, 2024

Commit

dc85010

verified ·

1 Parent(s): fd4308f

Update README.md

Browse files

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -35,7 +35,7 @@ license_link: https://github.com/IEIT-Yuan/Yuan-2.0/blob/main/LICENSE-Yuan
 ##  1. Introduction
-浪潮信息 **“源2.0 M32”大模型（简称，Yuan2.0-M32）** 采用稀疏混合专家架构（MoE），以Yuan2.0-2B模型作为基底模型，通过创新的门控网络（Attention Router）实现32个专家间（Expers*32）的协同工作与任务调度，在显著降低模型推理算力需求的情况下，带来了更强的模型精度表现与推理性能；源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示，源2.0-M32在多项任务评测中，展示出了较为先进的能力表现，并在MATH（数学求解）、MMLU（综合知识能力）ARC-C（科学问答）榜单上全面超越LLaMA3-700亿模型。。**Yuan2.0-M32大模型** 基本信息如下：
 + **模型参数量：** 40B <br>
 + **专家数量：** 32 <br>
@@ -94,7 +94,7 @@ Yuan2.0-M32 模型与多个闭源、开源模型相比，均呈现出较好的
 | Llama3-70B         |         70         |     70         |       140      |       420      |      79.25       |       0.57     |
 | Llama3-8B          |         8          |     8          |       16       |       48       |      64.15      |       4.00     |
 | Mistral-8*22B      |         141        |     39         |       78       |       234      |      72.38      |       0.93     |
-| Mistral-8*7B       |         47         |    129         |       25.8     |       77,3     |      60.83      |       2.36     |
 | **Yuan2.0-M32**    |         40         |     3.7        |       7.4      |       22.2     |      79.15       |       10.69    |

 ##  1. Introduction
+浪潮信息 “源2.0 M32”大模型（简称，Yuan2.0-M32） 采用稀疏混合专家架构（MoE），以Yuan2.0-2B模型作为基底模型，通过创新的门控网络（Attention Router）实现32个专家间（Expers*32）的协同工作与任务调度，在显著降低模型推理算力需求的情况下，带来了更强的模型精度表现与推理性能；源2.0-M32在多个业界主流的评测进行了代码生成、数学问题求解、科学问答与综合知识能力等方面的能力测评。结果显示，源2.0-M32在多项任务评测中，展示出了较为先进的能力表现，MATH（数学求解）、ARC-C（科学问答）测试成绩超越LLaMA3-700亿模型。Yuan2.0-M32大模型 基本信息如下：
 + **模型参数量：** 40B <br>
 + **专家数量：** 32 <br>
 | Llama3-70B         |         70         |     70         |       140      |       420      |      79.25       |       0.57     |
 | Llama3-8B          |         8          |     8          |       16       |       48       |      64.15      |       4.00     |
 | Mistral-8*22B      |         141        |     39         |       78       |       234      |      72.38      |       0.93     |
+| Mistral-8*7B       |         47         |    12.9         |       25.8     |       77,3     |      60.83      |       2.36     |
 | **Yuan2.0-M32**    |         40         |     3.7        |       7.4      |       22.2     |      79.15       |       10.69    |