OrionStarAI
/

Orion-MoE8x7B

@@ -68,25 +68,26 @@ Model release and download links are provided in the table below:
 ## 3.1. Base Model Orion-MOE8x7B-Base Benchmarks
 ### 3.1.1. LLM evaluation results on examination and professional knowledge
-| Model | ceval   | cmmlu  | mmlu  | mmlu_pro | ARC_c | hellaswag |
-|-------|---------|--------|-------|----------|-------|-----------|
-|Mixtral 8x7B | 54.0861  | 53.21 | 70.4000  | 38.5000  | 85.0847  | 81.9458 |
-|Qwen1.5-32b | 83.5000  | 82.3000  | 73.4000  | 45.2500  | 90.1695  | 81.9757 |
-|Qwen2.5-32b | 87.7414  | 89.0088  | 82.9000  | 58.0100  | 94.2373  | 82.5134 |
-|Orion 14B | 72.8000  | 70.5700  | 69.9400  | 33.9500  | 79.6600  | 78.5300 |
-|<span style="color: red;">Orion 8x7B | <span style="color: red;">89.7400  | <span style="color: red;">89.1555  | <span style="color: red;">85.9000  | <span style="color: red;">58.3100  | <span style="color: red;">91.8644  | <span style="color: red;">89.19 |
-|**Model**|**lambada**|**bbh**|**musr**|**piqa**|**commonsense_qa**|**IFEval**|
-|Mixtral 8x7B | 76.7902  | 50.87 | 43.21 | 83.41 | 69.62 | 24.15 |
-|Qwen1.5-32b | 73.7434  | 57.2800  | 42.6500  | 82.1500  | 74.6900  | 32.9700 |
-|Qwen2.5-32b | 75.3736  | 67.6900  | 49.7800  | 80.0500  | 72.9700  | 41.5900 |
-|Orion 14B | 78.8300  | 50.3500  | 43.6100  | 79.5400  | 66.9100  | 29.0800 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">79.7399|<span style="color: red;">55.82 |<span style="color: red;">49.93 |<span style="color: red;">87.32 |<span style="color: red;">73.05 |<span style="color: red;">30.06 |
-|**Model**|**GQPA**|**human-eval**|**MBPP**|**math_lv5**|**gsm8k**|**math**|
-|Mixtral 8x7B | 30.9000  | 33.5366  | 60.7000  | 9.0000  | 47.5000  | 28.4000 |
-|Qwen1.5-32b | 33.4900  | 35.9756  | 49.4000  | 25.0000  | 77.4000  | 36.1000 |
-|Qwen2.5-32b | 49.5000  | 46.9512  | 71.0000  | 31.7200  | 80.3630  | 48.8800 |
-|Orion 14B | 28.5300  | 20.1200  | 30.0000  | 2.5400  | 52.0100  | 7.8400 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">52.1700 |<span style="color: red;">44.5122 |<span style="color: red;">43.4 |<span style="color: red;">5.07 |<span style="color: red;">59.8200 |<span style="color: red;">23.6800 |
 ### 3.1.2. Comparison of LLM performances on Japanese testsets
 | Model | jsquad | jcommonsenseqa | jnli | marc_ja | jaqket_v2 | paws_ja | avg |
@@ -95,7 +96,7 @@ Model release and download links are provided in the table below:
 |Qwen1.5-32B | 0.8986 | 0.8454 | 0.5099 | 0.9708 | 0.8214 | 0.4380 | 0.7474 |
 |Qwen2.5-32B | 0.8909 | 0.9383 | 0.7214 | 0.9786 | 0.8927 | 0.4215  | 0.8073 |
 |Orion-14B-Base | 0.7422 | 0.8820 | 0.7285 | 0.9406 | 0.6620 | 0.4990 | 0.7424 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">0.9177 |<span style="color: red;">0.9043 |<span style="color: red;">0.9046 |<span style="color: red;">0.9640 |<span style="color: red;">0.8119 |<span style="color: red;">0.4735 |<span style="color: red;">0.8293 |
 ### 3.1.3. Comparison of LLM performances on Korean testsets
 |Model | haerae | kobest boolq | kobest copa | kobest hellaswag | kobest sentineg | kobest wic | paws_ko | avg |
@@ -104,7 +105,7 @@ Model release and download links are provided in the table below:
 |Qwen1.5-32B | 46.38 | 76.28 | 60.4 | 53 | 78.34 | 52.14 | 43.4 | 58.56285714 |
 |Qwen2.5-32B | 70.67 | 80.27 | 76.7 | 61.2 | 96.47 | 77.22 | 37.05 | 71.36857143 |
 |Orion-14B-Base | 69.66 | 80.63 | 77.1 | 58.2 | 92.44 | 51.19 | 44.55 | 67.68142857 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">65.17 |<span style="color: red;">85.4 |<span style="color: red;">80.4 |<span style="color: red;">56 |<span style="color: red;">96.98 |<span style="color: red;">73.57 |<span style="color: red;">46.35 |<span style="color: red;">71.98142857 |
 ### 3.1.4. Comparison of LLM performances on Arabic, German, French, and Spanish testsets
 | Lang | ar |  | de |  | fr |  | es |  |
@@ -114,21 +115,20 @@ Model release and download links are provided in the table below:
 |Qwen1.5-32B | 50.07 | 39.95 | 63.77 | 50.81 | 68.86 | 55.95 | 70.5 | 55.13 |
 |Qwen2.5-32B | 59.76 | 52.87 | 69.82 | 61.76 | 74.15 | 62.7 | 75.04 | 65.3 |
 |Orion-14B-Base | 42.26 | 33.88 | 54.65 | 38.92 | 60.21 | 42.34 | 62 | 44.62 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">69.39 |<span style="color: red;">54.32 |<span style="color: red;">80.6 |<span style="color: red;">63.47 |<span style="color: red;">85.56 |<span style="color: red;">68.78 |<span style="color: red;">87.41 |<span style="color: red;">70.09 |
 ### 3.1.5. Leakage Detection Benchmark
 The proportion of leakage data(from various evaluation benchmarks) in the pre-trained corpus; the higher the proportion, the more leakage it indicates.
  - Code: https://github.com/nishiwen1214/Benchmark-leakage-detection
  - Paper: https://web3.arxiv.org/pdf/2409.01790
- - Blog: https://mp.weixin.qq.com/s/BtcJmDEUyzAYG-fqCal2lA
  - English Test: mmlu
  - Chinese Test: ceval, cmmlu
 |Threshold 0.2 | qwen2.5 32b | qwen1.5 32b | orion 8x7b  | orion 14b | mixtral 8x7b |
-|----|----|----|----|----|----|
-|mmlu  | 0.3  | 0.27 |<span style="color: red;">0.22 | 0.28 | 0.25 |
-|ceval | 0.39 | 0.38 |<span style="color: red;">0.27 | 0.26 | 0.26 |
-|cmmlu | 0.38 | 0.39 |<span style="color: red;">0.23 | 0.27 | 0.22 |
 ### 3.1.6. Inference speed
 Based on 8x Nvidia RTX3090， in unit of tokens per second.

 ## 3.1. Base Model Orion-MOE8x7B-Base Benchmarks
 ### 3.1.1. LLM evaluation results on examination and professional knowledge
+|TestSet | Mixtral 8*7B | Qwen1.5-32b | Qwen2.5-32b | Orion 14B | Orion 8*7B|
+| -- | -- | -- | -- | -- | -- |
+|ceval  | 54.0861 | 83.5 | 87.7414 | 72.8 | 89.74|
+|cmmlu  | 53.21 | 82.3 | 89.0088 | 70.57 | 89.1555|
+|mmlu  | 70.4 | 73.4 | 82.9 | 69.94 | 85.9|
+|mmlu_pro | 38.5 | 45.25 | 58.01 | 33.95 | 58.31|
+|ARC_c | 85.0847 | 90.1695 | 94.2373 | 79.66 | 91.8644|
+|hellaswag | 81.9458 | 81.9757 | 82.5134 | 78.53 | 89.19|
+|lambada | 76.7902 | 73.7434 | 75.3736 | 78.83 | 79.7399|
+|bbh | 50.87 | 57.28 | 67.69 | 50.35 | 55.82|
+|musr | 43.21 | 42.65 | 49.78 | 43.61 | 49.93|
+|piqa | 83.41 | 82.15 | 80.05 | 79.54 | 87.32|
+|commonsense_qa | 69.62 | 74.69 | 72.97 | 66.91 | 73.05|
+|IFEval | 24.15 | 32.97 | 41.59 | 29.08 | 30.06|
+|GQPA | 30.9 | 33.49 | 49.5 | 28.53 | 52.17|
+|human-eval | 33.5366 | 35.9756 | 46.9512 | 20.12 | 44.5122|
+|MBPP | 60.7 | 49.4 | 71 | 30 | 43.4|
+|math lv5 | 9 | 25 | 31.72 | 2.54 | 5.07|
+|gsm8k | 47.5 | 77.4 | 80.363 | 52.01 | 59.82|
+|math | 28.4 | 36.1 | 48.88 | 7.84 | 23.68|
 ### 3.1.2. Comparison of LLM performances on Japanese testsets
 | Model | jsquad | jcommonsenseqa | jnli | marc_ja | jaqket_v2 | paws_ja | avg |
 |Qwen1.5-32B | 0.8986 | 0.8454 | 0.5099 | 0.9708 | 0.8214 | 0.4380 | 0.7474 |
 |Qwen2.5-32B | 0.8909 | 0.9383 | 0.7214 | 0.9786 | 0.8927 | 0.4215  | 0.8073 |
 |Orion-14B-Base | 0.7422 | 0.8820 | 0.7285 | 0.9406 | 0.6620 | 0.4990 | 0.7424 |
+|Orion 8x7B |0.9177 |0.9043 |0.9046 |0.9640 |0.8119 |0.4735 |0.8293 |
 ### 3.1.3. Comparison of LLM performances on Korean testsets
 |Model | haerae | kobest boolq | kobest copa | kobest hellaswag | kobest sentineg | kobest wic | paws_ko | avg |
 |Qwen1.5-32B | 46.38 | 76.28 | 60.4 | 53 | 78.34 | 52.14 | 43.4 | 58.56285714 |
 |Qwen2.5-32B | 70.67 | 80.27 | 76.7 | 61.2 | 96.47 | 77.22 | 37.05 | 71.36857143 |
 |Orion-14B-Base | 69.66 | 80.63 | 77.1 | 58.2 | 92.44 | 51.19 | 44.55 | 67.68142857 |
+|Orion 8x7B |65.17 |85.4 |80.4 |56 |96.98 |73.57 |46.35 |71.98142857 |
 ### 3.1.4. Comparison of LLM performances on Arabic, German, French, and Spanish testsets
 | Lang | ar |  | de |  | fr |  | es |  |
 |Qwen1.5-32B | 50.07 | 39.95 | 63.77 | 50.81 | 68.86 | 55.95 | 70.5 | 55.13 |
 |Qwen2.5-32B | 59.76 | 52.87 | 69.82 | 61.76 | 74.15 | 62.7 | 75.04 | 65.3 |
 |Orion-14B-Base | 42.26 | 33.88 | 54.65 | 38.92 | 60.21 | 42.34 | 62 | 44.62 |
+|Orion 8x7B |69.39 |54.32 |80.6 |63.47 |85.56 |68.78 |87.41 |70.09 |
 ### 3.1.5. Leakage Detection Benchmark
 The proportion of leakage data(from various evaluation benchmarks) in the pre-trained corpus; the higher the proportion, the more leakage it indicates.
  - Code: https://github.com/nishiwen1214/Benchmark-leakage-detection
  - Paper: https://web3.arxiv.org/pdf/2409.01790
  - English Test: mmlu
  - Chinese Test: ceval, cmmlu
 |Threshold 0.2 | qwen2.5 32b | qwen1.5 32b | orion 8x7b  | orion 14b | mixtral 8x7b |
+|------|------|------|------|------|------|
+|mmlu  | 0.3  | 0.27 | 0.22 | 0.28 | 0.25 |
+|ceval | 0.39 | 0.38 | 0.27 | 0.26 | 0.26 |
+|cmmlu | 0.38 | 0.39 | 0.23 | 0.27 | 0.22 |
 ### 3.1.6. Inference speed
 Based on 8x Nvidia RTX3090， in unit of tokens per second.

README_zh.md CHANGED Viewed

@@ -65,25 +65,27 @@
 ## 3.1. 基座模型Orion-MOE8x7B-Base评估
 ### 3.1.1. 基座模型基准测试对比
-| Model | ceval   | cmmlu  | mmlu  | mmlu_pro | ARC_c | hellaswag |
-|-------|---------|--------|-------|----------|-------|-----------|
-|Mixtral 8x7B | 54.0861  | 53.21 | 70.4000  | 38.5000  | 85.0847  | 81.9458 |
-|Qwen1.5-32b | 83.5000  | 82.3000  | 73.4000  | 45.2500  | 90.1695  | 81.9757 |
-|Qwen2.5-32b | 87.7414  | 89.0088  | 82.9000  | 58.0100  | 94.2373  | 82.5134 |
-|Orion 14B | 72.8000  | 70.5700  | 69.9400  | 33.9500  | 79.6600  | 78.5300 |
-|<span style="color: red;">Orion 8x7B | <span style="color: red;">89.7400  | <span style="color: red;">89.1555  | <span style="color: red;">85.9000  | <span style="color: red;">58.3100  | <span style="color: red;">91.8644  | <span style="color: red;">89.19 |
-|**Model**|**lambada**|**bbh**|**musr**|**piqa**|**commonsense_qa**|**IFEval**|
-|Mixtral 8x7B | 76.7902  | 50.87 | 43.21 | 83.41 | 69.62 | 24.15 |
-|Qwen1.5-32b | 73.7434  | 57.2800  | 42.6500  | 82.1500  | 74.6900  | 32.9700 |
-|Qwen2.5-32b | 75.3736  | 67.6900  | 49.7800  | 80.0500  | 72.9700  | 41.5900 |
-|Orion 14B | 78.8300  | 50.3500  | 43.6100  | 79.5400  | 66.9100  | 29.0800 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">79.7399|<span style="color: red;">55.82 |<span style="color: red;">49.93 |<span style="color: red;">87.32 |<span style="color: red;">73.05 |<span style="color: red;">30.06 |
-|**Model**|**GQPA**|**human-eval**|**MBPP**|**math_lv5**|**gsm8k**|**math**|
-|Mixtral 8x7B | 30.9000  | 33.5366  | 60.7000  | 9.0000  | 47.5000  | 28.4000 |
-|Qwen1.5-32b | 33.4900  | 35.9756  | 49.4000  | 25.0000  | 77.4000  | 36.1000 |
-|Qwen2.5-32b | 49.5000  | 46.9512  | 71.0000  | 31.7200  | 80.3630  | 48.8800 |
-|Orion 14B | 28.5300  | 20.1200  | 30.0000  | 2.5400  | 52.0100  | 7.8400 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">52.1700 |<span style="color: red;">44.5122 |<span style="color: red;">43.4 |<span style="color: red;">5.07 |<span style="color: red;">59.8200 |<span style="color: red;">23.6800 |
 ### 3.1.2. 小语种： 日文
@@ -93,7 +95,7 @@
 |Qwen1.5-32B | 0.8986 | 0.8454 | 0.5099 | 0.9708 | 0.8214 | 0.4380 | 0.7474 |
 |Qwen2.5-32B | 0.8909 | 0.9383 | 0.7214 | 0.9786 | 0.8927 | 0.4215  | 0.8073 |
 |Orion-14B-Base | 0.7422 | 0.8820 | 0.7285 | 0.9406 | 0.6620 | 0.4990 | 0.7424 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">0.9177 |<span style="color: red;">0.9043 |<span style="color: red;">0.9046 |<span style="color: red;">0.9640 |<span style="color: red;">0.8119 |<span style="color: red;">0.4735 |<span style="color: red;">0.8293 |
 ### 3.1.3. 小语种： 韩文
@@ -103,33 +105,33 @@
 |Qwen1.5-32B | 46.38 | 76.28 | 60.4 | 53 | 78.34 | 52.14 | 43.4 | 58.56285714 |
 |Qwen2.5-32B | 70.67 | 80.27 | 76.7 | 61.2 | 96.47 | 77.22 | 37.05 | 71.36857143 |
 |Orion-14B-Base | 69.66 | 80.63 | 77.1 | 58.2 | 92.44 | 51.19 | 44.55 | 67.68142857 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">65.17 |<span style="color: red;">85.4 |<span style="color: red;">80.4 |<span style="color: red;">56 |<span style="color: red;">96.98 |<span style="color: red;">73.57 |<span style="color: red;">46.35 |<span style="color: red;">71.98142857 |
 ### 3.1.4. 小语种： 阿拉伯语，德语，法语，西班牙语
 | Lang | ar |  | de |  | fr |  | es |  |
-|----|----|----|----|----|----|----|----|----|
 |**model**|**hellaswag**|**arc**|**hellaswag**|**arc**|**hellaswag**|**arc**|**hellaswag**|**arc**|
 |Mixtral-8x7B | 47.93 | 36.27 | 69.17 | 52.35 | 73.9 | 55.86 | 74.25 | 54.79 |
 |Qwen1.5-32B | 50.07 | 39.95 | 63.77 | 50.81 | 68.86 | 55.95 | 70.5 | 55.13 |
 |Qwen2.5-32B | 59.76 | 52.87 | 69.82 | 61.76 | 74.15 | 62.7 | 75.04 | 65.3 |
 |Orion-14B-Base | 42.26 | 33.88 | 54.65 | 38.92 | 60.21 | 42.34 | 62 | 44.62 |
-|<span style="color: red;">Orion 8x7B |<span style="color: red;">69.39 |<span style="color: red;">54.32 |<span style="color: red;">80.6 |<span style="color: red;">63.47 |<span style="color: red;">85.56 |<span style="color: red;">68.78 |<span style="color: red;">87.41 |<span style="color: red;">70.09 |
 ### 3.1.5. 泄漏检测结果
 检测测试题目的泄露程度，值越大泄露的越严重
  - 检测代码: https://github.com/nishiwen1214/Benchmark-leakage-detection
  - 论文： https://web3.arxiv.org/pdf/2409.01790
- - 博客： https://mp.weixin.qq.com/s/BtcJmDEUyzAYG-fqCal2lA
  - 英文测试：mmlu
  - 中文测试：ceval, cmmlu
 |Threshold 0.2 | qwen2.5 32b | qwen1.5 32b | orion 8x7b  | orion 14b | mixtral 8x7b |
 |----|----|----|----|----|----|
-|mmlu  | 0.3  | 0.27 |<span style="color: red;">0.22 | 0.28 | 0.25 |
-|ceval | 0.39 | 0.38 |<span style="color: red;">0.27 | 0.26 | 0.26 |
-|cmmlu | 0.38 | 0.39 |<span style="color: red;">0.23 | 0.27 | 0.22 |
 ### 3.1.6. 推理速度

 ## 3.1. 基座模型Orion-MOE8x7B-Base评估
 ### 3.1.1. 基座模型基准测试对比
+|TestSet | Mixtral 8*7B | Qwen1.5-32b | Qwen2.5-32b | Orion 14B | Orion 8*7B|
+| -- | -- | -- | -- | -- | -- |
+|ceval  | 54.0861 | 83.5 | 87.7414 | 72.8 | 89.74|
+|cmmlu  | 53.21 | 82.3 | 89.0088 | 70.57 | 89.1555|
+|mmlu  | 70.4 | 73.4 | 82.9 | 69.94 | 85.9|
+|mmlu_pro | 38.5 | 45.25 | 58.01 | 33.95 | 58.31|
+|ARC_c | 85.0847 | 90.1695 | 94.2373 | 79.66 | 91.8644|
+|hellaswag | 81.9458 | 81.9757 | 82.5134 | 78.53 | 89.19|
+|lambada | 76.7902 | 73.7434 | 75.3736 | 78.83 | 79.7399|
+|bbh | 50.87 | 57.28 | 67.69 | 50.35 | 55.82|
+|musr | 43.21 | 42.65 | 49.78 | 43.61 | 49.93|
+|piqa | 83.41 | 82.15 | 80.05 | 79.54 | 87.32|
+|commonsense_qa | 69.62 | 74.69 | 72.97 | 66.91 | 73.05|
+|IFEval | 24.15 | 32.97 | 41.59 | 29.08 | 30.06|
+|GQPA | 30.9 | 33.49 | 49.5 | 28.53 | 52.17|
+|human-eval | 33.5366 | 35.9756 | 46.9512 | 20.12 | 44.5122|
+|MBPP | 60.7 | 49.4 | 71 | 30 | 43.4|
+|math lv5 | 9 | 25 | 31.72 | 2.54 | 5.07|
+|gsm8k | 47.5 | 77.4 | 80.363 | 52.01 | 59.82|
+|math | 28.4 | 36.1 | 48.88 | 7.84 | 23.68|
 ### 3.1.2. 小语种： 日文
 |Qwen1.5-32B | 0.8986 | 0.8454 | 0.5099 | 0.9708 | 0.8214 | 0.4380 | 0.7474 |
 |Qwen2.5-32B | 0.8909 | 0.9383 | 0.7214 | 0.9786 | 0.8927 | 0.4215  | 0.8073 |
 |Orion-14B-Base | 0.7422 | 0.8820 | 0.7285 | 0.9406 | 0.6620 | 0.4990 | 0.7424 |
+|Orion 8x7B |0.9177 |0.9043 |0.9046 |0.9640 |0.8119 |0.4735 |0.8293 |
 ### 3.1.3. 小语种： 韩文
 |Qwen1.5-32B | 46.38 | 76.28 | 60.4 | 53 | 78.34 | 52.14 | 43.4 | 58.56285714 |
 |Qwen2.5-32B | 70.67 | 80.27 | 76.7 | 61.2 | 96.47 | 77.22 | 37.05 | 71.36857143 |
 |Orion-14B-Base | 69.66 | 80.63 | 77.1 | 58.2 | 92.44 | 51.19 | 44.55 | 67.68142857 |
+|Orion 8x7B |65.17 |85.4 |80.4 |56 |96.98 |73.57 |46.35 |71.98142857 |
 ### 3.1.4. 小语种： 阿拉伯语，德语，法语，西班牙语
 | Lang | ar |  | de |  | fr |  | es |  |
+|------|----|--|----|--|----|--|----|--|
 |**model**|**hellaswag**|**arc**|**hellaswag**|**arc**|**hellaswag**|**arc**|**hellaswag**|**arc**|
 |Mixtral-8x7B | 47.93 | 36.27 | 69.17 | 52.35 | 73.9 | 55.86 | 74.25 | 54.79 |
 |Qwen1.5-32B | 50.07 | 39.95 | 63.77 | 50.81 | 68.86 | 55.95 | 70.5 | 55.13 |
 |Qwen2.5-32B | 59.76 | 52.87 | 69.82 | 61.76 | 74.15 | 62.7 | 75.04 | 65.3 |
 |Orion-14B-Base | 42.26 | 33.88 | 54.65 | 38.92 | 60.21 | 42.34 | 62 | 44.62 |
+|Orion 8x7B |69.39 |54.32 |80.6 |63.47 |85.56 |68.78 |87.41 |70.09 |
 ### 3.1.5. 泄漏检测结果
 检测测试题目的泄露程度，值越大泄露的越严重
  - 检测代码: https://github.com/nishiwen1214/Benchmark-leakage-detection
  - 论文： https://web3.arxiv.org/pdf/2409.01790
  - 英文测试：mmlu
  - 中文测试：ceval, cmmlu
 |Threshold 0.2 | qwen2.5 32b | qwen1.5 32b | orion 8x7b  | orion 14b | mixtral 8x7b |
 |----|----|----|----|----|----|
+|mmlu  | 0.3  | 0.27 | 0.22 | 0.28 | 0.25 |
+|ceval | 0.39 | 0.38 | 0.27 | 0.26 | 0.26 |
+|cmmlu | 0.38 | 0.39 | 0.23 | 0.27 | 0.22 |
 ### 3.1.6. 推理速度