tiiuae
/

Falcon3-3B-Base

@@ -91,44 +91,44 @@ We report in the following table our internal pipeline benchmarks:
             <td rowspan="3">General</td>
             <td>MMLU (5-shot)</td>
             <td>56.1</td>
-            <td>65.6</td>
             <td>58.6</td>
             <td>55.5</td>
         </tr>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
             <td>24.9</td>
-            <td>31.99</td>
             <td>26.21</td>
             <td>28.77</td>
         </tr>
         <tr>
             <td>IFEval</td>
             <td>12.83</td>
-            <td>27</td>
             <td>22.81</td>
-            <td>27.67</td>
         </tr>
         <tr>
             <td rowspan="2">Math</td>
             <td>GSM8K (5-shot)</td>
             <td>26.68</td>
-            <td>68.99</td>
             <td>25.7</td>
             <td>63.91</td>
         </tr>
         <tr>
-            <td>MATH(4-shot)</td>
             <td>1.39</td>
             <td>8.43</td>
             <td>1.73</td>
-            <td>9.38</td>
         </tr>
         <tr>
             <td rowspan="4">Reasoning</td>
             <td>Arc Challenge (25-shot)</td>
             <td>50.76</td>
-            <td>55.54</td>
             <td>50.34</td>
             <td>54.86</td>
         </tr>
@@ -136,20 +136,20 @@ We report in the following table our internal pipeline benchmarks:
             <td>GPQA (0-shot)</td>
             <td>27.49</td>
             <td>27.53</td>
-            <td>38.6</td>
             <td>31.15</td>
         </tr>
         <tr>
             <td>MUSR (0-shot)</td>
             <td>35.24</td>
-            <td>43.03</td>
             <td>42.13</td>
             <td>37.5</td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
             <td>38.59</td>
-            <td>46.12</td>
             <td>40.85</td>
             <td>44.23</td>
         </tr>
@@ -157,7 +157,7 @@ We report in the following table our internal pipeline benchmarks:
             <td rowspan="4">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
             <td>77.42</td>
-            <td>78.89</td>
             <td>78.29</td>
             <td>75.62</td>
         </tr>
@@ -165,21 +165,21 @@ We report in the following table our internal pipeline benchmarks:
             <td>SciQ (0-shot)</td>
             <td>92.7</td>
             <td>95.6</td>
-            <td>96.1</td>
             <td>93.1</td>
         </tr>
         <tr>
             <td>Winogrande (0-shot)</td>
-            <td>69.69</td>
             <td>68.82</td>
             <td>68.35</td>
             <td>64.64</td>
         </tr>
         <tr>
             <td>OpenbookQA (0-shot)</td>
-            <td>43.2</td>
             <td>42.2</td>
-            <td>43</td>
             <td>39.4</td>
         </tr>
     </tbody>

             <td rowspan="3">General</td>
             <td>MMLU (5-shot)</td>
             <td>56.1</td>
+            <td><b>65.6</b></td>
             <td>58.6</td>
             <td>55.5</td>
         </tr>
         <tr>
             <td>MMLU-PRO (5-shot)</td>
             <td>24.9</td>
+            <td><b>31.99</b></td>
             <td>26.21</td>
             <td>28.77</td>
         </tr>
         <tr>
             <td>IFEval</td>
             <td>12.83</td>
+            <td>27.0</td>
             <td>22.81</td>
+            <td><b>27.67</b></td>
         </tr>
         <tr>
             <td rowspan="2">Math</td>
             <td>GSM8K (5-shot)</td>
             <td>26.68</td>
+            <td><b>68.99</b></td>
             <td>25.7</td>
             <td>63.91</td>
         </tr>
         <tr>
+            <td>MATH Lvl-5 (4-shot)</td>
             <td>1.39</td>
             <td>8.43</td>
             <td>1.73</td>
+            <td><b>9.38</b></td>
         </tr>
         <tr>
             <td rowspan="4">Reasoning</td>
             <td>Arc Challenge (25-shot)</td>
             <td>50.76</td>
+            <td><b>55.54</b></td>
             <td>50.34</td>
             <td>54.86</td>
         </tr>
             <td>GPQA (0-shot)</td>
             <td>27.49</td>
             <td>27.53</td>
+            <td><b>38.6</b></td>
             <td>31.15</td>
         </tr>
         <tr>
             <td>MUSR (0-shot)</td>
             <td>35.24</td>
+            <td><b>43.03</b></td>
             <td>42.13</td>
             <td>37.5</td>
         </tr>
         <tr>
             <td>BBH (3-shot)</td>
             <td>38.59</td>
+            <td><b>46.12</b></td>
             <td>40.85</td>
             <td>44.23</td>
         </tr>
             <td rowspan="4">CommonSense Understanding</td>
             <td>PIQA (0-shot)</td>
             <td>77.42</td>
+            <td><b>78.89</b></td>
             <td>78.29</td>
             <td>75.62</td>
         </tr>
             <td>SciQ (0-shot)</td>
             <td>92.7</td>
             <td>95.6</td>
+            <td><b>96.1</b></td>
             <td>93.1</td>
         </tr>
         <tr>
             <td>Winogrande (0-shot)</td>
+            <td><b>69.69</b></td>
             <td>68.82</td>
             <td>68.35</td>
             <td>64.64</td>
         </tr>
         <tr>
             <td>OpenbookQA (0-shot)</td>
+            <td><b>43.2</b></td>
             <td>42.2</td>
+            <td>43.0</td>
             <td>39.4</td>
         </tr>
     </tbody>