ibm-granite
/

granite-3.0-2b-instruct

@@ -12,18 +12,18 @@ model-index:
   - task:
       type: text-generation
     dataset:
-        type: human-exams
-        name: MMLU
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
     dataset:
-        type: human-exams
-        name: MMLU-Pro
     metrics:
     - name: pass@1
       type: pass@1
@@ -37,17 +37,27 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
     dataset:
-        type: commonsense
-        name: WinoGrande
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -57,7 +67,7 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -67,27 +77,27 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: commonsense
-        name: PIQA
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: commonsense
-        name: Hellaswag
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -97,7 +107,7 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -107,17 +117,17 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: reading-comprehension
-        name: SQuAD v2
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -127,7 +137,7 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -137,7 +147,7 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -147,17 +157,37 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: code
-        name: HumanEval
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -167,7 +197,7 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -177,7 +207,7 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
@@ -187,17 +217,27 @@ model-index:
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: multilingual
-        name: MGSM
     metrics:
     - name: pass@1
       type: pass@1
-      value:
       veriefied: false
 ---

   - task:
       type: text-generation
     dataset:
+        type: instruction-following
+        name: IFEval
     metrics:
     - name: pass@1
       type: pass@1
+      value: 46.07
       veriefied: false
   - task:
       type: text-generation
     dataset:
+        type: instruction-following
+        name: MT-Bench
     metrics:
     - name: pass@1
       type: pass@1
     metrics:
     - name: pass@1
       type: pass@1
+      value: 29.75
       veriefied: false
   - task:
       type: text-generation
     dataset:
+        type: human-exams
+        name: MMLU
     metrics:
     - name: pass@1
       type: pass@1
+      value: 56.03
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: human-exams
+        name: MMLU-Pro
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 27.92
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 43.20
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 66.36
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: commonsense
+        name: Hellaswag
     metrics:
     - name: pass@1
       type: pass@1
+      value: 76.79
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: commonsense
+        name: WinoGrande
     metrics:
     - name: pass@1
       type: pass@1
+      value: 71.90
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 53.37
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 84.89
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: reading-comprehension
+        name: SQuAD 2.0
     metrics:
     - name: pass@1
       type: pass@1
+      value: 19.73
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 54.35
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 28.61
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 43.74
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: code
+        name: HumanEvalSynthesis
     metrics:
     - name: pass@1
       type: pass@1
+      value: 50.61
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: code
+        name: HumanEvalExplain
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 45.58
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: code
+        name: HumanEvalFix
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 51.83
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 41.00
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 59.66
       veriefied: false
   - task:
       type: text-generation
     metrics:
     - name: pass@1
       type: pass@1
+      value: 23.66
       veriefied: false
   - task:
       type: text-generation
     dataset:
         type: multilingual
+        name: PAWS-X (7 langs)
     metrics:
     - name: pass@1
       type: pass@1
+      value: 61.42
+      veriefied: false
+  - task:
+      type: text-generation
+    dataset:
+        type: multilingual
+        name: MGSM (6 langs)
+    metrics:
+    - name: pass@1
+      type: pass@1
+      value: 37.13
       veriefied: false
 ---