Spaces:

Weyaxi
/

leaderboard-results-to-modelcard

Runtime error

App Files Files Community

Weyaxi commited on Jun 27

Commit

1148fdd

•

1 Parent(s): 9a140a8

pre 1

Browse files

Files changed (1) hide show

functions.py +45 -45

functions.py CHANGED Viewed

@@ -38,69 +38,69 @@ def get_query_url(repo):
 def get_task_summary(results):
   return {
-      "ARC":
-          {"dataset_type":"ai2_arc",
-          "dataset_name":"AI2 Reasoning Challenge (25-Shot)",
-          "metric_type":"acc_norm",
-          "metric_value":results["ARC"],
-          "dataset_config":"ARC-Challenge",
-          "dataset_split":"test",
           "dataset_revision":None,
-          "dataset_args":{"num_few_shot": 25},
-          "metric_name":"normalized accuracy"
           },
-      "HellaSwag":
-          {"dataset_type":"hellaswag",
-          "dataset_name":"HellaSwag (10-Shot)",
           "metric_type":"acc_norm",
-          "metric_value":results["HellaSwag"],
-          "dataset_config":None,
-          "dataset_split":"validation",
           "dataset_revision":None,
-          "dataset_args":{"num_few_shot": 10},
           "metric_name":"normalized accuracy"
           },
-      "MMLU":
       {
-          "dataset_type":"cais/mmlu",
-          "dataset_name":"MMLU (5-Shot)",
-          "metric_type":"acc",
-          "metric_value":results["MMLU"],
-          "dataset_config":"all",
-          "dataset_split":"test",
           "dataset_revision":None,
-          "dataset_args":{"num_few_shot": 5},
-          "metric_name":"accuracy"
       },
-      "TruthfulQA":
       {
-          "dataset_type":"truthful_qa",
-          "dataset_name":"TruthfulQA (0-shot)",
-          "metric_type":"mc2",
-          "metric_value":results["TruthfulQA"],
-          "dataset_config":"multiple_choice",
-          "dataset_split":"validation",
           "dataset_revision":None,
           "dataset_args":{"num_few_shot": 0},
-          "metric_name":None
       },
-      "Winogrande":
       {
-          "dataset_type":"winogrande",
           "dataset_name":"Winogrande (5-shot)",
-          "metric_type":"acc",
-          "metric_value":results["Winogrande"],
-          "dataset_config":"winogrande_xl",
-          "dataset_split":"validation",
-          "dataset_args":{"num_few_shot": 5},
-          "metric_name":"accuracy"
       },
-      "GSM8K":
       {
-          "dataset_type":"gsm8k",
-          "dataset_name":"GSM8k (5-shot)",
           "metric_type":"acc",
-          "metric_value":results["GSM8K"],
           "dataset_config":"main",
           "dataset_split":"test",
           "dataset_args":{"num_few_shot": 5},

 def get_task_summary(results):
   return {
+      "IFEval":
+          {"dataset_type":"HuggingFaceH4/ifeval",
+          "dataset_name":"IFEval (0-Shot)",
+          "metric_type":"inst_level_strict_acc",
+          "metric_value":results["IFEval"],
+          "dataset_config": None, # don't know
+          "dataset_split": None, # don't know
           "dataset_revision":None,
+          "dataset_args":{"num_few_shot": 0},
+          "metric_name":"strict accuracy"
           },
+      "BBH":
+          {"dataset_type":"BBH",
+          "dataset_name":"BBH (3-Shot)",
           "metric_type":"acc_norm",
+          "metric_value":results["BBH"],
+          "dataset_config": None, # don't know
+          "dataset_split": None, # don't know
           "dataset_revision":None,
+          "dataset_args":{"num_few_shot": 3},
           "metric_name":"normalized accuracy"
           },
+      "MATH Lvl 5":
       {
+          "dataset_type":"hendrycks/competition_math",
+          "dataset_name":"MATH Lvl 5 (4-Shot)",
+          "metric_type":"exact_match",
+          "metric_value":results["MATH Lvl 5"],
+          "dataset_config": None, # don't know
+          "dataset_split": None, # don't know
           "dataset_revision":None,
+          "dataset_args":{"num_few_shot": 4},
+          "metric_name":"exact match"
       },
+      "GPQA":
       {
+          "dataset_type":"Idavidrein/gpqa",
+          "dataset_name":"GPQA (0-shot)",
+          "metric_type":"acc_norm",
+          "metric_value":results["GPQA"],
+          "dataset_config": None, # don't know
+          "dataset_split": None, # don't know
           "dataset_revision":None,
           "dataset_args":{"num_few_shot": 0},
+          "metric_name":"acc_norm"
       },
+      "MUSR":
       {
+          "dataset_type":"TAUR-Lab/MuSR",
           "dataset_name":"Winogrande (5-shot)",
+          "metric_type":"acc_norm",
+          "metric_value":results["MUSR"],
+          "dataset_config": None, # don't know
+          "dataset_split": None, # don't know
+          "dataset_args":{"num_few_shot": 0},
+          "metric_name":"acc_norm"
       },
+      "MMLU-PRO":
       {
+          "dataset_type":"TIGER-Lab/MMLU-Pro",
+          "dataset_name":"MMLU-PRO (5-shot)",
           "metric_type":"acc",
+          "metric_value":results["MMLU-PRO"],
           "dataset_config":"main",
           "dataset_split":"test",
           "dataset_args":{"num_few_shot": 5},