open-r1-eval-leaderboard

Running

lewtun HF Staff commited on Mar 18, 2024

Commit

9d1c3ff

1 Parent(s): 40f3905

Fix new schema

Files changed (1) hide show

app.py CHANGED Viewed

@@ -43,7 +43,7 @@ def get_leaderboard_df(merge_values: bool = False):
                 value = data["results"][first_result_key]["prompt_level_loose_acc"]
             # MMLU has several metrics but we report just the average one
             elif task.lower() == "mmlu":
-                value = data["results"]["lighteval|mmlu:_average|5"]["acc"]
             # HellaSwag and ARC reports acc_norm
             elif task.lower() in ["hellaswag", "arc"]:
                 value = data["results"][first_result_key]["acc_norm"]
@@ -102,6 +102,7 @@ with demo:
         with gr.Row():
             search_bar = gr.Textbox(placeholder="Search for your model...", show_label=False)
             merge_values = gr.Checkbox(
                 label="Merge evals",
                 info="Merge evals for the same model. If there are duplicates, we display the largest one.",
             )

                 value = data["results"][first_result_key]["prompt_level_loose_acc"]
             # MMLU has several metrics but we report just the average one
             elif task.lower() == "mmlu":
+                value = [v["acc"] for k, v in data["results"].items() if "_average" in k.lower()][0]
             # HellaSwag and ARC reports acc_norm
             elif task.lower() in ["hellaswag", "arc"]:
                 value = data["results"][first_result_key]["acc_norm"]
         with gr.Row():
             search_bar = gr.Textbox(placeholder="Search for your model...", show_label=False)
             merge_values = gr.Checkbox(
+                value=True,
                 label="Merge evals",
                 info="Merge evals for the same model. If there are duplicates, we display the largest one.",
             )