open-r1-eval-leaderboard

Running

App Files Files Community

lewtun HF Staff commited on Jul 2, 2024

Commit

b59264d

1 Parent(s): dc1a5db

Fix DS MATH

Browse files

Files changed (1) hide show

app.py +12 -18

app.py CHANGED Viewed

@@ -62,36 +62,23 @@ def get_leaderboard_df():
             elif task.lower() == "agieval":
                 value = data["results"]["all"]["acc_norm"]
             # MATH reports qem
-            elif task.lower() in ["math", "math_v2", "aimo_kaggle"]:
                 value = data["results"]["all"]["qem"]
-            else:
-                first_metric_key = next(
-                    iter(data["results"][first_result_key])
-                )  # gets the first key in the first result
-                value = data["results"][first_result_key][first_metric_key]  # gets the value of the first metric
             # For mini_math we report 5 metrics, one for each level and store each one as a separate row in the dataframe
-            if task.lower() in ["mini_math_v2"]:
                 for k, v in data["results"].items():
                     if k != "all":
                         level = k.split("|")[1].split(":")[-1]
                         value = v["qem"]
                         df.loc[model_revision, f"{task}_{level}"] = value
-            # For kaggle_pot we report N metrics, one for each prompt and store each one as a separate row in the dataframe
-            elif task.lower() in ["aimo_kaggle_medium_pot"]:
-                for k, v in data["results"].items():
-                    if k != "all" and "_average" not in k:
-                        version = k.split("|")[1].split(":")[-1]
-                        value = v["qem"] if "qem" in v else v["score"]
-                        df.loc[model_revision, f"{task}_{version}"] = value
-            # For kaggle_pot we report N metrics, one for each prompt and store each one as a separate row in the dataframe
-            elif task.lower() in ["aimo_kaggle_hard_pot"]:
                 for k, v in data["results"].items():
                     if k != "all" and "_average" not in k:
                         version = k.split("|")[1].split(":")[-1]
                         value = v["qem"] if "qem" in v else v["score"]
                         df.loc[model_revision, f"{task}_{version}"] = value
-            # For kaggle_tora we report accuracy, so need  to divide by 100
             elif task.lower() in [
                 "aimo_tora_eval_kaggle_medium",
                 "aimo_tora_eval_kaggle_hard",
@@ -113,6 +100,10 @@ def get_leaderboard_df():
                 value = data["results"][first_result_key]["length_controlled_winrate"]
                 df.loc[model_revision, "Alpaca_eval_lc"] = value / 100.0
             else:
                 df.loc[model_revision, task] = float(value)
     # Drop rows where every entry is NaN
@@ -130,8 +121,10 @@ def get_leaderboard_df():
     return df
 leaderboard_df = get_leaderboard_df()
 def agg_df(df, agg: str = "max"):
     df = df.copy()
     # Drop date and aggregate results by model name
@@ -144,6 +137,7 @@ def agg_df(df, agg: str = "max"):
     df = df.sort_values(by=["Average"], ascending=False)
     return df
 # Function to update the table based on search query
 def filter_and_search(cols: list[str], search_query: str, agg: str):
     df = leaderboard_df

             elif task.lower() == "agieval":
                 value = data["results"]["all"]["acc_norm"]
             # MATH reports qem
+            elif task.lower() in ["math", "math_v2", "aimo_kaggle", "math_deepseek_cot", "math_deepseek_rl_cot"]:
                 value = data["results"]["all"]["qem"]
             # For mini_math we report 5 metrics, one for each level and store each one as a separate row in the dataframe
+            elif task.lower() in ["mini_math_v2"]:
                 for k, v in data["results"].items():
                     if k != "all":
                         level = k.split("|")[1].split(":")[-1]
                         value = v["qem"]
                         df.loc[model_revision, f"{task}_{level}"] = value
+            # For PoT we report N metrics, one for each prompt and store each one as a separate row in the dataframe
+            elif task.lower() in ["aimo_kaggle_medium_pot", "aimo_kaggle_hard_pot"]:
                 for k, v in data["results"].items():
                     if k != "all" and "_average" not in k:
                         version = k.split("|")[1].split(":")[-1]
                         value = v["qem"] if "qem" in v else v["score"]
                         df.loc[model_revision, f"{task}_{version}"] = value
+            # For kaggle_tora we report accuracy as a percentage, so need  to divide by 100
             elif task.lower() in [
                 "aimo_tora_eval_kaggle_medium",
                 "aimo_tora_eval_kaggle_hard",
                 value = data["results"][first_result_key]["length_controlled_winrate"]
                 df.loc[model_revision, "Alpaca_eval_lc"] = value / 100.0
             else:
+                first_metric_key = next(
+                    iter(data["results"][first_result_key])
+                )  # gets the first key in the first result
+                value = data["results"][first_result_key][first_metric_key]  # gets the value of the first metric
                 df.loc[model_revision, task] = float(value)
     # Drop rows where every entry is NaN
     return df
 leaderboard_df = get_leaderboard_df()
 def agg_df(df, agg: str = "max"):
     df = df.copy()
     # Drop date and aggregate results by model name
     df = df.sort_values(by=["Average"], ascending=False)
     return df
 # Function to update the table based on search query
 def filter_and_search(cols: list[str], search_query: str, agg: str):
     df = leaderboard_df