Spaces:

allenai
/

reward-bench

Running

App Files Files Community

natolambert commited on May 22

Commit

51d7804

1 Parent(s): 74240b0

updates

Browse files

Files changed (1) hide show

app.py +39 -11

app.py CHANGED Viewed

@@ -12,14 +12,6 @@ from leaderboard.css import custom_css
 from leaderboard.md import *
 from leaderboard.utils import load_all_data
-# get v1 data
-rb_orig_snapshot = pd.read_csv("leaderboard/final-rbv1-data.csv")
-# rename column "Unnamed: 0" to ""
-rb_orig_snapshot = rb_orig_snapshot.rename(columns={"Unnamed: 0": ""})
-# rb_orig_snapshot = rb_orig_snapshot.drop(columns=["Unnamed: 0", ''])
-rb_orig_snapshot.reset_index(drop=True, inplace=True)
-# import ipdb; ipdb.set_trace()
 #######################################################
 #                     Setup                           #
 #######################################################
@@ -153,18 +145,51 @@ def prep_df(df):
     return df
 rewardbench_data = load_all_data(repo_dir_rewardbench, subdir="eval-set").sort_values(by="average", ascending=False)
-rewardbench_data_avg = avg_over_rewardbench_v2(rewardbench_data).sort_values(by="average", ascending=False)
 # add count column to all dataframes
 rewardbench_data = prep_df(rewardbench_data)
 rewardbench_data_avg = prep_df(rewardbench_data_avg).rename(columns={"Average": "Score"})
 col_types_rewardbench = ["number"] + ["markdown"] + ["str"] + ["number"] * (len(rewardbench_data_avg.columns) - 1)
 col_types_rewardbench_v1 = ["number"] + ["markdown"] + ["str"] + ["number"] * (len(rb_orig_snapshot.columns) - 1)
 ###########################################
 # Leaderboard Helpers & Setting           #
 ###########################################
@@ -256,6 +281,9 @@ def regex_table(dataframe, regex, filter_button, style=True):
             update_scores = True
             # remove the column "Prior Sets (0.5 weight)" from the outputted table
             dataframe = dataframe.drop(columns=["Prior Sets (0.5 weight)"])
         if "Seq. Classifiers" not in filter_button:
             dataframe = dataframe[~dataframe["Model Type"].str.contains("Seq. Classifier", case=False, na=False)]
         if "DPO" not in filter_button:
@@ -354,7 +382,7 @@ with gr.Blocks(theme=theme, css=custom_css) as app:
                             show_label=False,
                         )
                         model_types_1 = gr.CheckboxGroup(
-                            ["Seq. Classifiers", "Custom Classifiers", "Generative"],
                             value=["Seq. Classifiers", "Custom Classifiers", "Generative"],
                             label="Model Types",
                             show_label=False,

 from leaderboard.md import *
 from leaderboard.utils import load_all_data
 #######################################################
 #                     Setup                           #
 #######################################################
     return df
+# get v1 data
+rb_orig_snapshot = pd.read_csv("leaderboard/final-rbv1-data.csv")
+# rename column "Unnamed: 0" to ""
+rb_orig_snapshot = rb_orig_snapshot.rename(columns={"Unnamed: 0": ""})
+# rb_orig_snapshot = rb_orig_snapshot.drop(columns=["Unnamed: 0", ''])
+rb_orig_snapshot.reset_index(drop=True, inplace=True)
 rewardbench_data = load_all_data(repo_dir_rewardbench, subdir="eval-set").sort_values(by="average", ascending=False)
+rewardbench_data_avg_intermediate = avg_over_rewardbench_v2(rewardbench_data.copy())
+# Prepare RBv1 scores for merging
+rb_v1_scores_to_merge = rb_orig_snapshot[['Model', 'Score']].copy()
+# if " ⚠️" in rb_v1_scores_to_merge["Model"].values, shorten the model name without it
+rb_v1_scores_to_merge["Model"] = rb_v1_scores_to_merge["Model"].str.replace(" ⚠️", "", regex=False)
+rb_v1_scores_to_merge.rename(columns={'Score': 'RBv1'}, inplace=True)
+# rename rb_v1 "Model" to "model"
+rb_v1_scores_to_merge.rename(columns={'Model': 'model'}, inplace=True)
+# Merge RBv1 scores into the v2 data
+rewardbench_data_avg = pd.merge(rewardbench_data_avg_intermediate, rb_v1_scores_to_merge, on='model', how='left')
+# Drop any models with only RBv1 scores and no v2 scores
+rewardbench_data_avg = rewardbench_data_avg.dropna(subset=['average'])
+# Sort by the v2 average
+rewardbench_data_avg = rewardbench_data_avg.sort_values(by="average", ascending=False)
 # add count column to all dataframes
 rewardbench_data = prep_df(rewardbench_data)
 rewardbench_data_avg = prep_df(rewardbench_data_avg).rename(columns={"Average": "Score"})
+# Ensure RBv1 is the last column if it's not already (merge usually places it at the end of non-key columns)
+# If 'RBv1' is present and not last, move it to be the last column.
+if 'RBv1' in rewardbench_data_avg.columns:
+    rbv1_col = rewardbench_data_avg.pop('RBv1')
+    rewardbench_data_avg['RBv1'] = rbv1_col
 col_types_rewardbench = ["number"] + ["markdown"] + ["str"] + ["number"] * (len(rewardbench_data_avg.columns) - 1)
 col_types_rewardbench_v1 = ["number"] + ["markdown"] + ["str"] + ["number"] * (len(rb_orig_snapshot.columns) - 1)
+# import ipdb; ipdb.set_trace()
 ###########################################
 # Leaderboard Helpers & Setting           #
 ###########################################
             update_scores = True
             # remove the column "Prior Sets (0.5 weight)" from the outputted table
             dataframe = dataframe.drop(columns=["Prior Sets (0.5 weight)"])
+        if "RBv1" not in filter_button and "RBv1" in dataframe.columns:
+            # remove the column "Prior Sets (0.5 weight)" from the outputted table
+            dataframe = dataframe.drop(columns=["RBv1"])
         if "Seq. Classifiers" not in filter_button:
             dataframe = dataframe[~dataframe["Model Type"].str.contains("Seq. Classifier", case=False, na=False)]
         if "DPO" not in filter_button:
                             show_label=False,
                         )
                         model_types_1 = gr.CheckboxGroup(
+                            ["Seq. Classifiers", "Custom Classifiers", "Generative", "RBv1"],
                             value=["Seq. Classifiers", "Custom Classifiers", "Generative"],
                             label="Model Types",
                             show_label=False,