Spaces:

per
/

benchbench

Sleeping

Yotam-Perlitz commited on Sep 5, 2024

Commit

f32be22

1 Parent(s): 363d8ae

remove HFv2 BBH Raw

Signed-off-by: Yotam-Perlitz <[email protected]>

Files changed (1) hide show

app.py CHANGED Viewed

@@ -75,8 +75,8 @@ with st.expander("Leaderboard configurations (defaults are great BTW)", icon="
         n_models_taken_list = st.slider(
             label="Select number of models to use",
             min_value=3,
-            max_value=20,
-            value=10,
         )
         n_models_taken_list = [n_models_taken_list]
@@ -140,7 +140,7 @@ def run_load(
     corr_types=["kendall"],
     n_exps=10,
     my_benchmark=Benchmark(),
-    use_caching=False,
 ):
     # Create a hash of the inputs to generate a unique cache file for each set of inputs
     input_str = (
@@ -182,13 +182,16 @@ def run_load(
         allbench = Benchmark()
         allbench.load_local_catalog()
         allbench.add_aggregate(
             new_col_name="aggregate",
             agg_source_name="aggregate",
             scenario_whitelist=aggregate_scenario_whitelist,
             min_scenario_for_models_to_appear_in_agg=1
             if len(aggregate_scenario_whitelist) == 1
-            else 2,
         )
         allbench.extend(my_benchmark)

         n_models_taken_list = st.slider(
             label="Select number of models to use",
             min_value=3,
+            max_value=15,
+            value=8,
         )
         n_models_taken_list = [n_models_taken_list]
     corr_types=["kendall"],
     n_exps=10,
     my_benchmark=Benchmark(),
+    use_caching=True,
 ):
     # Create a hash of the inputs to generate a unique cache file for each set of inputs
     input_str = (
         allbench = Benchmark()
         allbench.load_local_catalog()
+        scenarios_to_drop = ["HFv2 BBH Raw"]
+        allbench.df = allbench.df.query("scenario not in @scenarios_to_drop")
         allbench.add_aggregate(
             new_col_name="aggregate",
             agg_source_name="aggregate",
             scenario_whitelist=aggregate_scenario_whitelist,
             min_scenario_for_models_to_appear_in_agg=1
             if len(aggregate_scenario_whitelist) == 1
+            else len(aggregate_scenario_whitelist) // 2,
         )
         allbench.extend(my_benchmark)