Spaces:

RMT-team
/

babilong

Running

booydar commited on Apr 26

Commit

4821c71

1 Parent(s): 275a638

add 10M results & prettify naming & do not display models with few evals on the avg tab

Files changed (2) hide show

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ def draw_leaderboard():
     df = load_results()
     tasks = ['avg'] + [f"qa{i}" for i in range(1, 11)]
-    columns = ["model_name", "<=32k", "<=128k"] + LENGTHS
     st.title("🔎📚🪡📚❓ BABILong Leaderboard 🏆")
     st.markdown(PAGE_INFO)
@@ -25,6 +25,9 @@ def draw_leaderboard():
     for i, tab in enumerate(tabs):
         with tab:
             task_df = df[df.task == tasks[i]][columns]
             if search_term:
                 task_df = task_df[task_df['model_name'].str.contains(search_term, case=False)]
@@ -37,7 +40,7 @@ def draw_leaderboard():
             st.dataframe(
                 styled_df,
-                width=1030,
                 height=height,
             )

     df = load_results()
     tasks = ['avg'] + [f"qa{i}" for i in range(1, 11)]
+    columns = ["model_name", "≤32k", "≤128k"] + LENGTHS
     st.title("🔎📚🪡📚❓ BABILong Leaderboard 🏆")
     st.markdown(PAGE_INFO)
     for i, tab in enumerate(tabs):
         with tab:
             task_df = df[df.task == tasks[i]][columns]
+            if i == 0:  # do not dispay models with no evals ≤1k for avg task
+                print(task_df.loc[task_df[task_df.columns[:5]].isna().any(axis=1)])
+                task_df = task_df.loc[~task_df[task_df.columns[:5]].isna().any(axis=1)]
             if search_term:
                 task_df = task_df[task_df['model_name'].str.contains(search_term, case=False)]
             st.dataframe(
                 styled_df,
+                width=1100,
                 height=height,
             )

draw_utils.py CHANGED Viewed

@@ -16,7 +16,7 @@ PAGE_MARKDOWN = """
 PAGE_INFO = """[![Dataset on HF](https://huggingface.co/datasets/huggingface/badges/resolve/main/dataset-on-hf-lg.svg)](https://huggingface.co/datasets/RMT-team/babilong) | [GitHub](https://github.com/booydar/babilong) | [Paper](https://arxiv.org/abs/2406.10149) | [HF Dataset](https://huggingface.co/datasets/RMT-team/babilong) | [HF Dataset 1k samples per task](https://huggingface.co/datasets/RMT-team/babilong-1k-samples) |"""
-LENGTHS = ['0k', '1k', '2k', '4k', '8k', '16k', '32k', '64k', '128k', '512k', '1M', '2M']
 LENGTHS_32k = ['0k', '1k', '2k', '4k', '8k', '16k', '32k']
 LENGTHS_128k = ['0k', '1k', '2k', '4k', '8k', '16k', '32k', '64k', '128k']
@@ -41,8 +41,8 @@ def load_results():
     res.drop('normalized_name', axis=1, inplace=True)
     res.replace(-1, np.nan, inplace=True)
-    res['<=32k'] = res[LENGTHS_32k].mean(axis=1)
-    res['<=128k'] = res[LENGTHS_128k].mean(axis=1)
     # Calculate the maximum length with non-NaN values for each model
     res['max_eval_length_idx'] = res.apply(
@@ -50,7 +50,7 @@ def load_results():
     res['max_eval_length'] = res['max_eval_length_idx'].apply(lambda x: LENGTHS[x])
     # Sort first by max length (descending) and then by average score (descending)
-    res.sort_values(['max_eval_length_idx', '<=128k'], ascending=[False, False], inplace=True)
     return res

 PAGE_INFO = """[![Dataset on HF](https://huggingface.co/datasets/huggingface/badges/resolve/main/dataset-on-hf-lg.svg)](https://huggingface.co/datasets/RMT-team/babilong) | [GitHub](https://github.com/booydar/babilong) | [Paper](https://arxiv.org/abs/2406.10149) | [HF Dataset](https://huggingface.co/datasets/RMT-team/babilong) | [HF Dataset 1k samples per task](https://huggingface.co/datasets/RMT-team/babilong-1k-samples) |"""
+LENGTHS = ['0k', '1k', '2k', '4k', '8k', '16k', '32k', '64k', '128k', '512k', '1M', '2M', '10M']
 LENGTHS_32k = ['0k', '1k', '2k', '4k', '8k', '16k', '32k']
 LENGTHS_128k = ['0k', '1k', '2k', '4k', '8k', '16k', '32k', '64k', '128k']
     res.drop('normalized_name', axis=1, inplace=True)
     res.replace(-1, np.nan, inplace=True)
+    res['≤32k'] = res[LENGTHS_32k].mean(axis=1)
+    res['≤128k'] = res[LENGTHS_128k].mean(axis=1)
     # Calculate the maximum length with non-NaN values for each model
     res['max_eval_length_idx'] = res.apply(
     res['max_eval_length'] = res['max_eval_length_idx'].apply(lambda x: LENGTHS[x])
     # Sort first by max length (descending) and then by average score (descending)
+    res.sort_values(['max_eval_length_idx', '≤128k'], ascending=[False, False], inplace=True)
     return res