leaderboard2

Sleeping

hSterz commited on Sep 12, 2024

Commit

31b5122

1 Parent(s): f785497

Add 1_correct_var

Files changed (1) hide show

app.py CHANGED Viewed

@@ -55,7 +55,7 @@ except Exception:
 LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 LEADERBOARD_DF_N_CORRECT = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS, version="n_correct")
 (
     finished_eval_queue_df,
     running_eval_queue_df,
@@ -98,6 +98,9 @@ with demo:
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 1 Correct", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("🏅 N Correct", elem_id="llm-benchmark-tab-table", id=1):
             leaderboard = init_leaderboard(LEADERBOARD_DF_N_CORRECT)

 LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 LEADERBOARD_DF_N_CORRECT = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS, version="n_correct")
+LEADERBOARD_DF_1_CORRECT_VAR = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS, version="1_correct_var")
 (
     finished_eval_queue_df,
     running_eval_queue_df,
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 1 Correct", elem_id="llm-benchmark-tab-table", id=0):
             leaderboard = init_leaderboard(LEADERBOARD_DF)
+        with gr.TabItem("🏅 1 Correct with Option Variations", elem_id="llm-benchmark-tab-table", id=4):
+            leaderboard = init_leaderboard(LEADERBOARD_DF_1_CORRECT_VAR)
         with gr.TabItem("🏅 N Correct", elem_id="llm-benchmark-tab-table", id=1):
             leaderboard = init_leaderboard(LEADERBOARD_DF_N_CORRECT)