leaderboard2

Sleeping

hSterz commited on Sep 11, 2024

Commit

a0b0f73

1 Parent(s): 8fdc857

dfs

Files changed (2) hide show

app.py CHANGED Viewed

@@ -50,6 +50,7 @@ except Exception:
 LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 (
     finished_eval_queue_df,
@@ -86,7 +87,7 @@ with demo:
             leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=1):
-            leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table-n-correct", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

 LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
+LEADERBOARD_DF_N_CORRECT = get_leaderboard_df(EVAL_RESULTS_PATH, EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS, version="n_correct")
 (
     finished_eval_queue_df,
             leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("🏅 LLM Benchmark", elem_id="llm-benchmark-tab-table", id=1):
+            leaderboard = init_leaderboard(LEADERBOARD_DF_N_CORRECT)
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table-n-correct", id=2):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

src/populate.py CHANGED Viewed

@@ -8,9 +8,9 @@ from src.display.utils import AutoEvalColumn, EvalQueueColumn
 from src.leaderboard.read_evals import get_raw_eval_results
-def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
-    raw_data = get_raw_eval_results(results_path, requests_path)
     all_data_json = [v.to_dict() for v in raw_data]
     print(all_data_json)

 from src.leaderboard.read_evals import get_raw_eval_results
+def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list, version="1_correct") -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
+    raw_data = get_raw_eval_results(results_path+"/"+version, requests_path)
     all_data_json = [v.to_dict() for v in raw_data]
     print(all_data_json)