Spaces:

TheFinAI
/

open-finllm-reasoning-leaderboard

Running

App Files Files Community

Xueqing commited on Feb 12

Commit

ac1edfa

1 Parent(s): d13cc61

fix: bugs

Browse files

Files changed (5) hide show

app.py +13 -13
model_performance.csv +19 -19
src/about.py +3 -3
src/display/utils.py +10 -10
src/populate.py +7 -10

app.py CHANGED Viewed

@@ -68,21 +68,21 @@ def init_leaderboard(dataframe):
             cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
             label="Select Columns to Display:",
         ),
-        search_columns=[AutoEvalColumn.model.name, AutoEvalColumn.license.name],
         hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
-            ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
-            ColumnFilter(
-                AutoEvalColumn.params.name,
-                type="slider",
-                min=0.01,
-                max=150,
-                label="Select the number of parameters (B)",
-            ),
-            ColumnFilter(
-                AutoEvalColumn.still_on_hub.name, type="boolean", label="Deleted/incomplete", default=True
-            ),
         ],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
@@ -201,4 +201,4 @@ with demo:
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)
 scheduler.start()
-demo.queue(default_concurrency_limit=40).launch()

             cant_deselect=[c.name for c in fields(AutoEvalColumn) if c.never_hidden],
             label="Select Columns to Display:",
         ),
+        search_columns=[AutoEvalColumn.model.name],
         hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
         filter_columns=[
             ColumnFilter(AutoEvalColumn.model_type.name, type="checkboxgroup", label="Model types"),
+            # ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
+            # ColumnFilter(
+            #     AutoEvalColumn.params.name,
+            #     type="slider",
+            #     min=0.01,
+            #     max=150,
+            #     label="Select the number of parameters (B)",
+            # ),
+            # ColumnFilter(
+            #     AutoEvalColumn.still_on_hub.name, type="boolean", label="Deleted/incomplete", default=True
+            # ),
         ],
         bool_checkboxgroup_label="Hide models",
         interactive=False,
 scheduler = BackgroundScheduler()
 scheduler.add_job(restart_space, "interval", seconds=1800)
 scheduler.start()
+demo.queue(default_concurrency_limit=40).launch()

model_performance.csv CHANGED Viewed

@@ -1,19 +1,19 @@
-models,finqa,dm-simplong,xbrl-math
-4o,72.49,60.0,72.22
-o1,49.07,56.0,74.44
-o3-mini,60.87,59.0,76.67
-v3,73.2,53.0,76.67
-r1,65.13,53.0,86.67
-deepseek-70b,66.73,53.0,86.67
-llama3-70B-instruct,58.92,41.0,56.67
-llama31-70B-instruct,63.18,48.0,63.33
-llama33-70B-instruct,68.15,54.0,70.0
-deepseek-32b,65.48,55.0,84.44
-deepseek-14b,63.27,44.0,84.44
-deepseek-8b,45.96,33.0,81.11
-llama3 8b-instruct,41.97,29.0,48.89
-llama31 8b-instruct,54.13,34.0,62.22
-Qwen2.5-32B-Instruct,,,
-Qwen2.5-72B-Instruct,73.38,59.0,67.78
-Qwen2.5-72B-Instruct-math,69.74,42.0,83.33
-Fino1-8B,60.87,40.0,82.22

+Model,Type,finqa,dm-simplong,xbrl-math
+4o,instruction-tuned,72.49,60.0,72.22
+o1,instruction-tuned,49.07,56.0,74.44
+o3-mini,instruction-tuned,60.87,59.0,76.67
+v3,instruction-tuned,73.2,53.0,76.67
+r1,instruction-tuned,65.13,53.0,86.67
+deepseek-70b,instruction-tuned,66.73,53.0,86.67
+llama3-70B-instruct,instruction-tuned,58.92,41.0,56.67
+llama31-70B-instruct,instruction-tuned,63.18,48.0,63.33
+llama33-70B-instruct,instruction-tuned,68.15,54.0,70.0
+deepseek-32b,instruction-tuned,65.48,55.0,84.44
+deepseek-14b,instruction-tuned,63.27,44.0,84.44
+deepseek-8b,instruction-tuned,45.96,33.0,81.11
+llama3 8b-instruct,instruction-tuned,41.97,29.0,48.89
+llama31 8b-instruct,instruction-tuned,54.13,34.0,62.22
+Qwen2.5-32B-Instruct,instruction-tuned,,,
+Qwen2.5-72B-Instruct,instruction-tuned,73.38,59.0,67.78
+Qwen2.5-72B-Instruct-math,instruction-tuned,69.74,42.0,83.33
+Fino1-8B,instruction-tuned,60.87,40.0,82.22

src/about.py CHANGED Viewed

@@ -12,9 +12,9 @@ class Task:
 # ---------------------------------------------------
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
-    task0 = Task("anli_ri", "acc", "ANLI")
-    task1 = Task("logiqa", "acc_norm", "LogiQA")
 NUM_FEWSHOT = 0 # Change with your few shot
 # ---------------------------------------------------

 # ---------------------------------------------------
 class Tasks(Enum):
     # task_key in the json file, metric_key in the json file, name to display in the leaderboard
+    task0 = Task("FinQA", "acc", "finqa")
+    task1 = Task("DM-SimpLong", "acc", "dm-simplong")
+    task2 = Task("XBRL-math", "acc", "xbrl-math")
 NUM_FEWSHOT = 0 # Change with your few shot
 # ---------------------------------------------------

src/display/utils.py CHANGED Viewed

@@ -23,22 +23,22 @@ class ColumnContent:
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
-auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
-auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
-auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
-auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
-auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
-auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
-auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
+# auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
+# auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for task in Tasks:
     auto_eval_column_dict.append([task.name, ColumnContent, ColumnContent(task.value.col_name, "number", True)])
 # Model information
 auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
+# auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
+# auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
+# auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
+# auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
+# auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
+# auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
+# auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
+# auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)

src/populate.py CHANGED Viewed

@@ -10,18 +10,15 @@ from src.leaderboard.read_evals import get_raw_eval_results
 def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
-    raw_data = get_raw_eval_results(results_path, requests_path)
-    all_data_json = [v.to_dict() for v in raw_data]
-    df = pd.DataFrame.from_records(all_data_json)
-    # df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
-    # df = df[cols].round(decimals=2)
-    #filter out if any of the benchmarks have not been produced
-    import os
-    print(os.getcwd())  # 获取并打印当前工作目录
-    df = df[has_no_nan_values(df, benchmark_cols)] #pd.read_csv('model_performance.csv')#
     print(df)
     return df

 def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
+    # raw_data = get_raw_eval_results(results_path, requests_path)
+    # all_data_json = [v.to_dict() for v in raw_data]
+    # df = pd.DataFrame.from_records(all_data_json)
+    df = pd.read_csv('model_performance.csv')
+    df = df.dropna()
+    # filter out if any of the benchmarks have not been produced
+    # df = df[has_no_nan_values(df, benchmark_cols)] #pd.read_csv('model_performance.csv')#
     print(df)
     return df