Spaces:

cc4718
/

FailureSensorIQ

Running

[email protected] commited on Apr 26

Commit

e83e5e0

1 Parent(s): 2d95777

udpate

Files changed (2) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -109,7 +109,7 @@ class EvalResult:
     def to_dict(self, task_class):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
-        average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,

     def to_dict(self, task_class):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
+        average = sum([v for v in self.results.values() if v is not None]) / len(task_class)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,

src/populate.py CHANGED Viewed

@@ -4,7 +4,7 @@ import os
 import pandas as pd
 from src.display.formatting import has_no_nan_values, make_clickable_model
-from src.display.utils import AutoEvalColumnAsset, EvalQueueColumn
 from src.leaderboard.read_evals import get_raw_eval_results
@@ -17,7 +17,7 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     df = pd.DataFrame.from_records(all_data_json)
     print(df)
-    df = df.sort_values(by=[AutoEvalColumnAsset.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced

 import pandas as pd
 from src.display.formatting import has_no_nan_values, make_clickable_model
+from src.display.utils import AutoEvalColumn, EvalQueueColumn
 from src.leaderboard.read_evals import get_raw_eval_results
     df = pd.DataFrame.from_records(all_data_json)
     print(df)
+    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced