eval-leaderboard

Running

xeon27 commited on Jan 20

Commit

e004342

1 Parent(s): 0dddab1

Add tmp code

Files changed (1) hide show

refactor_eval_results.py CHANGED Viewed

@@ -70,6 +70,10 @@ def main():
     for model_name in os.listdir(base_bm_input_path):
         if os.path.isdir(os.path.join(base_bm_input_path, model_name)):
             results = combine_eval_results(base_bm_input_path, model_name)
         if os.path.isdir(os.path.join(agentic_bm_input_path, model_name)):
             agentic_bm_results = combine_eval_results(agentic_bm_input_path, model_name)
             results["results"].update(agentic_bm_results["results"])

     for model_name in os.listdir(base_bm_input_path):
         if os.path.isdir(os.path.join(base_bm_input_path, model_name)):
             results = combine_eval_results(base_bm_input_path, model_name)
+        # TMP: Add dummy agentic benchmarks to the results
+        for metric in METRIC_NAME.items():
+            if metric[0] not in results["results"]:
+                results["results"].update({metric[0]: {metric[1]: -1.0}})
         if os.path.isdir(os.path.join(agentic_bm_input_path, model_name)):
             agentic_bm_results = combine_eval_results(agentic_bm_input_path, model_name)
             results["results"].update(agentic_bm_results["results"])