Spaces:

AssistantBench
/

leaderboard

Running

samuelam commited on Jul 22, 2024

Commit

78bcf13

verified ·

1 Parent(s): 7ec3506

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -109,6 +109,8 @@ def add_new_eval(
     difficulty_scores = {"Easy": 0, "Medium": 0, "Hard": 0}
     difficulty_counts = {"Easy": 0, "Medium": 0, "Hard": 0}
     with open(f"scored/{organization}_{model_name}.jsonl", "w") as scored_file:
         with open(file_path, 'r') as f:
             for ix, line in enumerate(f):
@@ -139,6 +141,8 @@ def add_new_eval(
                     }) + "\n"
                 )
                 scores += score
                 num_questions += 1
                 difficulty_scores[difficulty] += score
@@ -156,10 +160,10 @@ def add_new_eval(
         token=TOKEN
     )
-    accuracy = float("{:.1f}".format(np.average([x["acc"] for x in scored_file]) * 100))
-    coverage = float("{:.1f}".format(np.average([x["has_ans"] for x in scored_file])))
-    em = float("{:.1f}".format(np.average([1 if x["acc"] == 1 else 0 for x in scored_file])))
-    precision = float("{:.1f}".format(np.average([x["acc"] for x in scored_file if x["has_ans"] == 1])))
     eval_entry = {
         "Model Name": model_name,

     difficulty_scores = {"Easy": 0, "Medium": 0, "Hard": 0}
     difficulty_counts = {"Easy": 0, "Medium": 0, "Hard": 0}
+    all_scores = list()
     with open(f"scored/{organization}_{model_name}.jsonl", "w") as scored_file:
         with open(file_path, 'r') as f:
             for ix, line in enumerate(f):
                     }) + "\n"
                 )
+                all_scores.append({"score": score, "has_ans": has_ans})
                 scores += score
                 num_questions += 1
                 difficulty_scores[difficulty] += score
         token=TOKEN
     )
+    accuracy = float("{:.1f}".format(np.average([x["acc"] for x in all_scores]) * 100))
+    coverage = float("{:.1f}".format(np.average([x["has_ans"] for x in all_scores])))
+    em = float("{:.1f}".format(np.average([1 if x["acc"] == 1 else 0 for x in all_scores])))
+    precision = float("{:.1f}".format(np.average([x["acc"] for x in all_scores if x["has_ans"] == 1])))
     eval_entry = {
         "Model Name": model_name,