Spaces:

SE-Arena
/

Software-Engineering-Arena

Running

App Files Files Community

zhiminy commited on Apr 15

Commit

5c3511e

1 Parent(s): 19a995e

use consistency score instead

Browse files

Files changed (1) hide show

app.py +10 -10

app.py CHANGED Viewed

@@ -366,7 +366,7 @@ def get_leaderboard_data(feedback_entry=None):
                 "Rank",
                 "Model",
                 "Elo Score",
-                "Instability Score",
                 "Average Win Rate",
                 "Bradley-Terry Coefficient",
                 "Eigenvector Centrality Value",
@@ -404,7 +404,7 @@ def get_leaderboard_data(feedback_entry=None):
         feedback_df["left"], feedback_df["right"], feedback_df["winner"]
     )
-    # Calculate instability score as a pandas Series aligned with other metrics
     is_result = pd.Series(0.0, index=elo_result.scores.index)  # Initialize with zeros using same index
     # Loop through models and update values
@@ -414,20 +414,20 @@ def get_leaderboard_data(feedback_entry=None):
             (feedback_df["left"] == model) &
             (feedback_df["right"] == model)
         ]
-        total = len(self_matches)
-        if total:
             # Count non-draw outcomes (wins or losses)
-            non_draws = self_matches[self_matches["winner"] != evalica.Winner.Draw].shape[0]
             # Store as percentage directly
-            is_result[model] = non_draws / total
     # Combine all results into a single DataFrame
     leaderboard_data = pd.DataFrame(
         {
             "Model": elo_result.scores.index,
             "Elo Score": elo_result.scores.values,
-            "Instability Score": is_result.values * 100,
             "Average Win Rate": avr_result.scores.values * 100,
             "Bradley-Terry Coefficient": bt_result.scores.values,
             "Eigenvector Centrality Value": eigen_result.scores.values,
@@ -440,7 +440,7 @@ def get_leaderboard_data(feedback_entry=None):
     leaderboard_data = leaderboard_data.round(
         {
             "Elo Score": 2,
-            "Instability Score": 2,
             "Average Win Rate": 2,
             "Bradley-Terry Coefficient": 2,
             "Eigenvector Centrality Value": 2,
@@ -492,12 +492,12 @@ with gr.Blocks() as app:
                 "Rank",
                 "Model",
                 "Elo Score",
-                "Instability Score",
             ],
             search_columns=["Model"],
             filter_columns=[
                 "Elo Score",
-                "Instability Score",
                 "Average Win Rate",
                 "Bradley-Terry Coefficient",
                 "Eigenvector Centrality Value",

                 "Rank",
                 "Model",
                 "Elo Score",
+                "Consistency Score",
                 "Average Win Rate",
                 "Bradley-Terry Coefficient",
                 "Eigenvector Centrality Value",
         feedback_df["left"], feedback_df["right"], feedback_df["winner"]
     )
+    # Calculate consistency score as a pandas Series aligned with other metrics
     is_result = pd.Series(0.0, index=elo_result.scores.index)  # Initialize with zeros using same index
     # Loop through models and update values
             (feedback_df["left"] == model) &
             (feedback_df["right"] == model)
         ]
+        totals = len(self_matches)
+        if totals:
             # Count non-draw outcomes (wins or losses)
+            draws = self_matches[self_matches["winner"] == evalica.Winner.Draw].shape[0]
             # Store as percentage directly
+            is_result[model] = draws / totals
     # Combine all results into a single DataFrame
     leaderboard_data = pd.DataFrame(
         {
             "Model": elo_result.scores.index,
             "Elo Score": elo_result.scores.values,
+            "Consistency Score": is_result.values * 100,
             "Average Win Rate": avr_result.scores.values * 100,
             "Bradley-Terry Coefficient": bt_result.scores.values,
             "Eigenvector Centrality Value": eigen_result.scores.values,
     leaderboard_data = leaderboard_data.round(
         {
             "Elo Score": 2,
+            "Consistency Score": 2,
             "Average Win Rate": 2,
             "Bradley-Terry Coefficient": 2,
             "Eigenvector Centrality Value": 2,
                 "Rank",
                 "Model",
                 "Elo Score",
+                "Consistency Score",
             ],
             search_columns=["Model"],
             filter_columns=[
                 "Elo Score",
+                "Consistency Score",
                 "Average Win Rate",
                 "Bradley-Terry Coefficient",
                 "Eigenvector Centrality Value",