Spaces:

dtcxzyw
/

llvm-apr-benchmark-leaderboard

Running

App Files Files Community

dtcxzyw commited on Feb 7

Commit

f19f8d1

unverified ·

1 Parent(s): 171faf6

Update

Browse files

Files changed (3) hide show

app.py +1 -2
src/display/utils.py +17 -64
src/populate.py +2 -6

app.py CHANGED Viewed

@@ -14,7 +14,6 @@ from src.about import (
 )
 from src.display.css_html_js import custom_css
 from src.display.utils import (
-    BENCHMARK_COLS,
     COLS,
     AutoEvalColumn,
     fields,
@@ -42,7 +41,7 @@ except Exception:
     restart_space()
 total_issues = load_dataset("dtcxzyw/llvm-apr-benchmark").num_rows["test"]
-LEADERBOARD_DF = get_leaderboard_df(EVAL_REQUESTS_PATH, COLS, BENCHMARK_COLS)
 def init_leaderboard(dataframe):

 )
 from src.display.css_html_js import custom_css
 from src.display.utils import (
     COLS,
     AutoEvalColumn,
     fields,
     restart_space()
 total_issues = load_dataset("dtcxzyw/llvm-apr-benchmark").num_rows["test"]
+LEADERBOARD_DF = get_leaderboard_df(EVAL_REQUESTS_PATH, COLS)
 def init_leaderboard(dataframe):

src/display/utils.py CHANGED Viewed

@@ -3,7 +3,6 @@ from enum import Enum
 import pandas as pd
-from src.about import Tasks
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
@@ -20,75 +19,29 @@ class ColumnContent:
     hidden: bool = False
     never_hidden: bool = False
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
-auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
-auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
-#Scores
-auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
-# Model information
-auto_eval_column_dict.append(["model_type", ColumnContent, ColumnContent("Type", "str", False)])
-auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
-auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
-auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
-auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
-auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
-auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
-auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)
-## All the model information that we might need
-@dataclass
-class ModelDetails:
-    name: str
-    display_name: str = ""
-    symbol: str = "" # emoji
-class ModelType(Enum):
-    PT = ModelDetails(name="pretrained", symbol="🟢")
-    FT = ModelDetails(name="fine-tuned", symbol="🔶")
-    IFT = ModelDetails(name="instruction-tuned", symbol="⭕")
-    RL = ModelDetails(name="RL-tuned", symbol="🟦")
-    Unknown = ModelDetails(name="", symbol="?")
-    def to_str(self, separator=" "):
-        return f"{self.value.symbol}{separator}{self.value.name}"
-    @staticmethod
-    def from_str(type):
-        if "fine-tuned" in type or "🔶" in type:
-            return ModelType.FT
-        if "pretrained" in type or "🟢" in type:
-            return ModelType.PT
-        if "RL-tuned" in type or "🟦" in type:
-            return ModelType.RL
-        if "instruction-tuned" in type or "⭕" in type:
-            return ModelType.IFT
-        return ModelType.Unknown
-class WeightType(Enum):
-    Adapter = ModelDetails("Adapter")
-    Original = ModelDetails("Original")
-    Delta = ModelDetails("Delta")
-class Precision(Enum):
-    float16 = ModelDetails("float16")
-    bfloat16 = ModelDetails("bfloat16")
-    Unknown = ModelDetails("?")
-    def from_str(precision):
-        if precision in ["torch.float16", "float16"]:
-            return Precision.float16
-        if precision in ["torch.bfloat16", "bfloat16"]:
-            return Precision.bfloat16
-        return Precision.Unknown
 # Column selection
 COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]
-BENCHMARK_COLS = [t.value.col_name for t in Tasks]

 import pandas as pd
 def fields(raw_class):
     return [v for k, v in raw_class.__dict__.items() if k[:2] != "__" and k[-2:] != "__"]
     hidden: bool = False
     never_hidden: bool = False
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
+auto_eval_column_dict.append(
+    ["method_name", ColumnContent, ColumnContent("Method", "markdown", True, never_hidden=True)]
+)
+auto_eval_column_dict.append(["model_name", ColumnContent, ColumnContent("Model", "markdown", True)])
+# Scores
+auto_eval_column_dict.append(["full_pass_count", ColumnContent, ColumnContent("Repaired ⬆️", "number", True)])
+auto_eval_column_dict.append(["fast_pass_count", ColumnContent, ColumnContent("Repaired (Fast)", "number", True)])
+auto_eval_column_dict.append(["with_hint", ColumnContent, ColumnContent("Repair with hint", "bool", True)])
+auto_eval_column_dict.append(["attempts", ColumnContent, ColumnContent("Number of attempts", "number", True)])
+auto_eval_column_dict.append(
+    ["full_pass_count_crash", ColumnContent, ColumnContent("Repaired (Crash)", "number", True)]
+)
+auto_eval_column_dict.append(
+    ["full_pass_count_miscompilation", ColumnContent, ColumnContent("Repaired (Miscompilation)", "number", True)]
+)
+auto_eval_column_dict.append(["full_pass_count_hang", ColumnContent, ColumnContent("Repaired (Hang)", "number", True)])
 # We use make dataclass to dynamically fill the scores from Tasks
 AutoEvalColumn = make_dataclass("AutoEvalColumn", auto_eval_column_dict, frozen=True)
 # Column selection
 COLS = [c.name for c in fields(AutoEvalColumn) if not c.hidden]

src/populate.py CHANGED Viewed

@@ -3,20 +3,16 @@ import os
 import pandas as pd
-from src.display.formatting import has_no_nan_values
 from src.display.utils import AutoEvalColumn
 from src.leaderboard.read_evals import get_raw_eval_results
-def get_leaderboard_df(requests_path: str, cols: list, benchmark_cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     raw_data = get_raw_eval_results(requests_path)
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
-    df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
-    # filter out if any of the benchmarks have not been produced
-    df = df[has_no_nan_values(df, benchmark_cols)]
     return df

 import pandas as pd
 from src.display.utils import AutoEvalColumn
 from src.leaderboard.read_evals import get_raw_eval_results
+def get_leaderboard_df(requests_path: str, cols: list) -> pd.DataFrame:
     """Creates a dataframe from all the individual experiment results"""
     raw_data = get_raw_eval_results(requests_path)
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
+    df = df.sort_values(by=[AutoEvalColumn.full_pass_count.name], ascending=False)
     df = df[cols].round(decimals=2)
     return df