Spaces:

silma-ai
/

Arabic-LLM-Broad-Leaderboard

Running

App Files Files Community

karimouda commited on Apr 21

Commit

eec2226

1 Parent(s): 8be92b7

Rank + others

Browse files

Files changed (5) hide show

app.py +1 -11
results/open-ai/chatgpt-3.5-turbo_results_2025-04-21 16:28:50.730625.json +1 -1
src/display/utils.py +5 -3
src/leaderboard/read_evals.py +6 -3
src/populate.py +6 -2

app.py CHANGED Viewed

@@ -75,17 +75,7 @@ def init_leaderboard(dataframe):
             ColumnFilter(AutoEvalColumn.model_source.name, type="checkboxgroup", label="Model Source"),
             ColumnFilter(AutoEvalColumn.model_category.name, type="checkboxgroup", label="Model Category"),
-            #ColumnFilter(AutoEvalColumn.precision.name, type="checkboxgroup", label="Precision"),
-            ColumnFilter(
-                AutoEvalColumn.params.name,
-                type="slider",
-                min=0.01,
-                max=150,
-                label="Select the number of parameters (B)",
-            ),
-            #ColumnFilter(
-            #    AutoEvalColumn.still_on_hub.name, type="boolean", label="Deleted/incomplete", default=True
-            #),
         ],
         bool_checkboxgroup_label="Hide models",
         interactive=True,

             ColumnFilter(AutoEvalColumn.model_source.name, type="checkboxgroup", label="Model Source"),
             ColumnFilter(AutoEvalColumn.model_category.name, type="checkboxgroup", label="Model Category"),
         ],
         bool_checkboxgroup_label="Hide models",
         interactive=True,

results/open-ai/chatgpt-3.5-turbo_results_2025-04-21 16:28:50.730625.json CHANGED Viewed

@@ -30,7 +30,7 @@
     "model_sha": "NA",
     "submitted_time": "2025-04-21 16:28:38",
     "likes": -1,
-    "params": 1000,
     "license": "closed",
     "model_source": "API",
     "model_category": "Large"

     "model_sha": "NA",
     "submitted_time": "2025-04-21 16:28:38",
     "likes": -1,
+    "params": 999,
     "license": "closed",
     "model_source": "API",
     "model_category": "Large"

src/display/utils.py CHANGED Viewed

@@ -23,6 +23,8 @@ class ColumnContent:
 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
 auto_eval_column_dict.append(["model_source", ColumnContent, ColumnContent("Source", "str", True, False)])
 auto_eval_column_dict.append(["model_category", ColumnContent, ColumnContent("Category", "str", True, False)])
@@ -30,7 +32,7 @@ auto_eval_column_dict.append(["model_category", ColumnContent, ColumnContent("Ca
 #auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
-auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average ⬆️", "number", True)])
 for eval_dim in EvalDimensions:
     auto_eval_column_dict.append([eval_dim.name, ColumnContent, ColumnContent(eval_dim.value.col_name, "number", True)])
 # Model information
@@ -39,9 +41,9 @@ for eval_dim in EvalDimensions:
 #auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 #auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
 #auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
-auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("Hub License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
-auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Hub ❤️", "number", False)])
 #auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
 #auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])

 ## Leaderboard columns
 auto_eval_column_dict = []
 # Init
+auto_eval_column_dict.append(["rank", ColumnContent, ColumnContent("Rank", "str", True, False)])
 auto_eval_column_dict.append(["model_source", ColumnContent, ColumnContent("Source", "str", True, False)])
 auto_eval_column_dict.append(["model_category", ColumnContent, ColumnContent("Category", "str", True, False)])
 #auto_eval_column_dict.append(["model_type_symbol", ColumnContent, ColumnContent("T", "str", True, never_hidden=True)])
 auto_eval_column_dict.append(["model", ColumnContent, ColumnContent("Model", "markdown", True, never_hidden=True)])
 #Scores
+auto_eval_column_dict.append(["average", ColumnContent, ColumnContent("Average", "number", True)])
 for eval_dim in EvalDimensions:
     auto_eval_column_dict.append([eval_dim.name, ColumnContent, ColumnContent(eval_dim.value.col_name, "number", True)])
 # Model information
 #auto_eval_column_dict.append(["architecture", ColumnContent, ColumnContent("Architecture", "str", False)])
 #auto_eval_column_dict.append(["weight_type", ColumnContent, ColumnContent("Weight type", "str", False, True)])
 #auto_eval_column_dict.append(["precision", ColumnContent, ColumnContent("Precision", "str", False)])
+auto_eval_column_dict.append(["license", ColumnContent, ColumnContent("License", "str", False)])
 auto_eval_column_dict.append(["params", ColumnContent, ColumnContent("#Params (B)", "number", False)])
+auto_eval_column_dict.append(["likes", ColumnContent, ColumnContent("Popularity (Likes)", "number", False)])
 #auto_eval_column_dict.append(["still_on_hub", ColumnContent, ColumnContent("Available on the hub", "bool", False)])
 #auto_eval_column_dict.append(["revision", ColumnContent, ColumnContent("Model sha", "str", False, False)])

src/leaderboard/read_evals.py CHANGED Viewed

@@ -88,6 +88,9 @@ class EvalResult:
             model=model,
             model_source=config.get("model_source", ""),
             model_category=config.get("model_category", ""),
             results=results,
             #precision=precision,
             #revision= config.get("model_sha", ""),
@@ -104,9 +107,9 @@ class EvalResult:
             #self.model_type = ModelType.from_str(request.get("model_type", ""))
             #self.weight_type = WeightType[request.get("weight_type", "Original")]
-            self.license = request.get("license", "?")
-            self.likes = request.get("likes", 0)
-            self.num_params = request.get("params", 0)
             self.date = request.get("submitted_time", "")
         except Exception:
             print(f"Could not find request file for {self.org}/{self.model}") # with precision {self.precision.value.name}

             model=model,
             model_source=config.get("model_source", ""),
             model_category=config.get("model_category", ""),
+            num_params=config.get("params", 0),
+            license=config.get("license", "?"),
+            likes=config.get("likes", -1),
             results=results,
             #precision=precision,
             #revision= config.get("model_sha", ""),
             #self.model_type = ModelType.from_str(request.get("model_type", ""))
             #self.weight_type = WeightType[request.get("weight_type", "Original")]
+            #self.license = request.get("license", "?")
+            #self.likes = request.get("likes", 0)
+            #self.params = request.get("params", 0)
             self.date = request.get("submitted_time", "")
         except Exception:
             print(f"Could not find request file for {self.org}/{self.model}") # with precision {self.precision.value.name}

src/populate.py CHANGED Viewed

@@ -14,13 +14,17 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
-    print(df)
     if not df.empty:
         df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
-        df = df[cols].round(decimals=2)
         # filter out if any of the benchmarks have not been produced
         df = df[has_no_nan_values(df, benchmark_cols)]
         return df
     else:
         return pd.DataFrame(columns=cols)

     all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(all_data_json)
     if not df.empty:
         df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
         # filter out if any of the benchmarks have not been produced
         df = df[has_no_nan_values(df, benchmark_cols)]
+        df.insert(0, "Rank", range(1, len(df) + 1))
+        df = df[cols].round(decimals=2)
+        print(df)
         return df
     else:
         return pd.DataFrame(columns=cols)