Spaces:

CIIRC-NLP
/

czechbench_leaderboard

Running

davidadamczyk commited on Sep 5, 2024

Commit

5812da8

1 Parent(s): 33ce85b

New version of dataset names

Files changed (3) hide show

app.py CHANGED Viewed

@@ -42,14 +42,14 @@ def download_data():
     global original_df
     global leaderboard_df
     try:
-        print(EVAL_REQUESTS_PATH)
         snapshot_download(
             repo_id=QUEUE_REPO, local_dir=EVAL_REQUESTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30
         )
     except Exception:
         restart_space()
     try:
-        print(EVAL_RESULTS_PATH)
         snapshot_download(
             repo_id=RESULTS_REPO, local_dir=EVAL_RESULTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30
         )

     global original_df
     global leaderboard_df
     try:
+        print(EVAL_REQUESTS_PATH,QUEUE_REPO)
         snapshot_download(
             repo_id=QUEUE_REPO, local_dir=EVAL_REQUESTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30
         )
     except Exception:
         restart_space()
     try:
+        print(EVAL_RESULTS_PATH, RESULTS_REPO)
         snapshot_download(
             repo_id=RESULTS_REPO, local_dir=EVAL_RESULTS_PATH, repo_type="dataset", tqdm_class=None, etag_timeout=30
         )

src/display/about.py CHANGED Viewed

@@ -19,15 +19,14 @@ class Tasks(Enum):
     task4 = Task("belebele_cs", "accuracy", "belebele_cs")
     task5 = Task("ctkfacts_cs", "accuracy", "ctkfacts_cs")
     task6 = Task("czechnews_cs", "accuracy", "czechnews_cs")
-    task7 = Task("ctkfacts_en", "accuracy", "ctkfacts_en")
-    task8 = Task("fb_comments_cs", "accuracy", "fb_comments_cs")
-    task9 = Task("gsm8k_cs", "accuracy", "gsm8k_cs")
-    task10 = Task("klokanek_cs", "accuracy", "klokanek_cs")
-    task11 = Task("mall_reviews_cs", "accuracy", "mall_reviews_cs")
-    task12 = Task("mmlu_cs", "accuracy", "mmlu_cs")
-    task13 = Task("sqad_cs", "accuracy", "sqad_cs")
-    task14 = Task("subjectivity_cs", "accuracy", "subjectivity_cs")
-    task15 = Task("truthfulqa_cs", "accuracy", "truthfulqa_cs")
 # Your leaderboard name
 TITLE = """<h1 align="center" id="space-title">🇨🇿 CzechBench Leaderboard</h1>"""

     task4 = Task("belebele_cs", "accuracy", "belebele_cs")
     task5 = Task("ctkfacts_cs", "accuracy", "ctkfacts_cs")
     task6 = Task("czechnews_cs", "accuracy", "czechnews_cs")
+    task7 = Task("fb_comments_cs", "accuracy", "fb_comments_cs")
+    task8 = Task("gsm8k_cs", "accuracy", "gsm8k_cs")
+    task9 = Task("klokanek_cs", "accuracy", "klokanek_cs")
+    task10 = Task("mall_reviews_cs", "accuracy", "mall_reviews_cs")
+    task11 = Task("mmlu_cs", "accuracy", "mmlu_cs")
+    task12 = Task("sqad_cs", "accuracy", "sqad_cs")
+    task13 = Task("subjectivity_cs", "accuracy", "subjectivity_cs")
+    task14 = Task("truthfulqa_cs", "accuracy", "truthfulqa_cs")
 # Your leaderboard name
 TITLE = """<h1 align="center" id="space-title">🇨🇿 CzechBench Leaderboard</h1>"""

src/populate.py CHANGED Viewed

@@ -13,7 +13,6 @@ def get_leaderboard_df(results_path: str, requests_path: str, cols: list, benchm
     #all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(raw_data)
     #df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced

     #all_data_json = [v.to_dict() for v in raw_data]
     df = pd.DataFrame.from_records(raw_data)
     #df = df.sort_values(by=[AutoEvalColumn.average.name], ascending=False)
     df = df[cols].round(decimals=2)
     # filter out if any of the benchmarks have not been produced