Spaces:

SeaLLMs
/

LLM_Leaderboard_for_SEA

Running

App Files Files Community

lukecq commited on Aug 8, 2024

Commit

21f1468

1 Parent(s): b732491

update the UI

Browse files

Files changed (5) hide show

.DS_Store +0 -0
.gitignore +3 -0
app.py +54 -260
requirements.txt +1 -0
src/leaderboard/load_results.py +2 -1

.DS_Store DELETED Viewed

Binary file (6.15 kB)

.gitignore ADDED Viewed

	@@ -0,0 +1,3 @@

+*__pycache__/
+eval-results/
+.DS_Store

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import pandas as pd
 import os
 from huggingface_hub import snapshot_download, login
 from apscheduler.schedulers.background import BackgroundScheduler
 from src.display.about import (
     CITATION_BUTTON_LABEL,
@@ -39,59 +40,6 @@ TYPES = ['number', 'markdown', 'str', 'str', 'number', 'number', 'number', 'numb
 # Load the data from the csv file
 csv_path = f'{EVAL_RESULTS_PATH}/SeaExam_results_20240808.csv'
 df_m3exam, df_mmlu, df_avg = load_data(csv_path)
-# df_m3exam = df_m3exam.copy()[show_columns]
-# df_mmlu = df_mmlu.copy()[show_columns]
-df_avg_init = df_avg.copy()[df_avg['type'] == '🔶 chat'][show_columns]
-df_m3exam_init = df_m3exam.copy()[df_m3exam['type'] == '🔶 chat'][show_columns]
-df_mmlu_init = df_mmlu.copy()[df_mmlu['type'] == '🔶 chat'][show_columns]
-# data_types = ['number', 'str', 'markdown','str', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number']
-# map_columns = {'rank':'R','type':'type', 'Model':'Model','open?':'open?', 'avg_sea':'avg_sea ⬇️', 'en':'en', 'zh':'zh', 'id':'id', 'th':'th', 'vi':'vi', 'avg':'avg', 'params':'params(B)'}
-# map_types = {'rank': 'number', 'type': 'str', 'Model': 'markdown', 'open?': 'str', 'avg_sea': 'number', 'en': 'number', 'zh': 'number', 'id': 'number', 'th': 'number', 'vi': 'number', 'avg': 'number', 'params': 'number'}
-# Searching and filtering
-def update_table(
-    hidden_df: pd.DataFrame,
-    # columns: list,
-    type_query: list,
-    open_query: list,
-    # precision_query: str,
-    # size_query: list,
-    # show_deleted: bool,
-    query: str,
-):
-    # filtered_df = filter_models(hidden_df, type_query, size_query, precision_query, show_deleted)
-    # filtered_df = filter_queries(query, filtered_df)
-    # df = select_columns(filtered_df, columns)
-    filtered_df = hidden_df.copy()
-    filtered_df = filtered_df[filtered_df['type'].isin(type_query)]
-    map_open = {'open': 'Y', 'closed': 'N'}
-    filtered_df = filtered_df[filtered_df['open?'].isin([map_open[o] for o in open_query])]
-    filtered_df = filter_queries(query, filtered_df)
-    # filtered_df = filtered_df[[map_columns[k] for k in columns]]
-    # deduplication
-    # df = df.drop_duplicates(subset=["Model"])
-    df = filtered_df.drop_duplicates()
-    df = df[show_columns]
-    return df
-def search_table(df: pd.DataFrame, query: str) -> pd.DataFrame:
-    return df[(df['Model'].str.contains(query, case=False))]
-def filter_queries(query: str, filtered_df: pd.DataFrame) -> pd.DataFrame:
-    final_df = []
-    if query != "":
-        queries = [q.strip() for q in query.split(";")]
-        for _q in queries:
-            _q = _q.strip()
-            if _q != "":
-                temp_filtered_df = search_table(filtered_df, _q)
-                if len(temp_filtered_df) > 0:
-                    final_df.append(temp_filtered_df)
-        if len(final_df) > 0:
-            filtered_df = pd.concat(final_df)
-    return filtered_df
 demo = gr.Blocks(css=custom_css)
 with demo:
@@ -100,222 +48,68 @@ with demo:
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
-        with gr.TabItem("🏅 Overall", elem_id="llm-benchmark-Sum", id=0):
-            with gr.Row():
-                with gr.Column():
-                    with gr.Row():
-                        search_bar = gr.Textbox(
-                            placeholder=" 🔍 Search for your model (separate multiple queries with `;`) and press ENTER...",
-                            show_label=False,
-                            elem_id="search-bar",
-                        )
-                    # with gr.Row():
-                    #     with gr.Column():
-                    #         shown_columns = gr.CheckboxGroup(
-                    #             choices=["rank","type", "Model","open?", "avg_sea", "en", "zh", "id", "th", "vi", "avg", "params"],
-                    #             value=["rank", "type", "Model", "avg_sea", "en", "zh", "id", "th", "vi", "avg", "params"],
-                    #             label="Select model types to show",
-                    #             elem_id="column-select",
-                    #             interactive=True,
-                    #         )
-            # with gr.Row():
-                with gr.Column():
-                    type_query = gr.CheckboxGroup(
-                        choices=["🟢 base", "🔶 chat"],
-                        value=["🔶 chat" ],
-                        label="model types to show",
-                        elem_id="type-select",
-                        interactive=True,
-                    )
-                with gr.Column():
-                    open_query = gr.CheckboxGroup(
-                        choices=["open", "closed"],
-                        value=["open", "closed"],
-                        label="open-source or closed-source models?",
-                        elem_id="open-select",
-                        interactive=True,
-                    )
-            leaderboard_table = gr.components.Dataframe(
-                value=df_avg_init,
-                # [[map_columns[k] for k in shown_columns.value]],
-                # value=leaderboard_df[
-                #     [c.name for c in fields(AutoEvalColumn) if c.never_hidden]
-                #     + shown_columns.value
-                #     + [AutoEvalColumn.dummy.name]
-                # ],
-                # headers=[c.name for c in fields(AutoEvalColumn) if c.never_hidden] + shown_columns.value,
-                datatype=TYPES,
-                elem_id="leaderboard-table",
-                interactive=False,
-                # datatype=['number', 'str', 'markdown', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number'],
-                # datatype=[map_types[k] for k in shown_columns.value],
-                visible=True,
-                # column_widths=["20%", "6%", "8%", "6%", "8%", "8%", "6%", "6%", "6%", "6%", "6%"],
-            )
-            hidden_leaderboard_table_for_search = gr.components.Dataframe(
-                value=df_avg,
-                # elem_id="leaderboard-table",
-                interactive=False,
-                visible=False,
-            )
-            search_bar.submit(
-                update_table,
-                [
-                    # df_avg,
-                    hidden_leaderboard_table_for_search,
-                    # shown_columns,
-                    type_query,
-                    open_query,
-                    # filter_columns_type,
-                    # filter_columns_precision,
-                    # filter_columns_size,
-                    # deleted_models_visibility,
-                    search_bar,
                 ],
-                leaderboard_table,
-            )
-            for selector in [type_query, open_query]:
-                selector.change(
-                    update_table,
-                    [
-                        # df_avg,
-                        hidden_leaderboard_table_for_search,
-                        # shown_columns,
-                        type_query,
-                        open_query,
-                        # filter_columns_type,
-                        # filter_columns_precision,
-                        # filter_columns_size,
-                        # deleted_models_visibility,
-                        search_bar,
-                    ],
-                    leaderboard_table,
-                )
-        with gr.TabItem("M3Exam", elem_id="llm-benchmark-M3Exam", id=1):
-            with gr.Row():
-                with gr.Column():
-                    search_bar = gr.Textbox(
-                        placeholder=" 🔍 Search for your model (separate multiple queries with `;`) and press ENTER...",
-                        show_label=False,
-                        elem_id="search-bar",
-                    )
-                with gr.Column():
-                    type_query = gr.CheckboxGroup(
-                        choices=["🟢 base", "🔶 chat"],
-                        value=["🔶 chat" ],
-                        label="model types to show",
-                        elem_id="type-select",
-                        interactive=True,
-                    )
-                with gr.Column():
-                    open_query = gr.CheckboxGroup(
-                        choices=["open", "closed"],
-                        value=["open", "closed"],
-                        label="open-source or closed-source models?",
-                        elem_id="open-select",
-                        interactive=True,
-                    )
-            leaderboard_table = gr.components.Dataframe(
-                value=df_m3exam_init,
-                interactive=False,
-                visible=True,
-                # datatype=['number', 'str', 'markdown', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number'],
                 datatype=TYPES,
             )
-            hidden_leaderboard_table_for_search = gr.components.Dataframe(
-                value=df_m3exam,
-                interactive=False,
-                visible=False,
-            )
-            search_bar.submit(
-                update_table,
-                [
-                    hidden_leaderboard_table_for_search,
-                    type_query,
-                    open_query,
-                    search_bar,
                 ],
-                leaderboard_table,
-            )
-            for selector in [type_query, open_query]:
-                selector.change(
-                    update_table,
-                    [
-                        hidden_leaderboard_table_for_search,
-                        type_query,
-                        open_query,
-                        search_bar,
-                    ],
-                    leaderboard_table,
-                )
-        with gr.TabItem("MMLU", elem_id="llm-benchmark-MMLU", id=2):
-            with gr.Row():
-                with gr.Column():
-                    search_bar = gr.Textbox(
-                        placeholder=" 🔍 Search for your model (separate multiple queries with `;`) and press ENTER...",
-                        show_label=False,
-                        elem_id="search-bar",
-                    )
-                with gr.Column():
-                    type_query = gr.CheckboxGroup(
-                        choices=["🟢 base", "🔶 chat"],
-                        value=["🔶 chat" ],
-                        label="model types to show",
-                        elem_id="type-select",
-                        interactive=True,
-                    )
-                with gr.Column():
-                    open_query = gr.CheckboxGroup(
-                        choices=["open", "closed"],
-                        value=["open", "closed"],
-                        label="open-source or closed-source models?",
-                        elem_id="open-select",
-                        interactive=True,
-                    )
-            leaderboard_table = gr.components.Dataframe(
-                value=df_mmlu_init,
-                interactive=False,
-                visible=True,
-                # datatype=['number', 'str', 'markdown', 'number', 'number', 'number', 'number', 'number', 'number', 'number', 'number'],
                 datatype=TYPES,
             )
-            hidden_leaderboard_table_for_search = gr.components.Dataframe(
-                value=df_mmlu,
-                interactive=False,
-                visible=False,
-            )
-            search_bar.submit(
-                update_table,
-                [
-                    hidden_leaderboard_table_for_search,
-                    type_query,
-                    open_query,
-                    search_bar,
                 ],
-                leaderboard_table,
             )
-            for selector in [type_query, open_query]:
-                selector.change(
-                    update_table,
-                    [
-                        hidden_leaderboard_table_for_search,
-                        type_query,
-                        open_query,
-                        search_bar,
-                    ],
-                    leaderboard_table,
-                )
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=3):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

 import os
 from huggingface_hub import snapshot_download, login
 from apscheduler.schedulers.background import BackgroundScheduler
+from gradio_leaderboard import Leaderboard, SelectColumns, ColumnFilter
 from src.display.about import (
     CITATION_BUTTON_LABEL,
 # Load the data from the csv file
 csv_path = f'{EVAL_RESULTS_PATH}/SeaExam_results_20240808.csv'
 df_m3exam, df_mmlu, df_avg = load_data(csv_path)
 demo = gr.Blocks(css=custom_css)
 with demo:
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
+        with gr.Tab("🏅 Overall"):
+            Leaderboard(
+                value=df_avg[show_columns],
+                select_columns=SelectColumns(
+                    default_selection=show_columns,
+                    cant_deselect=["R", "Model"],
+                    label="Select Columns to Display:",
+                ),
+                search_columns=["Model"],
+                # hide_columns=["model_name_for_query", "Model Size"],
+                filter_columns=[
+                    "type",
+                    "open?",
+                    # ColumnFilter("MOE", type="boolean", default=False, label="MoE"),
+                    # ColumnFilter("Flagged", type="boolean", default=False),
+                    ColumnFilter("params(B)", default=[7, 10]),
                 ],
                 datatype=TYPES,
+                # column_widths=["2%", "33%"],
             )
+        with gr.Tab("M3Exam"):
+            Leaderboard(
+                value=df_m3exam[show_columns],
+                select_columns=SelectColumns(
+                    default_selection=show_columns,
+                    cant_deselect=["R", "Model"],
+                    label="Select Columns to Display:",
+                ),
+                search_columns=["Model"],
+                # hide_columns=["model_name_for_query", "Model Size"],
+                filter_columns=[
+                    "type",
+                    "open?",
+                    # ColumnFilter("MOE", type="boolean", default=False, label="MoE"),
+                    # ColumnFilter("Flagged", type="boolean", default=False),
+                    ColumnFilter("params(B)", default=[7, 10]),
                 ],
                 datatype=TYPES,
+                # column_widths=["2%", "33%"],
             )
+        with gr.Tab("MMLU"):
+            Leaderboard(
+                value=df_mmlu[show_columns],
+                select_columns=SelectColumns(
+                    default_selection=show_columns,
+                    cant_deselect=["R", "Model"],
+                    label="Select Columns to Display:",
+                ),
+                search_columns=["Model"],
+                # hide_columns=["model_name_for_query", "Model Size"],
+                filter_columns=[
+                    "type",
+                    "open?",
+                    # ColumnFilter("MOE", type="boolean", default=False, label="MoE"),
+                    # ColumnFilter("Flagged", type="boolean", default=False),
+                    ColumnFilter("params(B)", default=[7, 10]),
                 ],
+                datatype=TYPES,
+                # column_widths=["2%", "33%"],
             )
         with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=3):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")

requirements.txt CHANGED Viewed

@@ -3,6 +3,7 @@ black==23.11.0
 click==8.1.3
 datasets==2.14.5
 gradio==4.4.0
 gradio_client==0.7.0
 huggingface-hub>=0.18.0
 matplotlib==3.7.1

 click==8.1.3
 datasets==2.14.5
 gradio==4.4.0
+gradio-leaderboard==0.0.11
 gradio_client==0.7.0
 huggingface-hub>=0.18.0
 matplotlib==3.7.1

src/leaderboard/load_results.py CHANGED Viewed

@@ -28,7 +28,8 @@ def make_clickable_model(model_name, link=None):
     if len(model_name.split("/")) == 2:
         link = "https://huggingface.co/" + model_name
         return (
-            f'<a target="_blank" style="text-decoration: underline" href="{link}">{model_name.split("/")[-1]}</a>'
         )
     return model_name

     if len(model_name.split("/")) == 2:
         link = "https://huggingface.co/" + model_name
         return (
+            # f'<a target="_blank" style="text-decoration: underline" href="{link}">{model_name.split("/")[-1]}</a>'
+            f'<a target="_blank" href="{link}" style="color: var(--link-text-color); text-decoration: underline;text-decoration-style: dotted;">{model_name.split("/")[-1]}</a>'
         )
     return model_name