leaderboard

Running on CPU Upgrade

File size: 25,336 Bytes

3478401
 
f766ce9
 
 
 
ae85833
 
 
 
3478401
 
 
 
 
 
 
 
 
 
 
 
 
93fda91
3478401
93fda91
 
3478401
 
 
93fda91
3478401
 
93fda91
 
 
 
3478401
 
 
 
f766ce9
 
 
 
df659d0
e089630
6e966bb
16fb1b0
3478401
 
 
 
 
 
 
 
16fb1b0
 
3478401
 
e089630
f766ce9
3478401
 
 
 
 
 
 
 
 
 
 
 
 
 
5808d8f
3478401
 
 
 
 
 
 
 
 
 
77ded94
3478401
 
 
 
 
 
 
 
 
 
 
f30cbcc
3478401
 
 
 
 
 
 
 
 
 
 
 
 
bb09125
bccdf2c
3478401
 
bccdf2c
d4c9a2d
bccdf2c
d4c9a2d
 
bccdf2c
 
bb09125
bccdf2c
 
3478401
bccdf2c
 
 
6ae6c7f
 
 
 
 
bb09125
bccdf2c
 
3478401
bccdf2c
 
 
6ae6c7f
 
 
 
 
bb09125
bccdf2c
 
3478401
bccdf2c
 
6ae6c7f
bccdf2c
 
98af8d1
bccdf2c
bb09125
98af8d1
bccdf2c
98af8d1
bccdf2c
 
6ae6c7f
 
 
 
 
 
 
 
 
 
98af8d1
 
 
 
 
bb09125
98af8d1
bccdf2c
98af8d1
 
bccdf2c
6ae6c7f
bccdf2c
 
98af8d1
 
bccdf2c
98af8d1
6ae6c7f
 
 
 
 
 
 
 
 
 
 
bb09125
98af8d1
 
 
 
 
bb09125
98af8d1
 
 
 
 
bb09125
98af8d1
bccdf2c
98af8d1
 
3478401
bb09125
6ae6c7f
 
 
 
3478401
bb09125
6ae6c7f
 
 
 
 
f766ce9
 
b80bda9
3478401
 
f766ce9
 
 
 
 
0785fe4
f766ce9
3478401
b80bda9
0785fe4
 
 
 
 
3478401
bb09125
0785fe4
 
3478401
bb09125
0785fe4
 
3478401
0785fe4
 
 
3478401
0785fe4
 
 
 
 
 
 
 
3478401
bb09125
3478401
 
bb09125
0785fe4
3478401
 
 
bb09125
b80bda9
0785fe4
3478401
 
 
0785fe4
3478401
 
 
 
b80bda9
3478401
0785fe4
a0387d8
0785fe4
3478401
 
 
 
 
0785fe4
3478401
0785fe4
 
 
3478401
0785fe4
3478401
bb09125
d4c9a2d
3478401
bb09125
3478401
0785fe4
d4c9a2d
3478401
 
 
bb09125
b80bda9
0785fe4
3478401
 
 
 
 
 
 
 
b80bda9
3478401
0785fe4
5808d8f
3478401
 
0785fe4
3478401
 
 
 
 
0785fe4
3478401
0785fe4
3478401
 
0785fe4
3478401
0785fe4
d4c9a2d
3478401
0785fe4
 
3478401
bb09125
0785fe4
3478401
 
bb09125
3478401
d4c9a2d
3478401
 
 
bb09125
0785fe4
 
3478401
 
 
 
 
 
 
 
64a83a1
3478401
f30cbcc
3478401
 
 
0785fe4
3478401
 
 
 
 
0785fe4
3478401
0785fe4
3478401
 
0785fe4
 
 
 
 
 
3478401
bb09125
0785fe4
 
3478401
bb09125
0785fe4
 
 
3478401
0785fe4
 
 
3478401
 
0785fe4
 
 
 
 
3478401
bb09125
b80bda9
3478401
b80bda9
bb09125
6ae6c7f
3478401
 
 
 
bb09125
b80bda9
0785fe4
3478401
 
 
0785fe4
3478401
 
 
 
b80bda9
3478401
0785fe4
b80bda9
0785fe4
3478401
 
0785fe4
3478401
 
 
 
0785fe4
 
3478401
0785fe4
3478401
 
0785fe4
 
 
 
3478401
0785fe4
3478401
6ae6c7f
3478401
bb09125
3478401
6ae6c7f
3478401
 
 
bb09125
f30cbcc
0785fe4
3478401
 
 
 
 
 
 
 
b80bda9
3478401
0785fe4
 
3478401
 
0785fe4
3478401
 
 
 
 
0785fe4
3478401
0785fe4
3478401
 
0785fe4
 
6ae6c7f
3478401
 
 
0785fe4
 
3478401
0785fe4
3478401
 
bb09125
6ae6c7f
 
3478401
 
 
 
bb09125
64a83a1
0785fe4
3478401
 
 
 
 
 
 
 
64a83a1
3478401
0785fe4
3478401
 
 
0785fe4
3478401
 
 
 
 
0785fe4
3478401
0785fe4
3478401
 
0785fe4
8ec7973
36c5a0c
 
 
 
 
 
a30a228
 
f000c74
a30a228
f000c74
240d9ce
4cf5eb9
240d9ce
3478401
240d9ce
4cf5eb9
3478401
240d9ce
69a9e46
 
93fda91
 
69a9e46
5182152
3478401
4a6f9cd
d00fb74
2c777fc
36c5a0c
d00fb74
9400714
d00fb74
 
3478401
 
2c777fc
4a6f9cd
 
 
9f44d20
 
 
 
 
3478401
 
4a6f9cd
 
 
 
 
d00fb74
240d9ce
 
d00fb74
3478401
4a6f9cd
 
3478401
4a6f9cd
36c5a0c
8a1daf9
 
f766ce9
ae85833
 
 
dd592d8
 
 
 
e58b5e9

import os

import gradio as gr
from apscheduler.schedulers.background import BackgroundScheduler
from huggingface_hub import snapshot_download

from src.about import (
    BENCHMARKS_TEXT, EVALUATION_QUEUE_TEXT, INTRODUCTION_TEXT, TITLE,
    CITATION_BUTTON_LABEL, CITATION_BUTTON_TEXT
)
from src.benchmarks import LongDocBenchmarks, QABenchmarks
from src.columns import COL_NAME_RERANKING_MODEL, COL_NAME_RETRIEVAL_MODEL
from src.components import (
    get_anonymous_checkbox,
    get_domain_dropdown,
    get_language_dropdown,
    get_leaderboard_table,
    get_metric_dropdown,
    get_noreranking_dropdown,
    get_reranking_dropdown,
    get_revision_and_ts_checkbox,
    get_search_bar,
    get_version_dropdown,
)
from src.css_html_js import custom_css
from src.envs import (
    API,
    BENCHMARK_VERSION_LIST,
    DEFAULT_METRIC_LONG_DOC,
    DEFAULT_METRIC_QA,
    EVAL_RESULTS_PATH,
    LATEST_BENCHMARK_VERSION,
    METRIC_LIST,
    REPO_ID,
    RESULTS_REPO,
    TOKEN,
)
from src.loaders import load_eval_results
from src.models import TaskType, model_hyperlink
from src.utils import remove_html, reset_rank, set_listeners, submit_results, update_metric, upload_file


def restart_space():
    API.restart_space(repo_id=REPO_ID)


try:
    if os.environ.get("LOCAL_MODE", False):
        print("Loading the data")
        snapshot_download(
            repo_id=RESULTS_REPO,
            local_dir=EVAL_RESULTS_PATH,
            repo_type="dataset",
            tqdm_class=None,
            etag_timeout=30,
            token=TOKEN,
        )
    else:
        print("Running in local mode")
except Exception:
    print("failed to download")
    restart_space()

global ds_dict
ds_dict = load_eval_results(EVAL_RESULTS_PATH)
global datastore
datastore = ds_dict[LATEST_BENCHMARK_VERSION]


def update_qa_metric(
    metric: str,
    domains: list,
    langs: list,
    reranking_model: list,
    query: str,
    show_anonymous: bool,
    show_revision_and_timestamp: bool,
):
    global datastore
    return update_metric(
        datastore,
        TaskType.qa,
        metric,
        domains,
        langs,
        reranking_model,
        query,
        show_anonymous,
        show_revision_and_timestamp,
    )


def update_doc_metric(
    metric: str,
    domains: list,
    langs: list,
    reranking_model: list,
    query: str,
    show_anonymous: bool,
    show_revision_and_timestamp,
):
    global datastore
    return update_metric(
        datastore,
        TaskType.long_doc,
        metric,
        domains,
        langs,
        reranking_model,
        query,
        show_anonymous,
        show_revision_and_timestamp,
    )


def update_datastore(version):
    global datastore
    global ds_dict
    if datastore.version != version:
        print(f"updated data version: {datastore.version} -> {version}")
        datastore = ds_dict[version]
    else:
        print(f"current data version: {datastore.version}")
    return datastore


def update_qa_domains(version):
    datastore = update_datastore(version)
    domain_elem = get_domain_dropdown(QABenchmarks[datastore.slug])
    return domain_elem


def update_doc_domains(version):
    datastore = update_datastore(version)
    domain_elem = get_domain_dropdown(LongDocBenchmarks[datastore.slug])
    return domain_elem


def update_qa_langs(version):
    datastore = update_datastore(version)
    lang_elem = get_language_dropdown(QABenchmarks[datastore.slug])
    return lang_elem


def update_doc_langs(version):
    datastore = update_datastore(version)
    lang_elem = get_language_dropdown(LongDocBenchmarks[datastore.slug])
    return lang_elem


def update_qa_models(version):
    datastore = update_datastore(version)
    model_elem = get_reranking_dropdown(datastore.reranking_models)
    return model_elem


def update_qa_df_ret_rerank(version):
    datastore = update_datastore(version)
    return get_leaderboard_table(datastore.qa_fmt_df, datastore.qa_types)


def update_qa_hidden_df_ret_rerank(version):
    datastore = update_datastore(version)
    return get_leaderboard_table(datastore.qa_raw_df, datastore.qa_types, visible=False)


def update_doc_df_ret_rerank(version):
    datastore = update_datastore(version)
    return get_leaderboard_table(datastore.doc_fmt_df, datastore.doc_types)


def update_doc_hidden_df_ret_rerank(version):
    datastore = update_datastore(version)
    return get_leaderboard_table(datastore.doc_raw_df, datastore.doc_types, visible=False)


def filter_df_ret(df):
    df_ret = df[df[COL_NAME_RERANKING_MODEL] == "NoReranker"]
    df_ret = reset_rank(df_ret)
    return df_ret


def update_qa_df_ret(version):
    datastore = update_datastore(version)
    df_ret = filter_df_ret(datastore.qa_fmt_df)
    return get_leaderboard_table(df_ret, datastore.qa_types)


def update_qa_hidden_df_ret(version):
    datastore = update_datastore(version)
    df_ret_hidden = filter_df_ret(datastore.qa_raw_df)
    return get_leaderboard_table(df_ret_hidden, datastore.qa_types, visible=False)


def update_doc_df_ret(version):
    datastore = update_datastore(version)
    df_ret = filter_df_ret(datastore.doc_fmt_df)
    return get_leaderboard_table(df_ret, datastore.doc_types)


def update_doc_hidden_df_ret(version):
    datastore = update_datastore(version)
    df_ret_hidden = filter_df_ret(datastore.doc_raw_df)
    return get_leaderboard_table(df_ret_hidden, datastore.doc_types, visible=False)


def filter_df_rerank(df):
    df_rerank = df[df[COL_NAME_RETRIEVAL_MODEL] == BM25_LINK]
    df_rerank = reset_rank(df_rerank)
    return df_rerank


def update_qa_df_rerank(version):
    datastore = update_datastore(version)
    df_rerank = filter_df_rerank(datastore.qa_fmt_df)
    return get_leaderboard_table(df_rerank, datastore.qa_types)


def update_qa_hidden_df_rerank(version):
    datastore = update_datastore(version)
    df_rerank_hidden = filter_df_rerank(datastore.qa_raw_df)
    return get_leaderboard_table(df_rerank_hidden, datastore.qa_types, visible=False)


def update_doc_df_rerank(version):
    datastore = update_datastore(version)
    df_rerank = filter_df_rerank(datastore.doc_fmt_df)
    return get_leaderboard_table(df_rerank, datastore.doc_types)


def update_doc_hidden_df_rerank(version):
    datastore = update_datastore(version)
    df_rerank_hidden = filter_df_rerank(datastore.doc_raw_df)
    return get_leaderboard_table(df_rerank_hidden, datastore.doc_types, visible=False)


demo = gr.Blocks(css=custom_css)

BM25_LINK = model_hyperlink("https://github.com/castorini/pyserini", "BM25")

with demo:
    gr.HTML(TITLE)
    gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")

    with gr.Tabs(elem_classes="tab-buttons") as tabs:
        with gr.TabItem("Results", elem_id="results-tab-table"):
            with gr.Row():
                version = get_version_dropdown()

            with gr.TabItem("QA", elem_id="qa-benchmark-tab-table", id=0):
                with gr.Row():
                    with gr.Column(min_width=320):
                        # select domain
                        with gr.Row():
                            domains = get_domain_dropdown(QABenchmarks[datastore.slug])
                            version.change(update_qa_domains, version, domains)
                        # select language
                        with gr.Row():
                            langs = get_language_dropdown(QABenchmarks[datastore.slug])
                            version.change(update_qa_langs, version, langs)
                    with gr.Column():
                        # select the metric
                        metric = get_metric_dropdown(METRIC_LIST, DEFAULT_METRIC_QA)
                        with gr.Row():
                            show_anonymous = get_anonymous_checkbox()
                        with gr.Row():
                            show_rev_ts = get_revision_and_ts_checkbox()
                with gr.Tabs(elem_classes="tab-buttons") as sub_tabs:
                    with gr.TabItem("Retrieval + Reranking", id=10):
                        with gr.Row():
                            # search retrieval models
                            with gr.Column():
                                search_bar = get_search_bar()
                            # select reranking models
                            with gr.Column():
                                models = get_reranking_dropdown(datastore.reranking_models)
                                version.change(update_qa_models, version, models)
                        #  shown_table
                        qa_df_elem_ret_rerank = get_leaderboard_table(datastore.qa_fmt_df, datastore.qa_types)
                        version.change(update_qa_df_ret_rerank, version, qa_df_elem_ret_rerank)
                        # Dummy leaderboard for handling the case when the user uses backspace key
                        qa_df_elem_ret_rerank_hidden = get_leaderboard_table(
                            datastore.qa_raw_df, datastore.qa_types, visible=False
                        )
                        version.change(update_qa_hidden_df_ret_rerank, version, qa_df_elem_ret_rerank_hidden)

                        set_listeners(
                            TaskType.qa,
                            qa_df_elem_ret_rerank,
                            qa_df_elem_ret_rerank_hidden,
                            search_bar,
                            version,
                            domains,
                            langs,
                            models,
                            show_anonymous,
                            show_rev_ts,
                        )

                        # set metric listener
                        metric.change(
                            update_qa_metric,
                            [metric, domains, langs, models, search_bar, show_anonymous, show_rev_ts],
                            qa_df_elem_ret_rerank,
                            queue=True,
                        )

                    with gr.TabItem("Retrieval Only", id=11):
                        with gr.Row():
                            with gr.Column(scale=1):
                                search_bar_ret = get_search_bar()
                            with gr.Column(scale=1):
                                models_ret = get_noreranking_dropdown()
                                version.change(update_qa_models, version, models_ret)
                        _qa_df_ret = filter_df_ret(datastore.qa_fmt_df)
                        qa_df_elem_ret = get_leaderboard_table(_qa_df_ret, datastore.qa_types)
                        version.change(update_qa_df_ret, version, qa_df_elem_ret)

                        # Dummy leaderboard for handling the case when the user uses backspace key
                        _qa_df_ret_hidden = filter_df_ret(datastore.qa_raw_df)
                        qa_df_elem_ret_hidden = get_leaderboard_table(
                            _qa_df_ret_hidden, datastore.qa_types, visible=False
                        )
                        version.change(update_qa_hidden_df_ret, version, qa_df_elem_ret_hidden)

                        set_listeners(
                            TaskType.qa,
                            qa_df_elem_ret,
                            qa_df_elem_ret_hidden,
                            search_bar_ret,
                            version,
                            domains,
                            langs,
                            models_ret,
                            show_anonymous,
                            show_rev_ts,
                        )

                        metric.change(
                            update_qa_metric,
                            [
                                metric,
                                domains,
                                langs,
                                models_ret,
                                search_bar_ret,
                                show_anonymous,
                                show_rev_ts,
                            ],
                            qa_df_elem_ret,
                            queue=True,
                        )

                    with gr.TabItem("Reranking Only", id=12):
                        _qa_df_rerank = filter_df_rerank(datastore.qa_fmt_df)
                        qa_rerank_models = _qa_df_rerank[COL_NAME_RERANKING_MODEL].apply(remove_html).unique().tolist()
                        with gr.Row():
                            with gr.Column(scale=1):
                                qa_models_rerank = get_reranking_dropdown(qa_rerank_models)
                                version.change(update_qa_models, version, qa_models_rerank)
                            with gr.Column(scale=1):
                                qa_search_bar_rerank = gr.Textbox(show_label=False, visible=False)
                        qa_df_elem_rerank = get_leaderboard_table(_qa_df_rerank, datastore.qa_types)
                        version.change(update_qa_df_rerank, version, qa_df_elem_rerank)

                        _qa_df_rerank_hidden = filter_df_rerank(datastore.qa_raw_df)
                        qa_df_elem_rerank_hidden = get_leaderboard_table(
                            _qa_df_rerank_hidden, datastore.qa_types, visible=False
                        )
                        version.change(update_qa_hidden_df_rerank, version, qa_df_elem_rerank_hidden)

                        set_listeners(
                            TaskType.qa,
                            qa_df_elem_rerank,
                            qa_df_elem_rerank_hidden,
                            qa_search_bar_rerank,
                            version,
                            domains,
                            langs,
                            qa_models_rerank,
                            show_anonymous,
                            show_rev_ts,
                        )

                        metric.change(
                            update_qa_metric,
                            [
                                metric,
                                domains,
                                langs,
                                qa_models_rerank,
                                qa_search_bar_rerank,
                                show_anonymous,
                                show_rev_ts,
                            ],
                            qa_df_elem_rerank,
                            queue=True,
                        )
            with gr.TabItem("Long Doc", elem_id="long-doc-benchmark-tab-table", id=1):
                with gr.Row():
                    with gr.Column(min_width=320):
                        # select domain
                        with gr.Row():
                            domains = get_domain_dropdown(LongDocBenchmarks[datastore.slug])
                            version.change(update_doc_domains, version, domains)
                        # select language
                        with gr.Row():
                            langs = get_language_dropdown(LongDocBenchmarks[datastore.slug])
                            version.change(update_doc_langs, version, langs)
                    with gr.Column():
                        # select the metric
                        with gr.Row():
                            metric = get_metric_dropdown(METRIC_LIST, DEFAULT_METRIC_LONG_DOC)
                        with gr.Row():
                            show_anonymous = get_anonymous_checkbox()
                        with gr.Row():
                            show_rev_ts = get_revision_and_ts_checkbox()
                with gr.Tabs(elem_classes="tab-buttons"):
                    with gr.TabItem("Retrieval + Reranking", id=20):
                        with gr.Row():
                            with gr.Column():
                                search_bar = get_search_bar()
                            with gr.Column():
                                models = get_reranking_dropdown(datastore.reranking_models)
                                version.change(update_qa_models, version, models)

                        doc_df_elem_ret_rerank = get_leaderboard_table(datastore.doc_fmt_df, datastore.doc_types)

                        version.change(update_doc_df_ret_rerank, version, doc_df_elem_ret_rerank)

                        doc_df_elem_ret_rerank_hidden = get_leaderboard_table(
                            datastore.doc_raw_df, datastore.doc_types, visible=False
                        )

                        version.change(update_doc_hidden_df_ret_rerank, version, doc_df_elem_ret_rerank_hidden)

                        set_listeners(
                            TaskType.long_doc,
                            doc_df_elem_ret_rerank,
                            doc_df_elem_ret_rerank_hidden,
                            search_bar,
                            version,
                            domains,
                            langs,
                            models,
                            show_anonymous,
                            show_rev_ts,
                        )

                        # set metric listener
                        metric.change(
                            update_doc_metric,
                            [
                                metric,
                                domains,
                                langs,
                                models,
                                search_bar,
                                show_anonymous,
                                show_rev_ts,
                            ],
                            doc_df_elem_ret_rerank,
                            queue=True,
                        )
                    with gr.TabItem("Retrieval Only", id=21):
                        with gr.Row():
                            with gr.Column(scale=1):
                                search_bar_ret = get_search_bar()
                            with gr.Column(scale=1):
                                models_ret = get_noreranking_dropdown()
                        _doc_df_ret = filter_df_ret(datastore.doc_fmt_df)
                        doc_df_elem_ret = get_leaderboard_table(_doc_df_ret, datastore.doc_types)
                        version.change(update_doc_df_ret, version, doc_df_elem_ret)

                        _doc_df_ret_hidden = filter_df_ret(datastore.doc_raw_df)
                        doc_df_elem_ret_hidden = get_leaderboard_table(
                            _doc_df_ret_hidden, datastore.doc_types, visible=False
                        )
                        version.change(update_doc_hidden_df_ret, version, doc_df_elem_ret_hidden)

                        set_listeners(
                            TaskType.long_doc,
                            doc_df_elem_ret,
                            doc_df_elem_ret_hidden,
                            search_bar_ret,
                            version,
                            domains,
                            langs,
                            models_ret,
                            show_anonymous,
                            show_rev_ts,
                        )

                        metric.change(
                            update_doc_metric,
                            [
                                metric,
                                domains,
                                langs,
                                models_ret,
                                search_bar_ret,
                                show_anonymous,
                                show_rev_ts,
                            ],
                            doc_df_elem_ret,
                            queue=True,
                        )
                    with gr.TabItem("Reranking Only", id=22):
                        _doc_df_rerank = filter_df_rerank(datastore.doc_fmt_df)
                        doc_rerank_models = (
                            _doc_df_rerank[COL_NAME_RERANKING_MODEL].apply(remove_html).unique().tolist()
                        )
                        with gr.Row():
                            with gr.Column(scale=1):
                                doc_models_rerank = get_reranking_dropdown(doc_rerank_models)
                            with gr.Column(scale=1):
                                doc_search_bar_rerank = gr.Textbox(show_label=False, visible=False)
                        doc_df_elem_rerank = get_leaderboard_table(_doc_df_rerank, datastore.doc_types)
                        version.change(update_doc_df_rerank, version, doc_df_elem_rerank)

                        _doc_df_rerank_hidden = filter_df_rerank(datastore.doc_raw_df)
                        doc_df_elem_rerank_hidden = get_leaderboard_table(
                            _doc_df_rerank_hidden, datastore.doc_types, visible=False
                        )

                        version.change(update_doc_hidden_df_rerank, version, doc_df_elem_rerank_hidden)

                        set_listeners(
                            TaskType.long_doc,
                            doc_df_elem_rerank,
                            doc_df_elem_rerank_hidden,
                            doc_search_bar_rerank,
                            version,
                            domains,
                            langs,
                            doc_models_rerank,
                            show_anonymous,
                            show_rev_ts,
                        )

                        metric.change(
                            update_doc_metric,
                            [
                                metric,
                                domains,
                                langs,
                                doc_models_rerank,
                                doc_search_bar_rerank,
                                show_anonymous,
                                show_rev_ts,
                            ],
                            doc_df_elem_rerank,
                            queue=True,
                        )

        with gr.TabItem("🚀Submit here!", elem_id="submit-tab-table", id=2):
            with gr.Column():
                with gr.Row():
                    gr.Markdown(EVALUATION_QUEUE_TEXT, elem_classes="markdown-text")
                with gr.Row():
                    gr.Markdown("## ✉️Submit your model here!", elem_classes="markdown-text")
                with gr.Row():
                    with gr.Column():
                        model_name = gr.Textbox(label="Retrieval Method name")
                    with gr.Column():
                        model_url = gr.Textbox(label="Retrieval Method URL")
                with gr.Row():
                    with gr.Column():
                        reranking_model_name = gr.Textbox(
                            label="Reranking Model name", info="Optional", value="NoReranker"
                        )
                    with gr.Column():
                        reranking_model_url = gr.Textbox(label="Reranking Model URL", info="Optional", value="")
                with gr.Row():
                    with gr.Column():
                        benchmark_version = gr.Dropdown(
                            BENCHMARK_VERSION_LIST,
                            value=LATEST_BENCHMARK_VERSION,
                            interactive=True,
                            label="AIR-Bench Version (🟠NOTE: Select the version you want to submit to)",
                        )
                with gr.Row():
                    upload_button = gr.UploadButton("Click to upload search results", file_count="single")
                with gr.Row():
                    file_output = gr.File()
                with gr.Row():
                    is_anonymous = gr.Checkbox(
                        label="Nope. I want to submit anonymously 🥷",
                        value=False,
                        info="Do you want to shown on the leaderboard by default?",
                    )
                with gr.Row():
                    submit_button = gr.Button("Submit")
                with gr.Row():
                    submission_result = gr.Markdown()
                upload_button.upload(
                    upload_file,
                    [
                        upload_button,
                    ],
                    file_output,
                )
                submit_button.click(
                    submit_results,
                    [
                        file_output,
                        model_name,
                        model_url,
                        reranking_model_name,
                        reranking_model_url,
                        benchmark_version,
                        is_anonymous,
                    ],
                    submission_result,
                    show_progress="hidden",
                )

        with gr.TabItem("📝 About", elem_id="llm-benchmark-tab-table", id=3):
            gr.Markdown(BENCHMARKS_TEXT, elem_classes="markdown-text")

    gr.Markdown(f"{CITATION_BUTTON_LABEL}\n\n{CITATION_BUTTON_TEXT}", elem_classes="markdown-text")


if __name__ == "__main__":
    scheduler = BackgroundScheduler()
    scheduler.add_job(restart_space, "interval", seconds=1800)
    scheduler.start()
    demo.queue(default_concurrency_limit=40)
    demo.launch()