Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

App Files Files Community

sh1gechan commited on Nov 20, 2024

Commit

300792f

1 Parent(s): be318e9

説明の修正

Browse files

Files changed (1) hide show

src/about.py +23 -39

src/about.py CHANGED Viewed

@@ -51,16 +51,16 @@ class Tasks(Enum):
     alt_j_to_e_comet_wmt22 = Task("scores", "alt-j-to-e_comet_wmt22", "ALT J to E COMET WMT22 ⭐", TaskType.MT)
     chabsa_set_f1 = Task("scores", "chabsa_set_f1", "ChABSA ⭐", TaskType.EL)
     commonsensemoralja_exact_match = Task(
-        "scores", "commonsensemoralja_exact_match", "CommonSenseMoralJA", TaskType.MC
     )
-    jamp_exact_match = Task("scores", "jamp_exact_match", "JAMP", TaskType.NLI)
-    janli_exact_match = Task("scores", "janli_exact_match", "JANLI", TaskType.NLI)
-    jcommonsenseqa_exact_match = Task("scores", "jcommonsenseqa_exact_match", "JCommonSenseQA", TaskType.MC)
-    jemhopqa_char_f1 = Task("scores", "jemhopqa_char_f1", "JEMHopQA", TaskType.QA)
-    jmmlu_exact_match = Task("scores", "jmmlu_exact_match", "JMMLU", TaskType.HE)
-    jnli_exact_match = Task("scores", "jnli_exact_match", "JNLI", TaskType.NLI)
-    jsem_exact_match = Task("scores", "jsem_exact_match", "JSEM", TaskType.NLI)
-    jsick_exact_match = Task("scores", "jsick_exact_match", "JSICK", TaskType.NLI)
     jsquad_char_f1 = Task("scores", "jsquad_char_f1", "JSquad ⭐", TaskType.RC)
     jsts_pearson = Task(
         "scores", "jsts_pearson", "JSTS (Pearson)", TaskType.STS
@@ -68,18 +68,18 @@ class Tasks(Enum):
     jsts_spearman = Task(
         "scores", "jsts_spearman", "JSTS (Spearman)", TaskType.STS
     )  # Semantic Textual Similarity - 意味的類似度
-    kuci_exact_match = Task("scores", "kuci_exact_match", "KUCI", TaskType.MC)
     mawps_exact_match = Task("scores", "mawps_exact_match", "MAWPS ⭐", TaskType.MR)
     mbpp_code_exec = Task("scores", "mbpp_code_exec", "MBPP (exec) ⭐", TaskType.CG)
     mbpp_pylint_check = Task("scores", "mbpp_pylint_check", "MBPP (pylint)", TaskType.CG)
-    mmlu_en_exact_match = Task("scores", "mmlu_en_exact_match", "MMLU", TaskType.HE)
-    niilc_char_f1 = Task("scores", "niilc_char_f1", "NIILC", TaskType.QA)
-    aio_char_f1 = Task("scores", "aio_char_f1", "JAQKET", TaskType.QA)
-    wiki_coreference_set_f1 = Task("scores", "wiki_coreference_set_f1", "Wiki Coreference", TaskType.FA)
-    wiki_dependency_set_f1 = Task("scores", "wiki_dependency_set_f1", "Wiki Dependency", TaskType.FA)
-    wiki_ner_set_f1 = Task("scores", "wiki_ner_set_f1", "Wiki NER", TaskType.FA)
-    wiki_pas_set_f1 = Task("scores", "wiki_pas_set_f1", "Wiki PAS", TaskType.FA)
-    wiki_reading_char_f1 = Task("scores", "wiki_reading_char_f1", "Wiki Reading", TaskType.FA)
     wikicorpus_e_to_j_bert_score_ja_f1 = Task(
         "scores", "wikicorpus-e-to-j_bert_score_ja_f1", "WikiCorpus E to J BERT Score", TaskType.MT
     )
@@ -221,21 +221,13 @@ This task is supported by llm-jp-eval, but it is not included in the evaluation
 To reproduce our results, please follow the instructions of the evalution tool, **llm-jp-eval** available in [Japanese](https://github.com/llm-jp/llm-jp-eval/blob/main/README.md) and in [English](https://github.com/llm-jp/llm-jp-eval/blob/main/README_en.md).
 ## Average Score Calculation
-For the following task categories (RC, EL, MR, MT, CG, SUM), the tasks marked with ⭐ are included in the average calculation:
-Tasks included in average calculation:
-- RC: JSQuAD ⭐
-- EL: ChABSA ⭐
-- MR: MAWPS ⭐
-- MT: ALT E to J COMET WMT22 ⭐, ALT J to E COMET WMT22 ⭐, WikiCorpus E to J COMET WMT22 ⭐, WikiCorpus J to E COMET WMT22 ⭐
-- CG: MBPP (exec) ⭐
-- SUM: XL-Sum ROUGE2 ⭐
 """
 LLM_BENCHMARKS_TEXT_JA = """
 ## 仕組み
-📈 我々は評価ツール [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) を活用し、16種類のタスクで日本語の大規模言語モデルを評価します。このツールは、様々な評価タスクで日本語LLMを評価するための統一的なフレームワークです。
 **NLI（自然言語推論）**
@@ -293,7 +285,7 @@ LLM_BENCHMARKS_TEXT_JA = """
 **STS（意味的テキスト類似度）**
-このタスクはllm-jp-evalでサポートされていますが、評価スコアの平均には含まれていません。
 * `JSTS`、STS（Semantic Textual Similarity）の日本語版（JGLUEの一部）[ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
@@ -312,18 +304,10 @@ LLM_BENCHMARKS_TEXT_JA = """
 * `XL-Sum`、44言語の大規模多言語抽象型要約データセットの日本語部分 [ソース](https://github.com/csebuetnlp/xl-sum)（ライセンス CC BY-NC-SA 4.0、非商用ライセンスのため、このデータセットは使用しません。ライセンスと利用規約に明確に同意した場合を除きます）
 ## 再現性
-我々の結果を再現するには、評価ツール **llm-jp-eval** の指示に従ってください。詳細は [日本語](https://github.com/llm-jp/llm-jp-eval/blob/main/README.md) と [英語](https://github.com/llm-jp/llm-jp-eval/blob/main/README_en.md) でご覧いただけます。
 ## 平均スコアの計算について
-以下のタスクカテゴリー（RC、EL、MR、MT、CG、SUM）において、⭐マークの付いたタスクのみが平均値の計算に含まれます：
-平均値計算に含まれるタスク：
-- RC：JSQuAD ⭐
-- EL：ChABSA ⭐
-- MR：MAWPS ⭐
-- MT：ALT E to J COMET WMT22 ⭐、ALT J to E COMET WMT22 ⭐、WikiCorpus E to J COMET WMT22 ⭐、WikiCorpus J to E COMET WMT22 ⭐
-- CG：MBPP (exec) ⭐
-- SUM：XL-Sum ROUGE2 ⭐
 """

     alt_j_to_e_comet_wmt22 = Task("scores", "alt-j-to-e_comet_wmt22", "ALT J to E COMET WMT22 ⭐", TaskType.MT)
     chabsa_set_f1 = Task("scores", "chabsa_set_f1", "ChABSA ⭐", TaskType.EL)
     commonsensemoralja_exact_match = Task(
+        "scores", "commonsensemoralja_exact_match", "CommonSenseMoralJA ⭐", TaskType.MC
     )
+    jamp_exact_match = Task("scores", "jamp_exact_match", "JAMP ⭐", TaskType.NLI)
+    janli_exact_match = Task("scores", "janli_exact_match", "JANLI ⭐", TaskType.NLI)
+    jcommonsenseqa_exact_match = Task("scores", "jcommonsenseqa_exact_match", "JCommonSenseQA ⭐", TaskType.MC)
+    jemhopqa_char_f1 = Task("scores", "jemhopqa_char_f1", "JEMHopQA ⭐", TaskType.QA)
+    jmmlu_exact_match = Task("scores", "jmmlu_exact_match", "JMMLU ⭐", TaskType.HE)
+    jnli_exact_match = Task("scores", "jnli_exact_match", "JNLI ⭐", TaskType.NLI)
+    jsem_exact_match = Task("scores", "jsem_exact_match", "JSEM ⭐", TaskType.NLI)
+    jsick_exact_match = Task("scores", "jsick_exact_match", "JSICK ⭐", TaskType.NLI)
     jsquad_char_f1 = Task("scores", "jsquad_char_f1", "JSquad ⭐", TaskType.RC)
     jsts_pearson = Task(
         "scores", "jsts_pearson", "JSTS (Pearson)", TaskType.STS
     jsts_spearman = Task(
         "scores", "jsts_spearman", "JSTS (Spearman)", TaskType.STS
     )  # Semantic Textual Similarity - 意味的類似度
+    kuci_exact_match = Task("scores", "kuci_exact_match", "KUCI ⭐", TaskType.MC)
     mawps_exact_match = Task("scores", "mawps_exact_match", "MAWPS ⭐", TaskType.MR)
     mbpp_code_exec = Task("scores", "mbpp_code_exec", "MBPP (exec) ⭐", TaskType.CG)
     mbpp_pylint_check = Task("scores", "mbpp_pylint_check", "MBPP (pylint)", TaskType.CG)
+    mmlu_en_exact_match = Task("scores", "mmlu_en_exact_match", "MMLU ⭐", TaskType.HE)
+    niilc_char_f1 = Task("scores", "niilc_char_f1", "NIILC ⭐", TaskType.QA)
+    aio_char_f1 = Task("scores", "aio_char_f1", "JAQKET ⭐", TaskType.QA)
+    wiki_coreference_set_f1 = Task("scores", "wiki_coreference_set_f1", "Wiki Coreference ⭐", TaskType.FA)
+    wiki_dependency_set_f1 = Task("scores", "wiki_dependency_set_f1", "Wiki Dependency ⭐", TaskType.FA)
+    wiki_ner_set_f1 = Task("scores", "wiki_ner_set_f1", "Wiki NER ⭐", TaskType.FA)
+    wiki_pas_set_f1 = Task("scores", "wiki_pas_set_f1", "Wiki PAS ⭐", TaskType.FA)
+    wiki_reading_char_f1 = Task("scores", "wiki_reading_char_f1", "Wiki Reading ⭐", TaskType.FA)
     wikicorpus_e_to_j_bert_score_ja_f1 = Task(
         "scores", "wikicorpus-e-to-j_bert_score_ja_f1", "WikiCorpus E to J BERT Score", TaskType.MT
     )
 To reproduce our results, please follow the instructions of the evalution tool, **llm-jp-eval** available in [Japanese](https://github.com/llm-jp/llm-jp-eval/blob/main/README.md) and in [English](https://github.com/llm-jp/llm-jp-eval/blob/main/README_en.md).
 ## Average Score Calculation
+The calculation of the average score (AVG) includes only the scores marked with a ⭐.
 """
 LLM_BENCHMARKS_TEXT_JA = """
 ## 仕組み
+📈 評価ツール [llm-jp-eval](https://github.com/llm-jp/llm-jp-eval) を活用し、16種類のタスクで日本語の大規模言語モデルを評価します。このツールは、様々な評価タスクで日本語LLMを評価するための統一的なフレームワークです。
 **NLI（自然言語推論）**
 **STS（意味的テキスト類似度）**
+このタスクはllm-jp-evalでサポートされていますが、平均スコア (AVG) の計算には含まれていません。
 * `JSTS`、STS（Semantic Textual Similarity）の日本語版（JGLUEの一部）[ソース](https://github.com/yahoojapan/JGLUE)（ライセンス CC BY-SA 4.0）
 * `XL-Sum`、44言語の大規模多言語抽象型要約データセットの日本語部分 [ソース](https://github.com/csebuetnlp/xl-sum)（ライセンス CC BY-NC-SA 4.0、非商用ライセンスのため、このデータセットは使用しません。ライセンスと利用規約に明確に同意した場合を除きます）
 ## 再現性
+結果を再現するには、評価ツール **llm-jp-eval** の指示に従ってください。詳細は [日本語](https://github.com/llm-jp/llm-jp-eval/blob/main/README.md) と [英語](https://github.com/llm-jp/llm-jp-eval/blob/main/README_en.md) でご覧いただけます。
 ## 平均スコアの計算について
+平均スコア (AVG) の計算には、⭐マークのついたスコアのみが含まれます
 """