kz-transformers commited on
Commit
2384501
·
verified ·
1 Parent(s): e74bbec

Update src/display/about.py

Browse files
Files changed (1) hide show
  1. src/display/about.py +14 -43
src/display/about.py CHANGED
@@ -1,6 +1,6 @@
1
  from src.display.utils import ModelType
2
 
3
- TITLE = """<h1 style="text-align:left;float:left; id="space-title">🤗 Small Shlepa LLM Leaderboard</h1> <h3 style="text-align:left;float:left;> Track, rank and evaluate open LLMs and chatbots </h3>"""
4
 
5
  INTRODUCTION_TEXT = """
6
  """
@@ -16,18 +16,18 @@ icons = f"""
16
  LLM_BENCHMARKS_TEXT = """
17
  ## En:
18
 
19
- Small Shlepa is a benchmark for LLM with multiple-choice tasks on the following topics:
20
- - Complex interdisciplinary questions (MMLUpro-ru)
21
- - Laws of the Russian Federation (lawmc)
22
- - Popular music (musicmc)
23
- - Books (bookmc)
24
- - Movies (moviemc)
25
- Each task contains 12 answer choices, mmlupro-ru has 10.
26
  ## Instructions for Use
27
  ### Installation
28
  To install the necessary library, run the following command:
29
  ```bash
30
- pip install git+https://github.com/VikhrModels/lm_eval_mc.git --upgrade --force-reinstall --no-deps
31
  ```
32
  ### Execution
33
  To run the benchmark, use the following command:
@@ -35,10 +35,10 @@ To run the benchmark, use the following command:
35
  !lm_eval \
36
  --model hf \
37
  --model_args pretrained={hf/model},dtype=float16 \
38
- --batch_size 8 \
39
  --apply_chat_template \
40
  --num_fewshot 0 \
41
- --tasks musicmc,moviemc,bookmc,lawmc,mmluproru \
42
  --output output
43
  ```
44
  ### Results
@@ -47,38 +47,9 @@ After executing the above command, a JSON file will be created in the `output` d
47
  If cheating or attempts to modify the output file are detected, we reserve the right to delete your submission.
48
  Thank you for participating!
49
 
50
- ## Ru:
51
-
52
- Маленький Шлепа это бенчмарк для LLM с задачами множественного выбора (multichoice) по следующим темам:
53
- - Сложные междисциплинные вопросы (MMLUpro-ru)
54
- - Законы Российской Федерации (lawmc)
55
- - Популярная музыка (musicmc)
56
- - Книги (bookmc)
57
- - Фильмы (moviemc)
58
- Каждая задача содержит 12 вариантов ответа, mmlupro-ru из 10.
59
- ## Инструкция по использованию
60
- ### Установка
61
- Для установки необходимой библиотеки выполните следующую команду:
62
- ```bash
63
- pip install git+https://github.com/VikhrModels/lm_eval_mc.git --upgrade --force-reinstall --no-deps
64
- ```
65
- ### Запуск
66
- Для запуска бенча используйте следующую команду:
67
- ```bash
68
- !lm_eval \
69
- --model hf \
70
- --model_args pretrained={hf/model},dtype=float16 \
71
- --batch_size 8 \
72
- --apply_chat_template \
73
- --num_fewshot 0 \
74
- --tasks musicmc,moviemc,bookmc,lawmc,mmluproru \
75
- --output output
76
- ```
77
- ### Результаты
78
- После выполнения команды выше, в каталоге `output` будет создан файл в формате json, его необходимо прикрепить. Этот файл содержит результаты выполнения задач и описание сессии, его **нельзя модифицировать**.
79
- ## Политика против читерства
80
- При обнаружении читерства или попыток модификации выходного файла, мы оставляем за собой право удалить ваш сабмишен.
81
- Спасибо за участие!
82
 
83
  Cite: @misc{aleks2024vikhr,
84
  title={Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian},
 
1
  from src.display.utils import ModelType
2
 
3
+ TITLE = """<h1 style="text-align:left;float:left; id="space-title">🤗 Kaz LLM Leaderboard</h1> <h3 style="text-align:left;float:left;> Track, rank and evaluate open LLMs and chatbots </h3>"""
4
 
5
  INTRODUCTION_TEXT = """
6
  """
 
16
  LLM_BENCHMARKS_TEXT = """
17
  ## En:
18
 
19
+ Kaz LLM is a benchmark for LLM with multiple-choice tasks on the following topics:
20
+ - mmlu-translated-kk
21
+ - gsm8k-kk-translated
22
+ - kazakh-unified-national-testing-mc
23
+ - kazakh-constitution-mc
24
+ - kazakh-dastur-mc
25
+ Each task contains 4 answer choices, mmlu-translated-kk has ??.
26
  ## Instructions for Use
27
  ### Installation
28
  To install the necessary library, run the following command:
29
  ```bash
30
+ pip install git+https://github.com/horde-research/kaz-llm-eval-lb.git --upgrade --force-reinstall --no-deps
31
  ```
32
  ### Execution
33
  To run the benchmark, use the following command:
 
35
  !lm_eval \
36
  --model hf \
37
  --model_args pretrained={hf/model},dtype=float16 \
38
+ --batch_size 1 \
39
  --apply_chat_template \
40
  --num_fewshot 0 \
41
+ --tasks kazakh-dastur-mc \
42
  --output output
43
  ```
44
  ### Results
 
47
  If cheating or attempts to modify the output file are detected, we reserve the right to delete your submission.
48
  Thank you for participating!
49
 
50
+ ## KZ:
51
+
52
+ to be filled
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
53
 
54
  Cite: @misc{aleks2024vikhr,
55
  title={Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian},