General-Level commited on
Commit
4e57cb6
·
1 Parent(s): 0eb3766

resubmit README

Browse files
Files changed (1) hide show
  1. README.md +0 -80
README.md CHANGED
@@ -1,4 +1,3 @@
1
- <<<<<<< HEAD
2
  ---
3
  title: README
4
  emoji: 🌍
@@ -132,82 +131,3 @@ If you find our benchmark useful in your research, please kindly consider citing
132
  ```
133
 
134
 
135
- =======
136
- # GenBench 评分系统 - 用户使用说明
137
-
138
- 本系统用于评估大模型在 General-Bench 多模态任务集上的表现,可完成预测、评分和最终得分计算。
139
-
140
- ## 环境准备
141
-
142
- - Python 3.9 及以上
143
- - 推荐提前安装依赖(如 pandas, numpy, openpyxl 等)
144
- - Video Generation评测,需要按照video_generation_evaluation/README.md中的步骤安装依赖
145
- - Video Comprehension评测,需要按照[sa2va](https://github.com/magic-research/Sa2VA)中的README.md中的步骤安装依赖。
146
-
147
- ## 数据集下载
148
-
149
- - **Open Set(公开数据集)**:请从 [HuggingFace General-Bench-Openset](https://huggingface.co/datasets/General-Level/General-Bench-Openset) 下载全部数据,解压后放入 `General-Bench-Openset/` 目录。
150
- - **Close Set(私有数据集)**:请从 [HuggingFace General-Bench-Closeset](https://huggingface.co/datasets/General-Level/General-Bench-Closeset) 下载全部数据,解压后放入 `General-Bench-Closeset/` 目录。
151
-
152
- ## 一键运行
153
-
154
- 请直接运行主脚本 `run.sh`,即可完成全部流程:
155
-
156
- ```bash
157
- bash run.sh
158
- ```
159
-
160
- 该命令将依次完成:
161
- 1. 生成各模态预测结果
162
- 2. 计算各任务得分
163
- 3. 计算最终 Level 得分
164
-
165
- ## 分步运行(可选)
166
-
167
- 如只需运行部分步骤,可使用 `--step` 参数:
168
-
169
- - 只运行第1步(生成预测):
170
- ```bash
171
- bash run.sh --step 1
172
- ```
173
- - 只运行第1、2步:
174
- ```bash
175
- bash run.sh --step 12
176
- ```
177
- - 只运行第2、3步:
178
- ```bash
179
- bash run.sh --step 23
180
- ```
181
- - 不加参数默认全部执行(等价于 `--step 123`)
182
-
183
- - 步骤1:生成预测结果prediction.json,存在每一个数据集的annotation.json同级目录下
184
- - 步骤2:计算每个任务的得分,存在outcome/{model_name}_result.xlsx中
185
- - 步骤3:计算相关模型的Level得分
186
-
187
- > **注意:**
188
- > - 使用 **Close Set(私有数据集)** 时,只需运行 step1(即 `bash run.sh --step 1`),并将生成的 prediction.json 提交到系统。
189
- > - 使用 **Open Set(公开数据集)** 时,需依次运行 step1、step2、step3(即 `bash run.sh --step 123`),完成全部评测流程。
190
-
191
- ## 结果查看
192
-
193
- - 预测结果(prediction.json)会输出到每个任务对应的数据集文件夹下,与 annotation.json 同级。
194
- - 评分结果(如 Qwen2.5-7B-Instruct_result.xlsx)会输出到 outcome/ 目录。
195
- - 最终 Level 得分会直接在终端打印输出。
196
-
197
- ## 目录说明
198
-
199
- - `General-Bench-Openset/`:公开数据集目录
200
- - `General-Bench-Closeset/`:私有数据集目录
201
- - `outcome/`:输出结果目录
202
- - `references/`:参考模板目录
203
- - `run.sh`:主运行脚本(推荐用户只用此脚本)
204
-
205
- ## 常见问题
206
-
207
- - 如遇依赖缺失,请根据报错信息安装相应 Python 包。
208
- - 如需自定义模型或数据路径,可编辑 `run.sh` 脚本中的相关变量。
209
-
210
- ---
211
-
212
- 如需进一步帮助,请联系系统维护者或查阅详细开发文档。
213
- >>>>>>> 6f59817 (submit NLP Video Audio)
 
 
1
  ---
2
  title: README
3
  emoji: 🌍
 
131
  ```
132
 
133