ai-forever commited on
Commit
2b0b07f
·
verified ·
1 Parent(s): 1e69798

Init results file.

Browse files
Files changed (1) hide show
  1. results.json +423 -411
results.json CHANGED
@@ -1,412 +1,424 @@
1
- {
2
- "items": {
3
- "1.34.1": {
4
- "e08710e0497a40a19335f00e33ff5169": {
5
- "model_name": "Qwen2.5-32B-Instruct",
6
- "timestamp": "2025-07-03T13:59:41",
7
- "config": {
8
- "embedding_model": "FRIDA_0",
9
- "retriever_type": "mmr",
10
- "retrieval_config": {
11
- "top_k": 5,
12
- "chunk_size": 500,
13
- "chunk_overlap": 100
14
- }
15
- },
16
- "metrics": {
17
- "simple": {
18
- "retrieval": {
19
- "hit_rate": 0.8066666666666666,
20
- "mrr": 0.8066666666666666,
21
- "precision": 0.8066666666666666
22
- },
23
- "generation": {
24
- "rouge1": 0.43398257014170327,
25
- "rougeL": 0.4312788664379995
26
- }
27
- },
28
- "cond": {
29
- "retrieval": {
30
- "hit_rate": 0.7866666666666666,
31
- "mrr": 0.7866666666666666,
32
- "precision": 0.7866666666666666
33
- },
34
- "generation": {
35
- "rouge1": 0.6388590785598907,
36
- "rougeL": 0.6388590785598907
37
- }
38
- },
39
- "set": {
40
- "retrieval": {
41
- "hit_rate": 0.74,
42
- "mrr": 0.74,
43
- "precision": 0.74
44
- },
45
- "generation": {
46
- "rouge1": 0.2568338011871614,
47
- "rougeL": 0.19417994362310756
48
- }
49
- },
50
- "mh": {
51
- "retrieval": {
52
- "hit_rate": 0.78,
53
- "mrr": 0.78,
54
- "precision": 0.78
55
- },
56
- "generation": {
57
- "rouge1": 0.5099486232721527,
58
- "rougeL": 0.5096152899388193
59
- }
60
- },
61
- "overall": {
62
- "retrieval": {
63
- "hit_rate": 0.7783333333333333,
64
- "mrr": 0.7783333333333333,
65
- "precision": 0.7783333333333333
66
- },
67
- "generation": {
68
- "rouge1": 0.45990601829022704,
69
- "rougeL": 0.44348329463995434
70
- }
71
- },
72
- "judge": {
73
- "judge_completeness_score": 1.315,
74
- "judge_cons_w_real_world_score": 1.5933333333333333,
75
- "judge_correctness_score": 1.6533333333333333,
76
- "judge_factual_accuracy_score": 1.4183333333333332,
77
- "judge_fluff_score": 1.7966666666666666,
78
- "judge_pres_details_score": 1.5266666666666666,
79
- "judge_total_score": 1.5505555555555555
80
- }
81
- },
82
- "metadata": {
83
- "n_questions": 600,
84
- "submit_timestamp": ""
85
- }
86
- },
87
- "9e772c1476f54f8d951c56a7641ad39e": {
88
- "model_name": "Qwen2.5-32B-Instruct",
89
- "timestamp": "2025-07-03T13:59:52",
90
- "config": {
91
- "embedding_model": "Qwen3-Embedding-8B_2",
92
- "retriever_type": "mmr",
93
- "retrieval_config": {}
94
- },
95
- "metrics": {
96
- "simple": {
97
- "retrieval": {
98
- "hit_rate": 0.9533333333333334,
99
- "mrr": 0.8910634920634921,
100
- "precision": 0.16466666666666663
101
- },
102
- "generation": {
103
- "rouge1": 0.14963729657137595,
104
- "rougeL": 0.14963729657137595
105
- }
106
- },
107
- "cond": {
108
- "retrieval": {
109
- "hit_rate": 0.96,
110
- "mrr": 0.8960079365079364,
111
- "precision": 0.18133333333333335
112
- },
113
- "generation": {
114
- "rouge1": 0.2761723569541383,
115
- "rougeL": 0.2761723569541383
116
- }
117
- },
118
- "set": {
119
- "retrieval": {
120
- "hit_rate": 0.9533333333333334,
121
- "mrr": 0.8746825396825396,
122
- "precision": 0.16666666666666666
123
- },
124
- "generation": {
125
- "rouge1": 0.1298719612841915,
126
- "rougeL": 0.10841675633484674
127
- }
128
- },
129
- "mh": {
130
- "retrieval": {
131
- "hit_rate": 0.9666666666666667,
132
- "mrr": 0.8398306878306879,
133
- "precision": 0.14933333333333332
134
- },
135
- "generation": {
136
- "rouge1": 0.27951014007174413,
137
- "rougeL": 0.27951014007174413
138
- }
139
- },
140
- "overall": {
141
- "retrieval": {
142
- "hit_rate": 0.9583333333333334,
143
- "mrr": 0.8753961640211639,
144
- "precision": 0.1655
145
- },
146
- "generation": {
147
- "rouge1": 0.20879793872036248,
148
- "rougeL": 0.20343413748302627
149
- }
150
- },
151
- "judge": {
152
- "judge_completeness_score": 0.6533333333333333,
153
- "judge_cons_w_real_world_score": 0.9466666666666667,
154
- "judge_correctness_score": 1.275,
155
- "judge_factual_accuracy_score": 0.8083333333333333,
156
- "judge_fluff_score": 1.075,
157
- "judge_pres_details_score": 0.7916666666666666,
158
- "judge_total_score": 0.9250000000000002
159
- }
160
- },
161
- "metadata": {
162
- "n_questions": 600,
163
- "submit_timestamp": ""
164
- }
165
- },
166
- "d6ccf3ae4d874a1e8fd256e07a9189d7": {
167
- "model_name": "Qwen2.5-7B-Instruct",
168
- "timestamp": "2025-07-03T14:00:00",
169
- "config": {
170
- "embedding_model": "e5-mistral-7b-instruct_2",
171
- "retriever_type": "mmr",
172
- "retrieval_config": {}
173
- },
174
- "metrics": {
175
- "simple": {
176
- "retrieval": {
177
- "hit_rate": 0.94,
178
- "mrr": 0.8339814814814815,
179
- "precision": 0.16666666666666666
180
- },
181
- "generation": {
182
- "rouge1": 0.12809115762301465,
183
- "rougeL": 0.12720226873412577
184
- }
185
- },
186
- "cond": {
187
- "retrieval": {
188
- "hit_rate": 0.9733333333333334,
189
- "mrr": 0.8786931216931217,
190
- "precision": 0.17733333333333332
191
- },
192
- "generation": {
193
- "rouge1": 0.22438283005922466,
194
- "rougeL": 0.22407979975619435
195
- }
196
- },
197
- "set": {
198
- "retrieval": {
199
- "hit_rate": 0.9133333333333333,
200
- "mrr": 0.8075925925925925,
201
- "precision": 0.164
202
- },
203
- "generation": {
204
- "rouge1": 0.11787408709850448,
205
- "rougeL": 0.09943376362370457
206
- }
207
- },
208
- "mh": {
209
- "retrieval": {
210
- "hit_rate": 0.9533333333333334,
211
- "mrr": 0.8364444444444444,
212
- "precision": 0.156
213
- },
214
- "generation": {
215
- "rouge1": 0.17552305949148053,
216
- "rougeL": 0.17552305949148053
217
- }
218
- },
219
- "overall": {
220
- "retrieval": {
221
- "hit_rate": 0.945,
222
- "mrr": 0.8391779100529101,
223
- "precision": 0.16599999999999998
224
- },
225
- "generation": {
226
- "rouge1": 0.16146778356805608,
227
- "rougeL": 0.15655972290137632
228
- }
229
- },
230
- "judge": {
231
- "judge_completeness_score": 0.5292153589315526,
232
- "judge_cons_w_real_world_score": 0.895,
233
- "judge_correctness_score": 1.255,
234
- "judge_factual_accuracy_score": 0.71,
235
- "judge_fluff_score": 0.9266666666666666,
236
- "judge_pres_details_score": 0.6583333333333333,
237
- "judge_total_score": 0.8290358931552587
238
- }
239
- },
240
- "metadata": {
241
- "n_questions": 600,
242
- "submit_timestamp": ""
243
- }
244
- },
245
- "3ffd4582172e4dd08a6df3a2bc7b0a70": {
246
- "model_name": "RuadaptQwen2.5-32B-Instruct",
247
- "timestamp": "2025-07-03T14:00:09",
248
- "config": {
249
- "embedding_model": "FRIDA_2",
250
- "retriever_type": "mmr",
251
- "retrieval_config": {}
252
- },
253
- "metrics": {
254
- "simple": {
255
- "retrieval": {
256
- "hit_rate": 0.9,
257
- "mrr": 0.835867724867725,
258
- "precision": 0.128
259
- },
260
- "generation": {
261
- "rouge1": 0.1989593421164771,
262
- "rougeL": 0.1989593421164771
263
- }
264
- },
265
- "cond": {
266
- "retrieval": {
267
- "hit_rate": 0.9066666666666666,
268
- "mrr": 0.8335555555555555,
269
- "precision": 0.14066666666666666
270
- },
271
- "generation": {
272
- "rouge1": 0.30769111937570354,
273
- "rougeL": 0.30769111937570354
274
- }
275
- },
276
- "set": {
277
- "retrieval": {
278
- "hit_rate": 0.9,
279
- "mrr": 0.7952301587301587,
280
- "precision": 0.1293333333333333
281
- },
282
- "generation": {
283
- "rouge1": 0.13627692051127355,
284
- "rougeL": 0.11183016718646731
285
- }
286
- },
287
- "mh": {
288
- "retrieval": {
289
- "hit_rate": 0.9466666666666667,
290
- "mrr": 0.8368492063492063,
291
- "precision": 0.1333333333333333
292
- },
293
- "generation": {
294
- "rouge1": 0.3335992099545257,
295
- "rougeL": 0.3335992099545257
296
- }
297
- },
298
- "overall": {
299
- "retrieval": {
300
- "hit_rate": 0.9133333333333333,
301
- "mrr": 0.8253756613756614,
302
- "precision": 0.13283333333333333
303
- },
304
- "generation": {
305
- "rouge1": 0.244131647989495,
306
- "rougeL": 0.2380199596582934
307
- }
308
- },
309
- "judge": {
310
- "judge_completeness_score": 0.7183333333333334,
311
- "judge_cons_w_real_world_score": 0.9916666666666667,
312
- "judge_correctness_score": 1.32,
313
- "judge_factual_accuracy_score": 0.8133333333333334,
314
- "judge_fluff_score": 1.18,
315
- "judge_pres_details_score": 0.855,
316
- "judge_total_score": 0.9797222222222223
317
- }
318
- },
319
- "metadata": {
320
- "n_questions": 600,
321
- "submit_timestamp": ""
322
- }
323
- },
324
- "d66fbb03979543989be8a24919e165b1": {
325
- "model_name": "RuadaptQwen2.5-32B-Instruct",
326
- "timestamp": "2025-07-03T14:00:18",
327
- "config": {
328
- "embedding_model": "multilingual-e5-large-instruct_0",
329
- "retriever_type": "mmr",
330
- "retrieval_config": {
331
- "top_k": 5,
332
- "chunk_size": 500,
333
- "chunk_overlap": 100
334
- }
335
- },
336
- "metrics": {
337
- "simple": {
338
- "retrieval": {
339
- "hit_rate": 0.8133333333333334,
340
- "mrr": 0.8133333333333334,
341
- "precision": 0.8133333333333334
342
- },
343
- "generation": {
344
- "rouge1": 0.45255226155184874,
345
- "rougeL": 0.4515456138785345
346
- }
347
- },
348
- "cond": {
349
- "retrieval": {
350
- "hit_rate": 0.8133333333333334,
351
- "mrr": 0.8133333333333334,
352
- "precision": 0.8133333333333334
353
- },
354
- "generation": {
355
- "rouge1": 0.6798364760632296,
356
- "rougeL": 0.6798364760632296
357
- }
358
- },
359
- "set": {
360
- "retrieval": {
361
- "hit_rate": 0.78,
362
- "mrr": 0.78,
363
- "precision": 0.78
364
- },
365
- "generation": {
366
- "rouge1": 0.2609808845363136,
367
- "rougeL": 0.20473159754370324
368
- }
369
- },
370
- "mh": {
371
- "retrieval": {
372
- "hit_rate": 0.76,
373
- "mrr": 0.76,
374
- "precision": 0.76
375
- },
376
- "generation": {
377
- "rouge1": 0.5212195956548682,
378
- "rougeL": 0.5212195956548682
379
- }
380
- },
381
- "overall": {
382
- "retrieval": {
383
- "hit_rate": 0.7916666666666666,
384
- "mrr": 0.7916666666666666,
385
- "precision": 0.7916666666666666
386
- },
387
- "generation": {
388
- "rouge1": 0.4786473044515651,
389
- "rougeL": 0.4643333207850839
390
- }
391
- },
392
- "judge": {
393
- "judge_completeness_score": 1.3233333333333333,
394
- "judge_cons_w_real_world_score": 1.59,
395
- "judge_correctness_score": 1.67,
396
- "judge_factual_accuracy_score": 1.4483333333333333,
397
- "judge_fluff_score": 1.8433333333333333,
398
- "judge_pres_details_score": 1.5333333333333334,
399
- "judge_total_score": 1.5680555555555555
400
- }
401
- },
402
- "metadata": {
403
- "n_questions": 600,
404
- "submit_timestamp": ""
405
- }
406
- }
407
- }
408
- },
409
- "last_version": "1.34.1",
410
- "n_questions": 600,
411
- "date_title": "03 \u0438\u044e\u043b\u044f 2025"
 
 
 
 
 
 
 
 
 
 
 
 
412
  }
 
1
+ {
2
+ "items": {
3
+ "1.34.1": {
4
+ "e08710e0497a40a19335f00e33ff5169": {
5
+ "model_name": "Qwen2.5-32B-Instruct",
6
+ "timestamp": "2025-07-03T13:59:41",
7
+ "config": {
8
+ "embedding_model": "FRIDA_0",
9
+ "retriever_type": "mmr",
10
+ "retrieval_config": {
11
+ "top_k": 5,
12
+ "chunk_size": 500,
13
+ "chunk_overlap": 100
14
+ }
15
+ },
16
+ "metrics": {
17
+ "simple": {
18
+ "retrieval": {
19
+ "hit_rate": 0.8066666666666666,
20
+ "mrr": 0.8066666666666666,
21
+ "precision": 0.8066666666666666
22
+ },
23
+ "generation": {
24
+ "rouge1": 0.43398257014170327,
25
+ "rougeL": 0.4312788664379995
26
+ }
27
+ },
28
+ "cond": {
29
+ "retrieval": {
30
+ "hit_rate": 0.7866666666666666,
31
+ "mrr": 0.7866666666666666,
32
+ "precision": 0.7866666666666666
33
+ },
34
+ "generation": {
35
+ "rouge1": 0.6388590785598907,
36
+ "rougeL": 0.6388590785598907
37
+ }
38
+ },
39
+ "set": {
40
+ "retrieval": {
41
+ "hit_rate": 0.74,
42
+ "mrr": 0.74,
43
+ "precision": 0.74
44
+ },
45
+ "generation": {
46
+ "rouge1": 0.2568338011871614,
47
+ "rougeL": 0.19417994362310756
48
+ }
49
+ },
50
+ "mh": {
51
+ "retrieval": {
52
+ "hit_rate": 0.78,
53
+ "mrr": 0.78,
54
+ "precision": 0.78
55
+ },
56
+ "generation": {
57
+ "rouge1": 0.5099486232721527,
58
+ "rougeL": 0.5096152899388193
59
+ }
60
+ },
61
+ "overall": {
62
+ "retrieval": {
63
+ "hit_rate": 0.7783333333333333,
64
+ "mrr": 0.7783333333333333,
65
+ "precision": 0.7783333333333333
66
+ },
67
+ "generation": {
68
+ "rouge1": 0.45990601829022704,
69
+ "rougeL": 0.44348329463995434
70
+ }
71
+ },
72
+ "judge": {
73
+ "judge_completeness_score": 1.315,
74
+ "judge_cons_w_real_world_score": 1.5933333333333333,
75
+ "judge_correctness_score": 1.6533333333333333,
76
+ "judge_factual_accuracy_score": 1.4183333333333332,
77
+ "judge_fluff_score": 1.7966666666666666,
78
+ "judge_pres_details_score": 1.5266666666666666,
79
+ "judge_total_score": 1.5505555555555555
80
+ }
81
+ },
82
+ "metadata": {
83
+ "n_questions": 600,
84
+ "submit_timestamp": ""
85
+ }
86
+ },
87
+ "9e772c1476f54f8d951c56a7641ad39e": {
88
+ "model_name": "Qwen2.5-32B-Instruct",
89
+ "timestamp": "2025-07-03T13:59:52",
90
+ "config": {
91
+ "embedding_model": "Qwen3-Embedding-8B_2",
92
+ "retriever_type": "mmr",
93
+ "retrieval_config": {
94
+ "top_k": 20,
95
+ "chunk_size": 500,
96
+ "chunk_overlap": 100
97
+ }
98
+ },
99
+ "metrics": {
100
+ "simple": {
101
+ "retrieval": {
102
+ "hit_rate": 0.9533333333333334,
103
+ "mrr": 0.8910634920634921,
104
+ "precision": 0.16466666666666663
105
+ },
106
+ "generation": {
107
+ "rouge1": 0.14963729657137595,
108
+ "rougeL": 0.14963729657137595
109
+ }
110
+ },
111
+ "cond": {
112
+ "retrieval": {
113
+ "hit_rate": 0.96,
114
+ "mrr": 0.8960079365079364,
115
+ "precision": 0.18133333333333335
116
+ },
117
+ "generation": {
118
+ "rouge1": 0.2761723569541383,
119
+ "rougeL": 0.2761723569541383
120
+ }
121
+ },
122
+ "set": {
123
+ "retrieval": {
124
+ "hit_rate": 0.9533333333333334,
125
+ "mrr": 0.8746825396825396,
126
+ "precision": 0.16666666666666666
127
+ },
128
+ "generation": {
129
+ "rouge1": 0.1298719612841915,
130
+ "rougeL": 0.10841675633484674
131
+ }
132
+ },
133
+ "mh": {
134
+ "retrieval": {
135
+ "hit_rate": 0.9666666666666667,
136
+ "mrr": 0.8398306878306879,
137
+ "precision": 0.14933333333333332
138
+ },
139
+ "generation": {
140
+ "rouge1": 0.27951014007174413,
141
+ "rougeL": 0.27951014007174413
142
+ }
143
+ },
144
+ "overall": {
145
+ "retrieval": {
146
+ "hit_rate": 0.9583333333333334,
147
+ "mrr": 0.8753961640211639,
148
+ "precision": 0.1655
149
+ },
150
+ "generation": {
151
+ "rouge1": 0.20879793872036248,
152
+ "rougeL": 0.20343413748302627
153
+ }
154
+ },
155
+ "judge": {
156
+ "judge_completeness_score": 0.6533333333333333,
157
+ "judge_cons_w_real_world_score": 0.9466666666666667,
158
+ "judge_correctness_score": 1.275,
159
+ "judge_factual_accuracy_score": 0.8083333333333333,
160
+ "judge_fluff_score": 1.075,
161
+ "judge_pres_details_score": 0.7916666666666666,
162
+ "judge_total_score": 0.9250000000000002
163
+ }
164
+ },
165
+ "metadata": {
166
+ "n_questions": 600,
167
+ "submit_timestamp": ""
168
+ }
169
+ },
170
+ "d6ccf3ae4d874a1e8fd256e07a9189d7": {
171
+ "model_name": "Qwen2.5-7B-Instruct",
172
+ "timestamp": "2025-07-03T14:00:00",
173
+ "config": {
174
+ "embedding_model": "e5-mistral-7b-instruct_2",
175
+ "retriever_type": "mmr",
176
+ "retrieval_config": {
177
+ "top_k": 20,
178
+ "chunk_size": 500,
179
+ "chunk_overlap": 100
180
+ }
181
+ },
182
+ "metrics": {
183
+ "simple": {
184
+ "retrieval": {
185
+ "hit_rate": 0.94,
186
+ "mrr": 0.8339814814814815,
187
+ "precision": 0.16666666666666666
188
+ },
189
+ "generation": {
190
+ "rouge1": 0.12809115762301465,
191
+ "rougeL": 0.12720226873412577
192
+ }
193
+ },
194
+ "cond": {
195
+ "retrieval": {
196
+ "hit_rate": 0.9733333333333334,
197
+ "mrr": 0.8786931216931217,
198
+ "precision": 0.17733333333333332
199
+ },
200
+ "generation": {
201
+ "rouge1": 0.22438283005922466,
202
+ "rougeL": 0.22407979975619435
203
+ }
204
+ },
205
+ "set": {
206
+ "retrieval": {
207
+ "hit_rate": 0.9133333333333333,
208
+ "mrr": 0.8075925925925925,
209
+ "precision": 0.164
210
+ },
211
+ "generation": {
212
+ "rouge1": 0.11787408709850448,
213
+ "rougeL": 0.09943376362370457
214
+ }
215
+ },
216
+ "mh": {
217
+ "retrieval": {
218
+ "hit_rate": 0.9533333333333334,
219
+ "mrr": 0.8364444444444444,
220
+ "precision": 0.156
221
+ },
222
+ "generation": {
223
+ "rouge1": 0.17552305949148053,
224
+ "rougeL": 0.17552305949148053
225
+ }
226
+ },
227
+ "overall": {
228
+ "retrieval": {
229
+ "hit_rate": 0.945,
230
+ "mrr": 0.8391779100529101,
231
+ "precision": 0.16599999999999998
232
+ },
233
+ "generation": {
234
+ "rouge1": 0.16146778356805608,
235
+ "rougeL": 0.15655972290137632
236
+ }
237
+ },
238
+ "judge": {
239
+ "judge_completeness_score": 0.5292153589315526,
240
+ "judge_cons_w_real_world_score": 0.895,
241
+ "judge_correctness_score": 1.255,
242
+ "judge_factual_accuracy_score": 0.71,
243
+ "judge_fluff_score": 0.9266666666666666,
244
+ "judge_pres_details_score": 0.6583333333333333,
245
+ "judge_total_score": 0.8290358931552587
246
+ }
247
+ },
248
+ "metadata": {
249
+ "n_questions": 600,
250
+ "submit_timestamp": ""
251
+ }
252
+ },
253
+ "3ffd4582172e4dd08a6df3a2bc7b0a70": {
254
+ "model_name": "RuadaptQwen2.5-32B-Instruct",
255
+ "timestamp": "2025-07-03T14:00:09",
256
+ "config": {
257
+ "embedding_model": "FRIDA_2",
258
+ "retriever_type": "mmr",
259
+ "retrieval_config": {
260
+ "top_k": 20,
261
+ "chunk_size": 500,
262
+ "chunk_overlap": 100
263
+ }
264
+ },
265
+ "metrics": {
266
+ "simple": {
267
+ "retrieval": {
268
+ "hit_rate": 0.9,
269
+ "mrr": 0.835867724867725,
270
+ "precision": 0.128
271
+ },
272
+ "generation": {
273
+ "rouge1": 0.1989593421164771,
274
+ "rougeL": 0.1989593421164771
275
+ }
276
+ },
277
+ "cond": {
278
+ "retrieval": {
279
+ "hit_rate": 0.9066666666666666,
280
+ "mrr": 0.8335555555555555,
281
+ "precision": 0.14066666666666666
282
+ },
283
+ "generation": {
284
+ "rouge1": 0.30769111937570354,
285
+ "rougeL": 0.30769111937570354
286
+ }
287
+ },
288
+ "set": {
289
+ "retrieval": {
290
+ "hit_rate": 0.9,
291
+ "mrr": 0.7952301587301587,
292
+ "precision": 0.1293333333333333
293
+ },
294
+ "generation": {
295
+ "rouge1": 0.13627692051127355,
296
+ "rougeL": 0.11183016718646731
297
+ }
298
+ },
299
+ "mh": {
300
+ "retrieval": {
301
+ "hit_rate": 0.9466666666666667,
302
+ "mrr": 0.8368492063492063,
303
+ "precision": 0.1333333333333333
304
+ },
305
+ "generation": {
306
+ "rouge1": 0.3335992099545257,
307
+ "rougeL": 0.3335992099545257
308
+ }
309
+ },
310
+ "overall": {
311
+ "retrieval": {
312
+ "hit_rate": 0.9133333333333333,
313
+ "mrr": 0.8253756613756614,
314
+ "precision": 0.13283333333333333
315
+ },
316
+ "generation": {
317
+ "rouge1": 0.244131647989495,
318
+ "rougeL": 0.2380199596582934
319
+ }
320
+ },
321
+ "judge": {
322
+ "judge_completeness_score": 0.7183333333333334,
323
+ "judge_cons_w_real_world_score": 0.9916666666666667,
324
+ "judge_correctness_score": 1.32,
325
+ "judge_factual_accuracy_score": 0.8133333333333334,
326
+ "judge_fluff_score": 1.18,
327
+ "judge_pres_details_score": 0.855,
328
+ "judge_total_score": 0.9797222222222223
329
+ }
330
+ },
331
+ "metadata": {
332
+ "n_questions": 600,
333
+ "submit_timestamp": ""
334
+ }
335
+ },
336
+ "d66fbb03979543989be8a24919e165b1": {
337
+ "model_name": "RuadaptQwen2.5-32B-Instruct",
338
+ "timestamp": "2025-07-03T14:00:18",
339
+ "config": {
340
+ "embedding_model": "multilingual-e5-large-instruct_0",
341
+ "retriever_type": "mmr",
342
+ "retrieval_config": {
343
+ "top_k": 5,
344
+ "chunk_size": 500,
345
+ "chunk_overlap": 100
346
+ }
347
+ },
348
+ "metrics": {
349
+ "simple": {
350
+ "retrieval": {
351
+ "hit_rate": 0.8133333333333334,
352
+ "mrr": 0.8133333333333334,
353
+ "precision": 0.8133333333333334
354
+ },
355
+ "generation": {
356
+ "rouge1": 0.45255226155184874,
357
+ "rougeL": 0.4515456138785345
358
+ }
359
+ },
360
+ "cond": {
361
+ "retrieval": {
362
+ "hit_rate": 0.8133333333333334,
363
+ "mrr": 0.8133333333333334,
364
+ "precision": 0.8133333333333334
365
+ },
366
+ "generation": {
367
+ "rouge1": 0.6798364760632296,
368
+ "rougeL": 0.6798364760632296
369
+ }
370
+ },
371
+ "set": {
372
+ "retrieval": {
373
+ "hit_rate": 0.78,
374
+ "mrr": 0.78,
375
+ "precision": 0.78
376
+ },
377
+ "generation": {
378
+ "rouge1": 0.2609808845363136,
379
+ "rougeL": 0.20473159754370324
380
+ }
381
+ },
382
+ "mh": {
383
+ "retrieval": {
384
+ "hit_rate": 0.76,
385
+ "mrr": 0.76,
386
+ "precision": 0.76
387
+ },
388
+ "generation": {
389
+ "rouge1": 0.5212195956548682,
390
+ "rougeL": 0.5212195956548682
391
+ }
392
+ },
393
+ "overall": {
394
+ "retrieval": {
395
+ "hit_rate": 0.7916666666666666,
396
+ "mrr": 0.7916666666666666,
397
+ "precision": 0.7916666666666666
398
+ },
399
+ "generation": {
400
+ "rouge1": 0.4786473044515651,
401
+ "rougeL": 0.4643333207850839
402
+ }
403
+ },
404
+ "judge": {
405
+ "judge_completeness_score": 1.3233333333333333,
406
+ "judge_cons_w_real_world_score": 1.59,
407
+ "judge_correctness_score": 1.67,
408
+ "judge_factual_accuracy_score": 1.4483333333333333,
409
+ "judge_fluff_score": 1.8433333333333333,
410
+ "judge_pres_details_score": 1.5333333333333334,
411
+ "judge_total_score": 1.5680555555555555
412
+ }
413
+ },
414
+ "metadata": {
415
+ "n_questions": 600,
416
+ "submit_timestamp": ""
417
+ }
418
+ }
419
+ }
420
+ },
421
+ "last_version": "1.34.1",
422
+ "n_questions": 600,
423
+ "date_title": "03 \u0438\u044e\u043b\u044f 2025"
424
  }