logical-reasoning / data /few-shots_metrics.csv
dh-mc's picture
ready for final run
8157c36
raw
history blame
12.1 kB
shots,model,run,accuracy,precision,recall,f1,ratio_valid_classifications
0,gpt-4o-mini,gpt-4o-mini/shots-00,0.7166666666666667,0.7800918028217227,0.7166666666666667,0.7260056154268697,0.9916666666666668
5,gpt-4o-mini,gpt-4o-mini/shots-05,0.7203333333333334,0.7754800244789168,0.7203333333333334,0.718540502683781,0.9996666666666668
10,gpt-4o-mini,gpt-4o-mini/shots-10,0.6836666666666666,0.7701177891593667,0.6836666666666666,0.6932016303210964,0.9983333333333332
20,gpt-4o-mini,gpt-4o-mini/shots-20,0.6616666666666666,0.7627467933668375,0.6616666666666666,0.677372757519069,0.998
30,gpt-4o-mini,gpt-4o-mini/shots-30,0.6876666666666666,0.7663381611066244,0.6876666666666666,0.6896169854446027,0.999
40,gpt-4o-mini,gpt-4o-mini/shots-40,0.6903333333333334,0.7603850760051853,0.6903333333333334,0.688393665975117,0.9986666666666668
50,gpt-4o-mini,gpt-4o-mini/shots-50,0.7143333333333334,0.7654214682013311,0.7143333333333334,0.7056961582308003,0.9993333333333332
0,gpt-4o,gpt-4o/shots-00,0.792,0.8234582231232066,0.792,0.8022633746318892,0.066
5,gpt-4o,gpt-4o/shots-05,0.7973333333333333,0.8251066339666824,0.7973333333333333,0.8066429877716694,0.998
10,gpt-4o,gpt-4o/shots-10,0.8013333333333333,0.8246834383036209,0.8013333333333333,0.8098901724387172,0.9996666666666668
20,gpt-4o,gpt-4o/shots-20,0.79,0.822098231279132,0.79,0.8020290214439503,0.9993333333333332
30,gpt-4o,gpt-4o/shots-30,0.7946666666666666,0.8259436682564079,0.7946666666666666,0.8063113377291872,0.999
40,gpt-4o,gpt-4o/shots-40,0.7906666666666666,0.8242154446428003,0.7906666666666666,0.803356987717753,0.9973333333333332
50,gpt-4o,gpt-4o/shots-50,0.798,0.8274250231711487,0.798,0.8091066504350897,0.9993333333333332
0,o1-mini,o1-mini/shots-00,0.7133333333333334,0.78301872209321,0.7133333333333334,0.7402734333211688,0.999
5,o1-mini,o1-mini/shots-05,0.7313333333333333,0.7913577967036569,0.7313333333333333,0.7532525881890013,0.9966666666666668
10,o1-mini,o1-mini/shots-10,0.7283333333333334,0.7851844846890333,0.7283333333333334,0.7490987096521479,0.9943333333333332
20,o1-mini,o1-mini/shots-20,0.7373333333333333,0.7815727856803751,0.7373333333333333,0.7533353509620383,0.9946666666666668
30,o1-mini,o1-mini/shots-30,0.748,0.779168441371953,0.748,0.7583397172973073,0.9976666666666668
40,o1-mini,o1-mini/shots-40,0.7496666666666667,0.775765877349714,0.7496666666666667,0.757640226210139,0.9976666666666668
50,o1-mini,o1-mini/shots-50,0.7536666666666667,0.7755130422727871,0.7536666666666667,0.7602241520634903,0.9976666666666668
0,o1-preview,o1-preview/shots-00,0.725,0.7860443296236067,0.725,0.7471736898827371,0.998
5,o1-preview,o1-preview/shots-05,0.736,0.789169445854742,0.736,0.7557068489703724,0.979
10,o1-preview,o1-preview/shots-10,0.7513333333333333,0.7947574632958824,0.7513333333333333,0.7673707529850041,0.9873333333333332
20,o1-preview,o1-preview/shots-20,0.7483333333333333,0.790639591375103,0.7483333333333333,0.763324860719675,0.9853333333333332
30,o1-preview,o1-preview/shots-30,0.7513333333333333,0.792049804996314,0.7513333333333333,0.7654800949250774,0.984
40,o1-preview,o1-preview/shots-40,0.7526666666666667,0.795308022968859,0.7526666666666667,0.7672762517397222,0.984
50,o1-preview,o1-preview/shots-50,0.7576666666666667,0.7986597718440941,0.7576666666666667,0.7718331604189232,0.9816666666666668
0,Llama3.1-8B-Chinese-Chat,shenzhi-wang/Llama3.1-8B-Chinese-Chat/shots-00,0.7343333333333333,0.7375752740091942,0.7343333333333333,0.7270283652909943,0.8033333333333333
5,Llama3.1-8B-Chinese-Chat,shenzhi-wang/Llama3.1-8B-Chinese-Chat/shots-05,0.7056666666666667,0.7508515184863084,0.7056666666666667,0.7230574380518462,0.9886666666666668
10,Llama3.1-8B-Chinese-Chat,shenzhi-wang/Llama3.1-8B-Chinese-Chat/shots-10,0.6736666666666666,0.7776004745989736,0.6736666666666666,0.7094104807112239,0.9623333333333334
20,Llama3.1-8B-Chinese-Chat,shenzhi-wang/Llama3.1-8B-Chinese-Chat/shots-20,0.767,0.764982587229615,0.767,0.7638473265780445,0.979
30,Llama3.1-8B-Chinese-Chat,shenzhi-wang/Llama3.1-8B-Chinese-Chat/shots-30,0.7713333333333333,0.7725685630276532,0.7713333333333333,0.7692692690410152,0.7326666666666667
40,Llama3.1-8B-Chinese-Chat,shenzhi-wang/Llama3.1-8B-Chinese-Chat/shots-40,0.6873333333333334,0.773294758147205,0.6873333333333334,0.7075877720686631,0.759
50,Llama3.1-8B-Chinese-Chat,shenzhi-wang/Llama3.1-8B-Chinese-Chat/shots-50,0.7176666666666667,0.7599215931134234,0.7176666666666667,0.7203550920641806,0.6623333333333333
0,Llama3.1-70B-Chinese-Chat,shenzhi-wang/Llama3.1-70B-Chinese-Chat/shots-00,0.7646666666666667,0.7804609488644828,0.7646666666666667,0.7497548621711109,0.0096666666666666
5,Llama3.1-70B-Chinese-Chat,shenzhi-wang/Llama3.1-70B-Chinese-Chat/shots-05,0.754,0.7675695134276339,0.754,0.7530665717237273,0.79
10,Llama3.1-70B-Chinese-Chat,shenzhi-wang/Llama3.1-70B-Chinese-Chat/shots-10,0.756,0.7695738042762151,0.756,0.7563878737797524,0.8326666666666667
20,Llama3.1-70B-Chinese-Chat,shenzhi-wang/Llama3.1-70B-Chinese-Chat/shots-20,0.7406666666666667,0.7560876641054418,0.7406666666666667,0.7360011002310723,0.819
30,Llama3.1-70B-Chinese-Chat,shenzhi-wang/Llama3.1-70B-Chinese-Chat/shots-30,0.7603333333333333,0.7710641222872985,0.7603333333333333,0.7570501796584528,0.548
0,Mistral-7B-v0.3-Chinese-Chat,shenzhi-wang/Mistral-7B-v0.3-Chinese-Chat/shots-00,0.6923333333333334,0.7009179792741449,0.6923333333333334,0.6605899639694456,0.0116666666666666
5,Mistral-7B-v0.3-Chinese-Chat,shenzhi-wang/Mistral-7B-v0.3-Chinese-Chat/shots-05,0.6546666666666666,0.7415422757067709,0.6546666666666666,0.684189810233595,0.142
10,Mistral-7B-v0.3-Chinese-Chat,shenzhi-wang/Mistral-7B-v0.3-Chinese-Chat/shots-10,0.612,0.7259976964524691,0.612,0.6501410678512595,0.1063333333333333
20,Mistral-7B-v0.3-Chinese-Chat,shenzhi-wang/Mistral-7B-v0.3-Chinese-Chat/shots-20,0.6336666666666667,0.7315100617022602,0.6336666666666667,0.6683245802083553,0.0826666666666666
30,Mistral-7B-v0.3-Chinese-Chat,shenzhi-wang/Mistral-7B-v0.3-Chinese-Chat/shots-30,0.665,0.7374233826761456,0.665,0.6872462947319797,0.07
0,internlm2_5-7b-chat,internlm/internlm2_5-7b-chat/shots-00,0.7063333333333334,0.7369785607161373,0.7063333333333334,0.6895815239121195,1.0
5,internlm2_5-7b-chat,internlm/internlm2_5-7b-chat/shots-05,0.747,0.7433195768374967,0.747,0.7232456014841266,0.999
10,internlm2_5-7b-chat,internlm/internlm2_5-7b-chat/shots-10,0.559,0.7306434812774306,0.559,0.6287391975839828,0.9883333333333332
20,internlm2_5-7b-chat,internlm/internlm2_5-7b-chat/shots-20,0.6466666666666666,0.7143354332969056,0.6466666666666666,0.6738164117926014,0.9473333333333334
30,internlm2_5-7b-chat,internlm/internlm2_5-7b-chat/shots-30,0.626,0.7223442225693745,0.626,0.6494216734706632,0.9403333333333334
40,internlm2_5-7b-chat,internlm/internlm2_5-7b-chat/shots-40,0.64,0.7020393671564193,0.64,0.611996460461355,0.9813333333333332
50,internlm2_5-7b-chat,internlm/internlm2_5-7b-chat/shots-50,0.6116666666666667,0.6808793455512054,0.6116666666666667,0.5502581431071487,0.9803333333333332
0,internlm2_5-7b-chat-1m,internlm/internlm2_5-7b-chat-1m/shots-00,0.4923333333333333,0.7570993062022159,0.4923333333333333,0.5279738886353613,0.9986666666666668
5,internlm2_5-7b-chat-1m,internlm/internlm2_5-7b-chat-1m/shots-05,0.7753333333333333,0.7586378181445387,0.7753333333333333,0.7665405919258307,0.9453333333333334
10,internlm2_5-7b-chat-1m,internlm/internlm2_5-7b-chat-1m/shots-10,0.654,0.7251381758855274,0.654,0.6681655588675279,0.8866666666666667
20,internlm2_5-7b-chat-1m,internlm/internlm2_5-7b-chat-1m/shots-20,0.677,0.7296467412730754,0.677,0.6780570012166849,0.8213333333333334
30,internlm2_5-7b-chat-1m,internlm/internlm2_5-7b-chat-1m/shots-30,0.68,0.7425906069240685,0.68,0.6837924261094331,0.8236666666666667
40,internlm2_5-7b-chat-1m,internlm/internlm2_5-7b-chat-1m/shots-40,0.726,0.7533750344411337,0.726,0.7132456474026365,0.8336666666666667
50,internlm2_5-7b-chat-1m,internlm/internlm2_5-7b-chat-1m/shots-50,0.7173333333333334,0.7471186719787132,0.7173333333333334,0.6980283743779222,0.8846666666666667
0,internlm2_5-20b-chat,internlm/internlm2_5-20b-chat/shots-00,0.575,0.7745319004159336,0.575,0.6416875854199033,0.6726666666666666
0,Qwen2.5-0.5B-Instruct,Qwen/Qwen2.5-0.5B-Instruct/shots-00,0.4383333333333333,0.5292917259914629,0.4383333333333333,0.4228687599248655,0.594
5,Qwen2.5-0.5B-Instruct,Qwen/Qwen2.5-0.5B-Instruct/shots-05,0.1796666666666666,0.475165738531098,0.1796666666666666,0.214144872117911,0.004
10,Qwen2.5-0.5B-Instruct,Qwen/Qwen2.5-0.5B-Instruct/shots-10,0.351,0.5084853117995367,0.351,0.3909783959403107,0.068
20,Qwen2.5-0.5B-Instruct,Qwen/Qwen2.5-0.5B-Instruct/shots-20,0.4336666666666666,0.513186330900278,0.4336666666666666,0.463747974034812,0.3726666666666666
30,Qwen2.5-0.5B-Instruct,Qwen/Qwen2.5-0.5B-Instruct/shots-30,0.39,0.5367753683204347,0.39,0.4299603249123421,0.0756666666666666
40,Qwen2.5-0.5B-Instruct,Qwen/Qwen2.5-0.5B-Instruct/shots-40,0.466,0.5400134144413437,0.466,0.495429756139619,0.324
50,Qwen2.5-0.5B-Instruct,Qwen/Qwen2.5-0.5B-Instruct/shots-50,0.496,0.5465409839032335,0.496,0.5069942984615308,0.2433333333333333
0,Qwen2.5-1.5B-Instruct,Qwen/Qwen2.5-1.5B-Instruct/shots-00,0.2016666666666666,0.5269756683734005,0.2016666666666666,0.2406983532950438,0.9223333333333332
5,Qwen2.5-1.5B-Instruct,Qwen/Qwen2.5-1.5B-Instruct/shots-05,0.3933333333333333,0.578886379886985,0.3933333333333333,0.4355463694355869,0.8283333333333334
10,Qwen2.5-1.5B-Instruct,Qwen/Qwen2.5-1.5B-Instruct/shots-10,0.407,0.5820145311822223,0.407,0.459589777544246,0.9156666666666666
20,Qwen2.5-1.5B-Instruct,Qwen/Qwen2.5-1.5B-Instruct/shots-20,0.232,0.5282610881631451,0.232,0.3093707499897376,0.676
30,Qwen2.5-1.5B-Instruct,Qwen/Qwen2.5-1.5B-Instruct/shots-30,0.23,0.5479545947886839,0.23,0.3064381040560128,0.661
40,Qwen2.5-1.5B-Instruct,Qwen/Qwen2.5-1.5B-Instruct/shots-40,0.2923333333333333,0.5608411738006117,0.2923333333333333,0.3751714671158081,0.5206666666666667
50,Qwen2.5-1.5B-Instruct,Qwen/Qwen2.5-1.5B-Instruct/shots-50,0.29,0.5646814860840066,0.29,0.3688382652659246,0.4603333333333333
0,Qwen2.5-3B-Instruct,Qwen/Qwen2.5-3B-Instruct/shots-00,0.5796666666666667,0.6966500240864278,0.5796666666666667,0.5506370828782681,1.0
5,Qwen2.5-3B-Instruct,Qwen/Qwen2.5-3B-Instruct/shots-05,0.639,0.7226431221398603,0.639,0.641568790114368,0.9973333333333332
10,Qwen2.5-3B-Instruct,Qwen/Qwen2.5-3B-Instruct/shots-10,0.625,0.7164154004131771,0.625,0.6402584852791593,0.995
20,Qwen2.5-3B-Instruct,Qwen/Qwen2.5-3B-Instruct/shots-20,0.4666666666666667,0.6987641430848737,0.4666666666666667,0.5265074036660548,0.9316666666666666
30,Qwen2.5-3B-Instruct,Qwen/Qwen2.5-3B-Instruct/shots-30,0.475,0.6880994914236809,0.475,0.5310948082593374,0.904
40,Qwen2.5-3B-Instruct,Qwen/Qwen2.5-3B-Instruct/shots-40,0.584,0.7065303262365236,0.584,0.6214992664375876,0.7173333333333334
50,Qwen2.5-3B-Instruct,Qwen/Qwen2.5-3B-Instruct/shots-50,0.6093333333333333,0.7120506480394511,0.6093333333333333,0.6451959368825358,0.574
0,Qwen2.5-7B-Instruct,Qwen/Qwen2.5-7B-Instruct/shots-00,0.644,0.7200261355300325,0.644,0.6101052277961244,1.0
5,Qwen2.5-7B-Instruct,Qwen/Qwen2.5-7B-Instruct/shots-05,0.6346666666666667,0.7653343185471776,0.6346666666666667,0.6219419633691871,0.998
10,Qwen2.5-7B-Instruct,Qwen/Qwen2.5-7B-Instruct/shots-10,0.678,0.7675951017673515,0.678,0.6790860659550377,0.9796666666666668
20,Qwen2.5-7B-Instruct,Qwen/Qwen2.5-7B-Instruct/shots-20,0.7353333333333333,0.7702034737275962,0.7353333333333333,0.7278047438569933,0.807
30,Qwen2.5-7B-Instruct,Qwen/Qwen2.5-7B-Instruct/shots-30,0.7646666666666667,0.7787918401418651,0.7646666666666667,0.7527649874769439,0.805
40,Qwen2.5-7B-Instruct,Qwen/Qwen2.5-7B-Instruct/shots-40,0.759,0.7736852689131295,0.759,0.7472252604775926,0.8546666666666667
50,Qwen2.5-7B-Instruct,Qwen/Qwen2.5-7B-Instruct/shots-50,0.7586666666666667,0.7640431634617543,0.7586666666666667,0.7414332963557551,0.7563333333333333
0,Qwen2.5-72B-Instruct,Qwen/Qwen2.5-72B-Instruct/shots-00,0.7956666666666666,0.8098073411161181,0.7956666666666666,0.7771317592221199,0.994
5,Qwen2.5-72B-Instruct,Qwen/Qwen2.5-72B-Instruct/shots-05,0.819,0.8182324679666184,0.819,0.8095367865845521,0.9416666666666668