SebastianBodza commited on
Commit
86de3ec
·
verified ·
1 Parent(s): 81a23b6

Add files using upload-large-folder tool

Browse files
Files changed (2) hide show
  1. model.safetensors +1 -1
  2. trainer_state.json +711 -3
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7dbc119d572de9d50e04e2f7f782a2227240cda1ef8b3619fb1b372581bcdca5
3
  size 2740113872
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:251592d6646f19c540dca28cb759c20bbddf9b68e86c390c0300386f84e83a8c
3
  size 2740113872
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.21701141657213197,
5
  "eval_steps": 1000,
6
- "global_step": 2997,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2124,6 +2124,714 @@
2124
  "learning_rate": 4.557779879023483e-05,
2125
  "loss": 6.5202,
2126
  "step": 2990
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2127
  }
2128
  ],
2129
  "logging_steps": 10,
@@ -2143,7 +2851,7 @@
2143
  "attributes": {}
2144
  }
2145
  },
2146
- "total_flos": 6.450873098647372e+18,
2147
  "train_batch_size": 30,
2148
  "trial_name": null,
2149
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.2893485554295093,
5
  "eval_steps": 1000,
6
+ "global_step": 3996,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2124
  "learning_rate": 4.557779879023483e-05,
2125
  "loss": 6.5202,
2126
  "step": 2990
2127
+ },
2128
+ {
2129
+ "epoch": 0.21722864521734933,
2130
+ "grad_norm": 1.328125,
2131
+ "learning_rate": 4.554444538063113e-05,
2132
+ "loss": 6.5246,
2133
+ "step": 3000
2134
+ },
2135
+ {
2136
+ "epoch": 0.21722864521734933,
2137
+ "eval_loss": 6.682950973510742,
2138
+ "eval_runtime": 1.4758,
2139
+ "eval_samples_per_second": 8.131,
2140
+ "eval_steps_per_second": 2.033,
2141
+ "step": 3000
2142
+ },
2143
+ {
2144
+ "epoch": 0.21795274070140716,
2145
+ "grad_norm": 1.3125,
2146
+ "learning_rate": 4.551097896319838e-05,
2147
+ "loss": 6.5144,
2148
+ "step": 3010
2149
+ },
2150
+ {
2151
+ "epoch": 0.218676836185465,
2152
+ "grad_norm": 1.3671875,
2153
+ "learning_rate": 4.5477399722023674e-05,
2154
+ "loss": 6.5295,
2155
+ "step": 3020
2156
+ },
2157
+ {
2158
+ "epoch": 0.21940093166952282,
2159
+ "grad_norm": 1.3125,
2160
+ "learning_rate": 4.5443707841814695e-05,
2161
+ "loss": 6.5278,
2162
+ "step": 3030
2163
+ },
2164
+ {
2165
+ "epoch": 0.22012502715358065,
2166
+ "grad_norm": 1.2734375,
2167
+ "learning_rate": 4.540990350789875e-05,
2168
+ "loss": 6.5584,
2169
+ "step": 3040
2170
+ },
2171
+ {
2172
+ "epoch": 0.22084912263763848,
2173
+ "grad_norm": 1.3046875,
2174
+ "learning_rate": 4.537598690622167e-05,
2175
+ "loss": 6.5528,
2176
+ "step": 3050
2177
+ },
2178
+ {
2179
+ "epoch": 0.2215732181216963,
2180
+ "grad_norm": 1.203125,
2181
+ "learning_rate": 4.534195822334686e-05,
2182
+ "loss": 6.5392,
2183
+ "step": 3060
2184
+ },
2185
+ {
2186
+ "epoch": 0.22229731360575414,
2187
+ "grad_norm": 1.3984375,
2188
+ "learning_rate": 4.530781764645422e-05,
2189
+ "loss": 6.5403,
2190
+ "step": 3070
2191
+ },
2192
+ {
2193
+ "epoch": 0.22302140908981197,
2194
+ "grad_norm": 1.3125,
2195
+ "learning_rate": 4.5273565363339185e-05,
2196
+ "loss": 6.5396,
2197
+ "step": 3080
2198
+ },
2199
+ {
2200
+ "epoch": 0.2237455045738698,
2201
+ "grad_norm": 1.3125,
2202
+ "learning_rate": 4.52392015624116e-05,
2203
+ "loss": 6.5249,
2204
+ "step": 3090
2205
+ },
2206
+ {
2207
+ "epoch": 0.22446960005792763,
2208
+ "grad_norm": 1.25,
2209
+ "learning_rate": 4.520472643269477e-05,
2210
+ "loss": 6.5199,
2211
+ "step": 3100
2212
+ },
2213
+ {
2214
+ "epoch": 0.22519369554198548,
2215
+ "grad_norm": 1.375,
2216
+ "learning_rate": 4.517014016382432e-05,
2217
+ "loss": 6.5302,
2218
+ "step": 3110
2219
+ },
2220
+ {
2221
+ "epoch": 0.2259177910260433,
2222
+ "grad_norm": 1.28125,
2223
+ "learning_rate": 4.5135442946047294e-05,
2224
+ "loss": 6.5274,
2225
+ "step": 3120
2226
+ },
2227
+ {
2228
+ "epoch": 0.22664188651010114,
2229
+ "grad_norm": 1.1953125,
2230
+ "learning_rate": 4.5100634970220967e-05,
2231
+ "loss": 6.5431,
2232
+ "step": 3130
2233
+ },
2234
+ {
2235
+ "epoch": 0.22736598199415897,
2236
+ "grad_norm": 1.2421875,
2237
+ "learning_rate": 4.5065716427811874e-05,
2238
+ "loss": 6.5362,
2239
+ "step": 3140
2240
+ },
2241
+ {
2242
+ "epoch": 0.2280900774782168,
2243
+ "grad_norm": 1.3046875,
2244
+ "learning_rate": 4.503068751089474e-05,
2245
+ "loss": 6.5307,
2246
+ "step": 3150
2247
+ },
2248
+ {
2249
+ "epoch": 0.22881417296227463,
2250
+ "grad_norm": 1.296875,
2251
+ "learning_rate": 4.499554841215143e-05,
2252
+ "loss": 6.5172,
2253
+ "step": 3160
2254
+ },
2255
+ {
2256
+ "epoch": 0.22953826844633246,
2257
+ "grad_norm": 1.203125,
2258
+ "learning_rate": 4.496029932486986e-05,
2259
+ "loss": 6.521,
2260
+ "step": 3170
2261
+ },
2262
+ {
2263
+ "epoch": 0.2302623639303903,
2264
+ "grad_norm": 1.1796875,
2265
+ "learning_rate": 4.492494044294297e-05,
2266
+ "loss": 6.5346,
2267
+ "step": 3180
2268
+ },
2269
+ {
2270
+ "epoch": 0.23098645941444812,
2271
+ "grad_norm": 1.2578125,
2272
+ "learning_rate": 4.4889471960867635e-05,
2273
+ "loss": 6.5422,
2274
+ "step": 3190
2275
+ },
2276
+ {
2277
+ "epoch": 0.23171055489850595,
2278
+ "grad_norm": 1.34375,
2279
+ "learning_rate": 4.485389407374361e-05,
2280
+ "loss": 6.5498,
2281
+ "step": 3200
2282
+ },
2283
+ {
2284
+ "epoch": 0.23243465038256378,
2285
+ "grad_norm": 1.265625,
2286
+ "learning_rate": 4.481820697727244e-05,
2287
+ "loss": 6.523,
2288
+ "step": 3210
2289
+ },
2290
+ {
2291
+ "epoch": 0.2331587458666216,
2292
+ "grad_norm": 1.1875,
2293
+ "learning_rate": 4.47824108677564e-05,
2294
+ "loss": 6.5477,
2295
+ "step": 3220
2296
+ },
2297
+ {
2298
+ "epoch": 0.23388284135067944,
2299
+ "grad_norm": 1.3359375,
2300
+ "learning_rate": 4.47465059420974e-05,
2301
+ "loss": 6.5379,
2302
+ "step": 3230
2303
+ },
2304
+ {
2305
+ "epoch": 0.23460693683473727,
2306
+ "grad_norm": 1.25,
2307
+ "learning_rate": 4.471049239779592e-05,
2308
+ "loss": 6.5389,
2309
+ "step": 3240
2310
+ },
2311
+ {
2312
+ "epoch": 0.2353310323187951,
2313
+ "grad_norm": 1.3125,
2314
+ "learning_rate": 4.4674370432949905e-05,
2315
+ "loss": 6.5552,
2316
+ "step": 3250
2317
+ },
2318
+ {
2319
+ "epoch": 0.23605512780285293,
2320
+ "grad_norm": 1.3046875,
2321
+ "learning_rate": 4.463814024625368e-05,
2322
+ "loss": 6.5114,
2323
+ "step": 3260
2324
+ },
2325
+ {
2326
+ "epoch": 0.23677922328691076,
2327
+ "grad_norm": 1.28125,
2328
+ "learning_rate": 4.460180203699688e-05,
2329
+ "loss": 6.5101,
2330
+ "step": 3270
2331
+ },
2332
+ {
2333
+ "epoch": 0.23750331877096859,
2334
+ "grad_norm": 1.1953125,
2335
+ "learning_rate": 4.4565356005063304e-05,
2336
+ "loss": 6.5051,
2337
+ "step": 3280
2338
+ },
2339
+ {
2340
+ "epoch": 0.23822741425502644,
2341
+ "grad_norm": 1.3046875,
2342
+ "learning_rate": 4.452880235092987e-05,
2343
+ "loss": 6.5213,
2344
+ "step": 3290
2345
+ },
2346
+ {
2347
+ "epoch": 0.23895150973908427,
2348
+ "grad_norm": 1.25,
2349
+ "learning_rate": 4.449214127566549e-05,
2350
+ "loss": 6.5246,
2351
+ "step": 3300
2352
+ },
2353
+ {
2354
+ "epoch": 0.2396756052231421,
2355
+ "grad_norm": 1.2578125,
2356
+ "learning_rate": 4.4455372980929935e-05,
2357
+ "loss": 6.5309,
2358
+ "step": 3310
2359
+ },
2360
+ {
2361
+ "epoch": 0.24039970070719993,
2362
+ "grad_norm": 1.359375,
2363
+ "learning_rate": 4.4418497668972785e-05,
2364
+ "loss": 6.5349,
2365
+ "step": 3320
2366
+ },
2367
+ {
2368
+ "epoch": 0.24112379619125776,
2369
+ "grad_norm": 1.2421875,
2370
+ "learning_rate": 4.4381515542632274e-05,
2371
+ "loss": 6.5232,
2372
+ "step": 3330
2373
+ },
2374
+ {
2375
+ "epoch": 0.2418478916753156,
2376
+ "grad_norm": 1.21875,
2377
+ "learning_rate": 4.434442680533417e-05,
2378
+ "loss": 6.518,
2379
+ "step": 3340
2380
+ },
2381
+ {
2382
+ "epoch": 0.24257198715937342,
2383
+ "grad_norm": 1.2734375,
2384
+ "learning_rate": 4.430723166109069e-05,
2385
+ "loss": 6.5465,
2386
+ "step": 3350
2387
+ },
2388
+ {
2389
+ "epoch": 0.24329608264343125,
2390
+ "grad_norm": 1.28125,
2391
+ "learning_rate": 4.426993031449934e-05,
2392
+ "loss": 6.5353,
2393
+ "step": 3360
2394
+ },
2395
+ {
2396
+ "epoch": 0.24402017812748908,
2397
+ "grad_norm": 1.234375,
2398
+ "learning_rate": 4.423252297074183e-05,
2399
+ "loss": 6.5499,
2400
+ "step": 3370
2401
+ },
2402
+ {
2403
+ "epoch": 0.2447442736115469,
2404
+ "grad_norm": 1.3203125,
2405
+ "learning_rate": 4.41950098355829e-05,
2406
+ "loss": 6.5203,
2407
+ "step": 3380
2408
+ },
2409
+ {
2410
+ "epoch": 0.24546836909560474,
2411
+ "grad_norm": 1.3125,
2412
+ "learning_rate": 4.415739111536924e-05,
2413
+ "loss": 6.5392,
2414
+ "step": 3390
2415
+ },
2416
+ {
2417
+ "epoch": 0.24619246457966257,
2418
+ "grad_norm": 1.3515625,
2419
+ "learning_rate": 4.4119667017028297e-05,
2420
+ "loss": 6.5197,
2421
+ "step": 3400
2422
+ },
2423
+ {
2424
+ "epoch": 0.2469165600637204,
2425
+ "grad_norm": 1.2578125,
2426
+ "learning_rate": 4.4081837748067186e-05,
2427
+ "loss": 6.4986,
2428
+ "step": 3410
2429
+ },
2430
+ {
2431
+ "epoch": 0.24764065554777823,
2432
+ "grad_norm": 1.21875,
2433
+ "learning_rate": 4.404390351657153e-05,
2434
+ "loss": 6.5238,
2435
+ "step": 3420
2436
+ },
2437
+ {
2438
+ "epoch": 0.24836475103183606,
2439
+ "grad_norm": 1.25,
2440
+ "learning_rate": 4.4005864531204285e-05,
2441
+ "loss": 6.5473,
2442
+ "step": 3430
2443
+ },
2444
+ {
2445
+ "epoch": 0.24908884651589389,
2446
+ "grad_norm": 1.1953125,
2447
+ "learning_rate": 4.396772100120466e-05,
2448
+ "loss": 6.5189,
2449
+ "step": 3440
2450
+ },
2451
+ {
2452
+ "epoch": 0.24981294199995172,
2453
+ "grad_norm": 1.3046875,
2454
+ "learning_rate": 4.39294731363869e-05,
2455
+ "loss": 6.5228,
2456
+ "step": 3450
2457
+ },
2458
+ {
2459
+ "epoch": 0.2505370374840096,
2460
+ "grad_norm": 1.296875,
2461
+ "learning_rate": 4.389112114713918e-05,
2462
+ "loss": 6.5224,
2463
+ "step": 3460
2464
+ },
2465
+ {
2466
+ "epoch": 0.2512611329680674,
2467
+ "grad_norm": 1.3359375,
2468
+ "learning_rate": 4.385266524442241e-05,
2469
+ "loss": 6.5229,
2470
+ "step": 3470
2471
+ },
2472
+ {
2473
+ "epoch": 0.25198522845212523,
2474
+ "grad_norm": 1.2578125,
2475
+ "learning_rate": 4.3814105639769106e-05,
2476
+ "loss": 6.54,
2477
+ "step": 3480
2478
+ },
2479
+ {
2480
+ "epoch": 0.25270932393618306,
2481
+ "grad_norm": 1.34375,
2482
+ "learning_rate": 4.37754425452822e-05,
2483
+ "loss": 6.5226,
2484
+ "step": 3490
2485
+ },
2486
+ {
2487
+ "epoch": 0.2534334194202409,
2488
+ "grad_norm": 1.21875,
2489
+ "learning_rate": 4.373667617363389e-05,
2490
+ "loss": 6.5276,
2491
+ "step": 3500
2492
+ },
2493
+ {
2494
+ "epoch": 0.2541575149042987,
2495
+ "grad_norm": 1.3828125,
2496
+ "learning_rate": 4.369780673806447e-05,
2497
+ "loss": 6.534,
2498
+ "step": 3510
2499
+ },
2500
+ {
2501
+ "epoch": 0.25488161038835655,
2502
+ "grad_norm": 1.203125,
2503
+ "learning_rate": 4.365883445238116e-05,
2504
+ "loss": 6.5317,
2505
+ "step": 3520
2506
+ },
2507
+ {
2508
+ "epoch": 0.2556057058724144,
2509
+ "grad_norm": 1.2734375,
2510
+ "learning_rate": 4.361975953095689e-05,
2511
+ "loss": 6.5119,
2512
+ "step": 3530
2513
+ },
2514
+ {
2515
+ "epoch": 0.2563298013564722,
2516
+ "grad_norm": 1.265625,
2517
+ "learning_rate": 4.358058218872918e-05,
2518
+ "loss": 6.5281,
2519
+ "step": 3540
2520
+ },
2521
+ {
2522
+ "epoch": 0.25705389684053004,
2523
+ "grad_norm": 1.2734375,
2524
+ "learning_rate": 4.354130264119894e-05,
2525
+ "loss": 6.5284,
2526
+ "step": 3550
2527
+ },
2528
+ {
2529
+ "epoch": 0.25777799232458787,
2530
+ "grad_norm": 1.3046875,
2531
+ "learning_rate": 4.350192110442926e-05,
2532
+ "loss": 6.5324,
2533
+ "step": 3560
2534
+ },
2535
+ {
2536
+ "epoch": 0.2585020878086457,
2537
+ "grad_norm": 1.2265625,
2538
+ "learning_rate": 4.346243779504421e-05,
2539
+ "loss": 6.523,
2540
+ "step": 3570
2541
+ },
2542
+ {
2543
+ "epoch": 0.2592261832927035,
2544
+ "grad_norm": 1.28125,
2545
+ "learning_rate": 4.342285293022775e-05,
2546
+ "loss": 6.5267,
2547
+ "step": 3580
2548
+ },
2549
+ {
2550
+ "epoch": 0.25995027877676136,
2551
+ "grad_norm": 1.2265625,
2552
+ "learning_rate": 4.338316672772238e-05,
2553
+ "loss": 6.5263,
2554
+ "step": 3590
2555
+ },
2556
+ {
2557
+ "epoch": 0.2606743742608192,
2558
+ "grad_norm": 1.21875,
2559
+ "learning_rate": 4.334337940582808e-05,
2560
+ "loss": 6.5438,
2561
+ "step": 3600
2562
+ },
2563
+ {
2564
+ "epoch": 0.261398469744877,
2565
+ "grad_norm": 1.21875,
2566
+ "learning_rate": 4.330349118340102e-05,
2567
+ "loss": 6.5315,
2568
+ "step": 3610
2569
+ },
2570
+ {
2571
+ "epoch": 0.26212256522893485,
2572
+ "grad_norm": 1.203125,
2573
+ "learning_rate": 4.326350227985241e-05,
2574
+ "loss": 6.5183,
2575
+ "step": 3620
2576
+ },
2577
+ {
2578
+ "epoch": 0.2628466607129927,
2579
+ "grad_norm": 1.28125,
2580
+ "learning_rate": 4.3223412915147254e-05,
2581
+ "loss": 6.5214,
2582
+ "step": 3630
2583
+ },
2584
+ {
2585
+ "epoch": 0.2635707561970505,
2586
+ "grad_norm": 1.3515625,
2587
+ "learning_rate": 4.318322330980317e-05,
2588
+ "loss": 6.531,
2589
+ "step": 3640
2590
+ },
2591
+ {
2592
+ "epoch": 0.26429485168110833,
2593
+ "grad_norm": 1.2578125,
2594
+ "learning_rate": 4.314293368488915e-05,
2595
+ "loss": 6.5133,
2596
+ "step": 3650
2597
+ },
2598
+ {
2599
+ "epoch": 0.26501894716516616,
2600
+ "grad_norm": 1.25,
2601
+ "learning_rate": 4.3102544262024394e-05,
2602
+ "loss": 6.5288,
2603
+ "step": 3660
2604
+ },
2605
+ {
2606
+ "epoch": 0.265743042649224,
2607
+ "grad_norm": 1.1953125,
2608
+ "learning_rate": 4.3062055263377e-05,
2609
+ "loss": 6.4998,
2610
+ "step": 3670
2611
+ },
2612
+ {
2613
+ "epoch": 0.2664671381332818,
2614
+ "grad_norm": 1.3203125,
2615
+ "learning_rate": 4.302146691166286e-05,
2616
+ "loss": 6.5302,
2617
+ "step": 3680
2618
+ },
2619
+ {
2620
+ "epoch": 0.26719123361733965,
2621
+ "grad_norm": 1.265625,
2622
+ "learning_rate": 4.298077943014431e-05,
2623
+ "loss": 6.5053,
2624
+ "step": 3690
2625
+ },
2626
+ {
2627
+ "epoch": 0.2679153291013975,
2628
+ "grad_norm": 1.2734375,
2629
+ "learning_rate": 4.293999304262902e-05,
2630
+ "loss": 6.5242,
2631
+ "step": 3700
2632
+ },
2633
+ {
2634
+ "epoch": 0.2686394245854553,
2635
+ "grad_norm": 1.21875,
2636
+ "learning_rate": 4.289910797346868e-05,
2637
+ "loss": 6.5061,
2638
+ "step": 3710
2639
+ },
2640
+ {
2641
+ "epoch": 0.26936352006951314,
2642
+ "grad_norm": 1.25,
2643
+ "learning_rate": 4.285812444755779e-05,
2644
+ "loss": 6.5257,
2645
+ "step": 3720
2646
+ },
2647
+ {
2648
+ "epoch": 0.27008761555357097,
2649
+ "grad_norm": 1.1953125,
2650
+ "learning_rate": 4.281704269033242e-05,
2651
+ "loss": 6.5269,
2652
+ "step": 3730
2653
+ },
2654
+ {
2655
+ "epoch": 0.27081171103762885,
2656
+ "grad_norm": 1.3046875,
2657
+ "learning_rate": 4.2775862927769025e-05,
2658
+ "loss": 6.4974,
2659
+ "step": 3740
2660
+ },
2661
+ {
2662
+ "epoch": 0.2715358065216867,
2663
+ "grad_norm": 1.3671875,
2664
+ "learning_rate": 4.2734585386383086e-05,
2665
+ "loss": 6.4876,
2666
+ "step": 3750
2667
+ },
2668
+ {
2669
+ "epoch": 0.2722599020057445,
2670
+ "grad_norm": 1.2734375,
2671
+ "learning_rate": 4.269321029322797e-05,
2672
+ "loss": 6.5099,
2673
+ "step": 3760
2674
+ },
2675
+ {
2676
+ "epoch": 0.27298399748980234,
2677
+ "grad_norm": 1.265625,
2678
+ "learning_rate": 4.265173787589364e-05,
2679
+ "loss": 6.5222,
2680
+ "step": 3770
2681
+ },
2682
+ {
2683
+ "epoch": 0.2737080929738602,
2684
+ "grad_norm": 1.2109375,
2685
+ "learning_rate": 4.2610168362505395e-05,
2686
+ "loss": 6.5077,
2687
+ "step": 3780
2688
+ },
2689
+ {
2690
+ "epoch": 0.274432188457918,
2691
+ "grad_norm": 1.203125,
2692
+ "learning_rate": 4.256850198172263e-05,
2693
+ "loss": 6.5283,
2694
+ "step": 3790
2695
+ },
2696
+ {
2697
+ "epoch": 0.27515628394197583,
2698
+ "grad_norm": 1.171875,
2699
+ "learning_rate": 4.252673896273758e-05,
2700
+ "loss": 6.5135,
2701
+ "step": 3800
2702
+ },
2703
+ {
2704
+ "epoch": 0.27588037942603366,
2705
+ "grad_norm": 1.203125,
2706
+ "learning_rate": 4.248487953527404e-05,
2707
+ "loss": 6.5123,
2708
+ "step": 3810
2709
+ },
2710
+ {
2711
+ "epoch": 0.2766044749100915,
2712
+ "grad_norm": 1.21875,
2713
+ "learning_rate": 4.244292392958613e-05,
2714
+ "loss": 6.5163,
2715
+ "step": 3820
2716
+ },
2717
+ {
2718
+ "epoch": 0.2773285703941493,
2719
+ "grad_norm": 1.3203125,
2720
+ "learning_rate": 4.2400872376457e-05,
2721
+ "loss": 6.5063,
2722
+ "step": 3830
2723
+ },
2724
+ {
2725
+ "epoch": 0.27805266587820715,
2726
+ "grad_norm": 1.2734375,
2727
+ "learning_rate": 4.2358725107197576e-05,
2728
+ "loss": 6.5214,
2729
+ "step": 3840
2730
+ },
2731
+ {
2732
+ "epoch": 0.278776761362265,
2733
+ "grad_norm": 1.3046875,
2734
+ "learning_rate": 4.231648235364529e-05,
2735
+ "loss": 6.5375,
2736
+ "step": 3850
2737
+ },
2738
+ {
2739
+ "epoch": 0.2795008568463228,
2740
+ "grad_norm": 1.2578125,
2741
+ "learning_rate": 4.227414434816279e-05,
2742
+ "loss": 6.5003,
2743
+ "step": 3860
2744
+ },
2745
+ {
2746
+ "epoch": 0.28022495233038064,
2747
+ "grad_norm": 1.234375,
2748
+ "learning_rate": 4.22317113236367e-05,
2749
+ "loss": 6.5425,
2750
+ "step": 3870
2751
+ },
2752
+ {
2753
+ "epoch": 0.28094904781443847,
2754
+ "grad_norm": 1.1953125,
2755
+ "learning_rate": 4.218918351347626e-05,
2756
+ "loss": 6.5073,
2757
+ "step": 3880
2758
+ },
2759
+ {
2760
+ "epoch": 0.2816731432984963,
2761
+ "grad_norm": 1.3125,
2762
+ "learning_rate": 4.214656115161215e-05,
2763
+ "loss": 6.5127,
2764
+ "step": 3890
2765
+ },
2766
+ {
2767
+ "epoch": 0.2823972387825541,
2768
+ "grad_norm": 1.2265625,
2769
+ "learning_rate": 4.210384447249509e-05,
2770
+ "loss": 6.5198,
2771
+ "step": 3900
2772
+ },
2773
+ {
2774
+ "epoch": 0.28312133426661196,
2775
+ "grad_norm": 1.234375,
2776
+ "learning_rate": 4.2061033711094655e-05,
2777
+ "loss": 6.5206,
2778
+ "step": 3910
2779
+ },
2780
+ {
2781
+ "epoch": 0.2838454297506698,
2782
+ "grad_norm": 1.3125,
2783
+ "learning_rate": 4.2018129102897904e-05,
2784
+ "loss": 6.4952,
2785
+ "step": 3920
2786
+ },
2787
+ {
2788
+ "epoch": 0.2845695252347276,
2789
+ "grad_norm": 1.2265625,
2790
+ "learning_rate": 4.197513088390813e-05,
2791
+ "loss": 6.5065,
2792
+ "step": 3930
2793
+ },
2794
+ {
2795
+ "epoch": 0.28529362071878545,
2796
+ "grad_norm": 1.265625,
2797
+ "learning_rate": 4.193203929064353e-05,
2798
+ "loss": 6.4917,
2799
+ "step": 3940
2800
+ },
2801
+ {
2802
+ "epoch": 0.2860177162028433,
2803
+ "grad_norm": 1.28125,
2804
+ "learning_rate": 4.1888854560135934e-05,
2805
+ "loss": 6.5252,
2806
+ "step": 3950
2807
+ },
2808
+ {
2809
+ "epoch": 0.2867418116869011,
2810
+ "grad_norm": 1.2578125,
2811
+ "learning_rate": 4.1845576929929486e-05,
2812
+ "loss": 6.4974,
2813
+ "step": 3960
2814
+ },
2815
+ {
2816
+ "epoch": 0.28746590717095893,
2817
+ "grad_norm": 1.234375,
2818
+ "learning_rate": 4.180220663807934e-05,
2819
+ "loss": 6.5253,
2820
+ "step": 3970
2821
+ },
2822
+ {
2823
+ "epoch": 0.28819000265501676,
2824
+ "grad_norm": 1.265625,
2825
+ "learning_rate": 4.175874392315033e-05,
2826
+ "loss": 6.4986,
2827
+ "step": 3980
2828
+ },
2829
+ {
2830
+ "epoch": 0.2889140981390746,
2831
+ "grad_norm": 1.3203125,
2832
+ "learning_rate": 4.1715189024215716e-05,
2833
+ "loss": 6.5147,
2834
+ "step": 3990
2835
  }
2836
  ],
2837
  "logging_steps": 10,
 
2851
  "attributes": {}
2852
  }
2853
  },
2854
+ "total_flos": 8.601164131082437e+18,
2855
  "train_batch_size": 30,
2856
  "trial_name": null,
2857
  "trial_params": null