jdannem6 commited on
Commit
c7eba5c
1 Parent(s): 4b78784

Uploaded checkpoint-4000

Browse files
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8a4b05a5b65eb469f401a2ef2bb091ffae27e60f3ab9b87eeccdd1b89d55e021
3
  size 119975656
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:972dc6c25a7ba22f961a54b6dfec63f8f71aa505086b3975df6cf082fc13115e
3
  size 119975656
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:491a365467f19688384c47c41c87716a9585747c16862fa9ba0b732548ebc124
3
  size 240145026
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3143a5365fcf9595164c34006dbd78149b5d0e6391fbf16643ee4c70b2a2e398
3
  size 240145026
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f7eeee07b40fef8c7bdf027c427b1fc8d6a45d979762d8d637d73e82015e5add
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b90bc42e5601a089b4f97e9c36e907416b25c070b74e200626385618b0995aae
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:770db92ac44ccb712216aece2abb8a41e68fd6d952c7ae7884e9032fb3cc3f81
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.018277771770954132,
3
  "best_model_checkpoint": "runs/deepseek_lora_20240424-122712/checkpoint-2000",
4
- "epoch": 0.9399232396020991,
5
  "eval_steps": 500,
6
- "global_step": 3000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2155,6 +2155,722 @@
2155
  "eval_samples_per_second": 16.132,
2156
  "eval_steps_per_second": 16.132,
2157
  "step": 3000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2158
  }
2159
  ],
2160
  "logging_steps": 10,
@@ -2162,7 +2878,7 @@
2162
  "num_input_tokens_seen": 0,
2163
  "num_train_epochs": 2,
2164
  "save_steps": 1000,
2165
- "total_flos": 4.8306377981952e+16,
2166
  "train_batch_size": 1,
2167
  "trial_name": null,
2168
  "trial_params": null
 
1
  {
2
  "best_metric": 0.018277771770954132,
3
  "best_model_checkpoint": "runs/deepseek_lora_20240424-122712/checkpoint-2000",
4
+ "epoch": 1.2532309861361322,
5
  "eval_steps": 500,
6
+ "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2155
  "eval_samples_per_second": 16.132,
2156
  "eval_steps_per_second": 16.132,
2157
  "step": 3000
2158
+ },
2159
+ {
2160
+ "epoch": 0.94,
2161
+ "grad_norm": 2.95473575592041,
2162
+ "learning_rate": 8.844444444444445e-06,
2163
+ "loss": 0.1515,
2164
+ "step": 3010
2165
+ },
2166
+ {
2167
+ "epoch": 0.95,
2168
+ "grad_norm": 0.005038989707827568,
2169
+ "learning_rate": 8.8e-06,
2170
+ "loss": 0.0355,
2171
+ "step": 3020
2172
+ },
2173
+ {
2174
+ "epoch": 0.95,
2175
+ "grad_norm": 0.002464048098772764,
2176
+ "learning_rate": 8.755555555555556e-06,
2177
+ "loss": 0.0157,
2178
+ "step": 3030
2179
+ },
2180
+ {
2181
+ "epoch": 0.95,
2182
+ "grad_norm": 2.865673065185547,
2183
+ "learning_rate": 8.711111111111111e-06,
2184
+ "loss": 0.0994,
2185
+ "step": 3040
2186
+ },
2187
+ {
2188
+ "epoch": 0.96,
2189
+ "grad_norm": 0.023971589282155037,
2190
+ "learning_rate": 8.666666666666668e-06,
2191
+ "loss": 0.0467,
2192
+ "step": 3050
2193
+ },
2194
+ {
2195
+ "epoch": 0.96,
2196
+ "grad_norm": 0.0025374030228704214,
2197
+ "learning_rate": 8.622222222222223e-06,
2198
+ "loss": 0.0488,
2199
+ "step": 3060
2200
+ },
2201
+ {
2202
+ "epoch": 0.96,
2203
+ "grad_norm": 1.8780492544174194,
2204
+ "learning_rate": 8.577777777777778e-06,
2205
+ "loss": 0.0453,
2206
+ "step": 3070
2207
+ },
2208
+ {
2209
+ "epoch": 0.96,
2210
+ "grad_norm": 0.0010841538896784186,
2211
+ "learning_rate": 8.533333333333335e-06,
2212
+ "loss": 0.0473,
2213
+ "step": 3080
2214
+ },
2215
+ {
2216
+ "epoch": 0.97,
2217
+ "grad_norm": 2.532902240753174,
2218
+ "learning_rate": 8.48888888888889e-06,
2219
+ "loss": 0.0135,
2220
+ "step": 3090
2221
+ },
2222
+ {
2223
+ "epoch": 0.97,
2224
+ "grad_norm": 0.0008325451053678989,
2225
+ "learning_rate": 8.444444444444446e-06,
2226
+ "loss": 0.0645,
2227
+ "step": 3100
2228
+ },
2229
+ {
2230
+ "epoch": 0.97,
2231
+ "grad_norm": 0.01362746674567461,
2232
+ "learning_rate": 8.400000000000001e-06,
2233
+ "loss": 0.107,
2234
+ "step": 3110
2235
+ },
2236
+ {
2237
+ "epoch": 0.98,
2238
+ "grad_norm": 0.056719791144132614,
2239
+ "learning_rate": 8.355555555555556e-06,
2240
+ "loss": 0.0187,
2241
+ "step": 3120
2242
+ },
2243
+ {
2244
+ "epoch": 0.98,
2245
+ "grad_norm": 0.0013840706087648869,
2246
+ "learning_rate": 8.311111111111111e-06,
2247
+ "loss": 0.0435,
2248
+ "step": 3130
2249
+ },
2250
+ {
2251
+ "epoch": 0.98,
2252
+ "grad_norm": 0.0014659567968919873,
2253
+ "learning_rate": 8.266666666666667e-06,
2254
+ "loss": 0.0918,
2255
+ "step": 3140
2256
+ },
2257
+ {
2258
+ "epoch": 0.99,
2259
+ "grad_norm": 3.019699811935425,
2260
+ "learning_rate": 8.222222222222222e-06,
2261
+ "loss": 0.0166,
2262
+ "step": 3150
2263
+ },
2264
+ {
2265
+ "epoch": 0.99,
2266
+ "grad_norm": 0.002052758354693651,
2267
+ "learning_rate": 8.177777777777779e-06,
2268
+ "loss": 0.0373,
2269
+ "step": 3160
2270
+ },
2271
+ {
2272
+ "epoch": 0.99,
2273
+ "grad_norm": 0.0011199481086805463,
2274
+ "learning_rate": 8.133333333333334e-06,
2275
+ "loss": 0.0105,
2276
+ "step": 3170
2277
+ },
2278
+ {
2279
+ "epoch": 1.0,
2280
+ "grad_norm": 0.0013342432212084532,
2281
+ "learning_rate": 8.08888888888889e-06,
2282
+ "loss": 0.0512,
2283
+ "step": 3180
2284
+ },
2285
+ {
2286
+ "epoch": 1.0,
2287
+ "grad_norm": 0.0014090395998209715,
2288
+ "learning_rate": 8.044444444444444e-06,
2289
+ "loss": 0.0338,
2290
+ "step": 3190
2291
+ },
2292
+ {
2293
+ "epoch": 1.0,
2294
+ "grad_norm": 1.101834774017334,
2295
+ "learning_rate": 8.000000000000001e-06,
2296
+ "loss": 0.0129,
2297
+ "step": 3200
2298
+ },
2299
+ {
2300
+ "epoch": 1.01,
2301
+ "grad_norm": 0.5294092297554016,
2302
+ "learning_rate": 7.955555555555557e-06,
2303
+ "loss": 0.0153,
2304
+ "step": 3210
2305
+ },
2306
+ {
2307
+ "epoch": 1.01,
2308
+ "grad_norm": 3.8237059116363525,
2309
+ "learning_rate": 7.911111111111112e-06,
2310
+ "loss": 0.0738,
2311
+ "step": 3220
2312
+ },
2313
+ {
2314
+ "epoch": 1.01,
2315
+ "grad_norm": 0.0007992366445250809,
2316
+ "learning_rate": 7.866666666666667e-06,
2317
+ "loss": 0.0166,
2318
+ "step": 3230
2319
+ },
2320
+ {
2321
+ "epoch": 1.02,
2322
+ "grad_norm": 0.7395054697990417,
2323
+ "learning_rate": 7.822222222222224e-06,
2324
+ "loss": 0.0087,
2325
+ "step": 3240
2326
+ },
2327
+ {
2328
+ "epoch": 1.02,
2329
+ "grad_norm": 0.0022702962160110474,
2330
+ "learning_rate": 7.77777777777778e-06,
2331
+ "loss": 0.0137,
2332
+ "step": 3250
2333
+ },
2334
+ {
2335
+ "epoch": 1.02,
2336
+ "grad_norm": 0.18367303907871246,
2337
+ "learning_rate": 7.733333333333334e-06,
2338
+ "loss": 0.0246,
2339
+ "step": 3260
2340
+ },
2341
+ {
2342
+ "epoch": 1.02,
2343
+ "grad_norm": 1.4116305112838745,
2344
+ "learning_rate": 7.68888888888889e-06,
2345
+ "loss": 0.0722,
2346
+ "step": 3270
2347
+ },
2348
+ {
2349
+ "epoch": 1.03,
2350
+ "grad_norm": 0.0008715521544218063,
2351
+ "learning_rate": 7.644444444444445e-06,
2352
+ "loss": 0.0018,
2353
+ "step": 3280
2354
+ },
2355
+ {
2356
+ "epoch": 1.03,
2357
+ "grad_norm": 0.0013335467083379626,
2358
+ "learning_rate": 7.600000000000001e-06,
2359
+ "loss": 0.0003,
2360
+ "step": 3290
2361
+ },
2362
+ {
2363
+ "epoch": 1.03,
2364
+ "grad_norm": 0.002115165116265416,
2365
+ "learning_rate": 7.555555555555556e-06,
2366
+ "loss": 0.0087,
2367
+ "step": 3300
2368
+ },
2369
+ {
2370
+ "epoch": 1.04,
2371
+ "grad_norm": 2.0042011737823486,
2372
+ "learning_rate": 7.511111111111111e-06,
2373
+ "loss": 0.0303,
2374
+ "step": 3310
2375
+ },
2376
+ {
2377
+ "epoch": 1.04,
2378
+ "grad_norm": 0.000751888903323561,
2379
+ "learning_rate": 7.4666666666666675e-06,
2380
+ "loss": 0.0214,
2381
+ "step": 3320
2382
+ },
2383
+ {
2384
+ "epoch": 1.04,
2385
+ "grad_norm": 0.09692036360502243,
2386
+ "learning_rate": 7.422222222222223e-06,
2387
+ "loss": 0.113,
2388
+ "step": 3330
2389
+ },
2390
+ {
2391
+ "epoch": 1.05,
2392
+ "grad_norm": 4.702492713928223,
2393
+ "learning_rate": 7.377777777777778e-06,
2394
+ "loss": 0.0581,
2395
+ "step": 3340
2396
+ },
2397
+ {
2398
+ "epoch": 1.05,
2399
+ "grad_norm": 0.01480321865528822,
2400
+ "learning_rate": 7.333333333333333e-06,
2401
+ "loss": 0.022,
2402
+ "step": 3350
2403
+ },
2404
+ {
2405
+ "epoch": 1.05,
2406
+ "grad_norm": 0.0011497796513140202,
2407
+ "learning_rate": 7.28888888888889e-06,
2408
+ "loss": 0.0232,
2409
+ "step": 3360
2410
+ },
2411
+ {
2412
+ "epoch": 1.06,
2413
+ "grad_norm": 0.0010983615648001432,
2414
+ "learning_rate": 7.244444444444445e-06,
2415
+ "loss": 0.0375,
2416
+ "step": 3370
2417
+ },
2418
+ {
2419
+ "epoch": 1.06,
2420
+ "grad_norm": 0.005294387228786945,
2421
+ "learning_rate": 7.2000000000000005e-06,
2422
+ "loss": 0.0548,
2423
+ "step": 3380
2424
+ },
2425
+ {
2426
+ "epoch": 1.06,
2427
+ "grad_norm": 2.251269578933716,
2428
+ "learning_rate": 7.155555555555556e-06,
2429
+ "loss": 0.0205,
2430
+ "step": 3390
2431
+ },
2432
+ {
2433
+ "epoch": 1.07,
2434
+ "grad_norm": 0.003230300033465028,
2435
+ "learning_rate": 7.111111111111112e-06,
2436
+ "loss": 0.0147,
2437
+ "step": 3400
2438
+ },
2439
+ {
2440
+ "epoch": 1.07,
2441
+ "grad_norm": 1.5663217306137085,
2442
+ "learning_rate": 7.066666666666667e-06,
2443
+ "loss": 0.0186,
2444
+ "step": 3410
2445
+ },
2446
+ {
2447
+ "epoch": 1.07,
2448
+ "grad_norm": 0.0012102341279387474,
2449
+ "learning_rate": 7.022222222222222e-06,
2450
+ "loss": 0.0016,
2451
+ "step": 3420
2452
+ },
2453
+ {
2454
+ "epoch": 1.07,
2455
+ "grad_norm": 0.000960271863732487,
2456
+ "learning_rate": 6.977777777777779e-06,
2457
+ "loss": 0.0351,
2458
+ "step": 3430
2459
+ },
2460
+ {
2461
+ "epoch": 1.08,
2462
+ "grad_norm": 0.001627901685424149,
2463
+ "learning_rate": 6.9333333333333344e-06,
2464
+ "loss": 0.0494,
2465
+ "step": 3440
2466
+ },
2467
+ {
2468
+ "epoch": 1.08,
2469
+ "grad_norm": 0.0015967305516824126,
2470
+ "learning_rate": 6.88888888888889e-06,
2471
+ "loss": 0.0052,
2472
+ "step": 3450
2473
+ },
2474
+ {
2475
+ "epoch": 1.08,
2476
+ "grad_norm": 0.0006052978569641709,
2477
+ "learning_rate": 6.844444444444445e-06,
2478
+ "loss": 0.0198,
2479
+ "step": 3460
2480
+ },
2481
+ {
2482
+ "epoch": 1.09,
2483
+ "grad_norm": 0.832760214805603,
2484
+ "learning_rate": 6.800000000000001e-06,
2485
+ "loss": 0.0147,
2486
+ "step": 3470
2487
+ },
2488
+ {
2489
+ "epoch": 1.09,
2490
+ "grad_norm": 1.8160419464111328,
2491
+ "learning_rate": 6.755555555555556e-06,
2492
+ "loss": 0.0256,
2493
+ "step": 3480
2494
+ },
2495
+ {
2496
+ "epoch": 1.09,
2497
+ "grad_norm": 1.7934602499008179,
2498
+ "learning_rate": 6.711111111111111e-06,
2499
+ "loss": 0.0471,
2500
+ "step": 3490
2501
+ },
2502
+ {
2503
+ "epoch": 1.1,
2504
+ "grad_norm": 0.01658487133681774,
2505
+ "learning_rate": 6.666666666666667e-06,
2506
+ "loss": 0.043,
2507
+ "step": 3500
2508
+ },
2509
+ {
2510
+ "epoch": 1.1,
2511
+ "eval_loss": 0.021265115588903427,
2512
+ "eval_runtime": 61.9415,
2513
+ "eval_samples_per_second": 16.144,
2514
+ "eval_steps_per_second": 16.144,
2515
+ "step": 3500
2516
+ },
2517
+ {
2518
+ "epoch": 1.1,
2519
+ "grad_norm": 0.002576815662905574,
2520
+ "learning_rate": 6.6222222222222236e-06,
2521
+ "loss": 0.0521,
2522
+ "step": 3510
2523
+ },
2524
+ {
2525
+ "epoch": 1.1,
2526
+ "grad_norm": 0.005587077233940363,
2527
+ "learning_rate": 6.577777777777779e-06,
2528
+ "loss": 0.0098,
2529
+ "step": 3520
2530
+ },
2531
+ {
2532
+ "epoch": 1.11,
2533
+ "grad_norm": 0.7236731052398682,
2534
+ "learning_rate": 6.533333333333334e-06,
2535
+ "loss": 0.0434,
2536
+ "step": 3530
2537
+ },
2538
+ {
2539
+ "epoch": 1.11,
2540
+ "grad_norm": 0.013782077468931675,
2541
+ "learning_rate": 6.488888888888889e-06,
2542
+ "loss": 0.0231,
2543
+ "step": 3540
2544
+ },
2545
+ {
2546
+ "epoch": 1.11,
2547
+ "grad_norm": 0.0013029536930844188,
2548
+ "learning_rate": 6.444444444444445e-06,
2549
+ "loss": 0.006,
2550
+ "step": 3550
2551
+ },
2552
+ {
2553
+ "epoch": 1.12,
2554
+ "grad_norm": 0.0017811213620007038,
2555
+ "learning_rate": 6.4000000000000006e-06,
2556
+ "loss": 0.0335,
2557
+ "step": 3560
2558
+ },
2559
+ {
2560
+ "epoch": 1.12,
2561
+ "grad_norm": 0.0008715124567970634,
2562
+ "learning_rate": 6.355555555555556e-06,
2563
+ "loss": 0.0285,
2564
+ "step": 3570
2565
+ },
2566
+ {
2567
+ "epoch": 1.12,
2568
+ "grad_norm": 0.002087782369926572,
2569
+ "learning_rate": 6.311111111111111e-06,
2570
+ "loss": 0.0157,
2571
+ "step": 3580
2572
+ },
2573
+ {
2574
+ "epoch": 1.12,
2575
+ "grad_norm": 0.0018431423231959343,
2576
+ "learning_rate": 6.266666666666668e-06,
2577
+ "loss": 0.007,
2578
+ "step": 3590
2579
+ },
2580
+ {
2581
+ "epoch": 1.13,
2582
+ "grad_norm": 2.5827839374542236,
2583
+ "learning_rate": 6.222222222222223e-06,
2584
+ "loss": 0.0288,
2585
+ "step": 3600
2586
+ },
2587
+ {
2588
+ "epoch": 1.13,
2589
+ "grad_norm": 0.00216556154191494,
2590
+ "learning_rate": 6.177777777777778e-06,
2591
+ "loss": 0.0001,
2592
+ "step": 3610
2593
+ },
2594
+ {
2595
+ "epoch": 1.13,
2596
+ "grad_norm": 0.0011645135236904025,
2597
+ "learning_rate": 6.133333333333334e-06,
2598
+ "loss": 0.0384,
2599
+ "step": 3620
2600
+ },
2601
+ {
2602
+ "epoch": 1.14,
2603
+ "grad_norm": 1.5017549991607666,
2604
+ "learning_rate": 6.08888888888889e-06,
2605
+ "loss": 0.0133,
2606
+ "step": 3630
2607
+ },
2608
+ {
2609
+ "epoch": 1.14,
2610
+ "grad_norm": 1.0787444114685059,
2611
+ "learning_rate": 6.044444444444445e-06,
2612
+ "loss": 0.0201,
2613
+ "step": 3640
2614
+ },
2615
+ {
2616
+ "epoch": 1.14,
2617
+ "grad_norm": 2.6228489875793457,
2618
+ "learning_rate": 6e-06,
2619
+ "loss": 0.0316,
2620
+ "step": 3650
2621
+ },
2622
+ {
2623
+ "epoch": 1.15,
2624
+ "grad_norm": 2.6893579959869385,
2625
+ "learning_rate": 5.955555555555555e-06,
2626
+ "loss": 0.0296,
2627
+ "step": 3660
2628
+ },
2629
+ {
2630
+ "epoch": 1.15,
2631
+ "grad_norm": 2.737757921218872,
2632
+ "learning_rate": 5.911111111111112e-06,
2633
+ "loss": 0.0281,
2634
+ "step": 3670
2635
+ },
2636
+ {
2637
+ "epoch": 1.15,
2638
+ "grad_norm": 0.0011677155271172523,
2639
+ "learning_rate": 5.8666666666666675e-06,
2640
+ "loss": 0.0446,
2641
+ "step": 3680
2642
+ },
2643
+ {
2644
+ "epoch": 1.16,
2645
+ "grad_norm": 1.590535044670105,
2646
+ "learning_rate": 5.822222222222223e-06,
2647
+ "loss": 0.0668,
2648
+ "step": 3690
2649
+ },
2650
+ {
2651
+ "epoch": 1.16,
2652
+ "grad_norm": 3.329134464263916,
2653
+ "learning_rate": 5.777777777777778e-06,
2654
+ "loss": 0.023,
2655
+ "step": 3700
2656
+ },
2657
+ {
2658
+ "epoch": 1.16,
2659
+ "grad_norm": 0.0014503680868074298,
2660
+ "learning_rate": 5.733333333333334e-06,
2661
+ "loss": 0.0343,
2662
+ "step": 3710
2663
+ },
2664
+ {
2665
+ "epoch": 1.17,
2666
+ "grad_norm": 0.03579283133149147,
2667
+ "learning_rate": 5.688888888888889e-06,
2668
+ "loss": 0.0767,
2669
+ "step": 3720
2670
+ },
2671
+ {
2672
+ "epoch": 1.17,
2673
+ "grad_norm": 0.0014656345592811704,
2674
+ "learning_rate": 5.6444444444444445e-06,
2675
+ "loss": 0.0202,
2676
+ "step": 3730
2677
+ },
2678
+ {
2679
+ "epoch": 1.17,
2680
+ "grad_norm": 0.0010772488312795758,
2681
+ "learning_rate": 5.600000000000001e-06,
2682
+ "loss": 0.0521,
2683
+ "step": 3740
2684
+ },
2685
+ {
2686
+ "epoch": 1.17,
2687
+ "grad_norm": 0.007391482125967741,
2688
+ "learning_rate": 5.555555555555557e-06,
2689
+ "loss": 0.0177,
2690
+ "step": 3750
2691
+ },
2692
+ {
2693
+ "epoch": 1.18,
2694
+ "grad_norm": 0.0013084843521937728,
2695
+ "learning_rate": 5.511111111111112e-06,
2696
+ "loss": 0.0132,
2697
+ "step": 3760
2698
+ },
2699
+ {
2700
+ "epoch": 1.18,
2701
+ "grad_norm": 0.0018328677397221327,
2702
+ "learning_rate": 5.466666666666667e-06,
2703
+ "loss": 0.0833,
2704
+ "step": 3770
2705
+ },
2706
+ {
2707
+ "epoch": 1.18,
2708
+ "grad_norm": 0.002266037743538618,
2709
+ "learning_rate": 5.422222222222223e-06,
2710
+ "loss": 0.0165,
2711
+ "step": 3780
2712
+ },
2713
+ {
2714
+ "epoch": 1.19,
2715
+ "grad_norm": 0.35491234064102173,
2716
+ "learning_rate": 5.3777777777777784e-06,
2717
+ "loss": 0.0205,
2718
+ "step": 3790
2719
+ },
2720
+ {
2721
+ "epoch": 1.19,
2722
+ "grad_norm": 0.08552182465791702,
2723
+ "learning_rate": 5.333333333333334e-06,
2724
+ "loss": 0.0153,
2725
+ "step": 3800
2726
+ },
2727
+ {
2728
+ "epoch": 1.19,
2729
+ "grad_norm": 0.0011903179110959172,
2730
+ "learning_rate": 5.288888888888889e-06,
2731
+ "loss": 0.0164,
2732
+ "step": 3810
2733
+ },
2734
+ {
2735
+ "epoch": 1.2,
2736
+ "grad_norm": 0.002342939842492342,
2737
+ "learning_rate": 5.244444444444445e-06,
2738
+ "loss": 0.0301,
2739
+ "step": 3820
2740
+ },
2741
+ {
2742
+ "epoch": 1.2,
2743
+ "grad_norm": 0.0657195895910263,
2744
+ "learning_rate": 5.2e-06,
2745
+ "loss": 0.0162,
2746
+ "step": 3830
2747
+ },
2748
+ {
2749
+ "epoch": 1.2,
2750
+ "grad_norm": 0.0015936404233798385,
2751
+ "learning_rate": 5.155555555555556e-06,
2752
+ "loss": 0.03,
2753
+ "step": 3840
2754
+ },
2755
+ {
2756
+ "epoch": 1.21,
2757
+ "grad_norm": 0.0019919448532164097,
2758
+ "learning_rate": 5.1111111111111115e-06,
2759
+ "loss": 0.0003,
2760
+ "step": 3850
2761
+ },
2762
+ {
2763
+ "epoch": 1.21,
2764
+ "grad_norm": 1.1910542249679565,
2765
+ "learning_rate": 5.0666666666666676e-06,
2766
+ "loss": 0.0309,
2767
+ "step": 3860
2768
+ },
2769
+ {
2770
+ "epoch": 1.21,
2771
+ "grad_norm": 0.0016105415998026729,
2772
+ "learning_rate": 5.022222222222223e-06,
2773
+ "loss": 0.0319,
2774
+ "step": 3870
2775
+ },
2776
+ {
2777
+ "epoch": 1.22,
2778
+ "grad_norm": 0.0006896441336721182,
2779
+ "learning_rate": 4.977777777777778e-06,
2780
+ "loss": 0.0187,
2781
+ "step": 3880
2782
+ },
2783
+ {
2784
+ "epoch": 1.22,
2785
+ "grad_norm": 2.6113905906677246,
2786
+ "learning_rate": 4.933333333333334e-06,
2787
+ "loss": 0.016,
2788
+ "step": 3890
2789
+ },
2790
+ {
2791
+ "epoch": 1.22,
2792
+ "grad_norm": 1.3897886276245117,
2793
+ "learning_rate": 4.888888888888889e-06,
2794
+ "loss": 0.0575,
2795
+ "step": 3900
2796
+ },
2797
+ {
2798
+ "epoch": 1.23,
2799
+ "grad_norm": 0.0009651753352954984,
2800
+ "learning_rate": 4.8444444444444446e-06,
2801
+ "loss": 0.001,
2802
+ "step": 3910
2803
+ },
2804
+ {
2805
+ "epoch": 1.23,
2806
+ "grad_norm": 0.003367891302332282,
2807
+ "learning_rate": 4.800000000000001e-06,
2808
+ "loss": 0.0507,
2809
+ "step": 3920
2810
+ },
2811
+ {
2812
+ "epoch": 1.23,
2813
+ "grad_norm": 1.4884891510009766,
2814
+ "learning_rate": 4.755555555555556e-06,
2815
+ "loss": 0.0078,
2816
+ "step": 3930
2817
+ },
2818
+ {
2819
+ "epoch": 1.23,
2820
+ "grad_norm": 0.0011329209664836526,
2821
+ "learning_rate": 4.711111111111111e-06,
2822
+ "loss": 0.0,
2823
+ "step": 3940
2824
+ },
2825
+ {
2826
+ "epoch": 1.24,
2827
+ "grad_norm": 0.0015582548221573234,
2828
+ "learning_rate": 4.666666666666667e-06,
2829
+ "loss": 0.0263,
2830
+ "step": 3950
2831
+ },
2832
+ {
2833
+ "epoch": 1.24,
2834
+ "grad_norm": 0.0019160009687766433,
2835
+ "learning_rate": 4.622222222222222e-06,
2836
+ "loss": 0.025,
2837
+ "step": 3960
2838
+ },
2839
+ {
2840
+ "epoch": 1.24,
2841
+ "grad_norm": 0.0009318340453319252,
2842
+ "learning_rate": 4.5777777777777785e-06,
2843
+ "loss": 0.0474,
2844
+ "step": 3970
2845
+ },
2846
+ {
2847
+ "epoch": 1.25,
2848
+ "grad_norm": 0.0015654967864975333,
2849
+ "learning_rate": 4.533333333333334e-06,
2850
+ "loss": 0.025,
2851
+ "step": 3980
2852
+ },
2853
+ {
2854
+ "epoch": 1.25,
2855
+ "grad_norm": 2.0137476921081543,
2856
+ "learning_rate": 4.488888888888889e-06,
2857
+ "loss": 0.0092,
2858
+ "step": 3990
2859
+ },
2860
+ {
2861
+ "epoch": 1.25,
2862
+ "grad_norm": 0.03859930485486984,
2863
+ "learning_rate": 4.444444444444444e-06,
2864
+ "loss": 0.0231,
2865
+ "step": 4000
2866
+ },
2867
+ {
2868
+ "epoch": 1.25,
2869
+ "eval_loss": 0.02214735746383667,
2870
+ "eval_runtime": 61.9646,
2871
+ "eval_samples_per_second": 16.138,
2872
+ "eval_steps_per_second": 16.138,
2873
+ "step": 4000
2874
  }
2875
  ],
2876
  "logging_steps": 10,
 
2878
  "num_input_tokens_seen": 0,
2879
  "num_train_epochs": 2,
2880
  "save_steps": 1000,
2881
+ "total_flos": 6.4408503975936e+16,
2882
  "train_batch_size": 1,
2883
  "trial_name": null,
2884
  "trial_params": null