jdannem6 commited on
Commit
6cad058
1 Parent(s): c7eba5c

Uploaded checkpoint-5000

Browse files
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:972dc6c25a7ba22f961a54b6dfec63f8f71aa505086b3975df6cf082fc13115e
3
  size 119975656
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e5e0b7207d9bd6becd1700b6b2ae0cc25e2df634701bbabcdf475719b15a7960
3
  size 119975656
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3143a5365fcf9595164c34006dbd78149b5d0e6391fbf16643ee4c70b2a2e398
3
  size 240145026
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:147937442c94f1002c9c3ccf39a8d26218ca422f51511bd46be390399b77527f
3
  size 240145026
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b90bc42e5601a089b4f97e9c36e907416b25c070b74e200626385618b0995aae
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:af4fc59c67c352cae63c079b9681492ee5f0d6b4b95d053649ba31a9ffec9bc2
3
  size 14244
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2f80b0441e18382140898e5947e4bf00161c8985bfd13094069daa8dad861cc8
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2be67f6aac8e482bb2022409709d8774ffb125292c0c9cf025c0ae747f3a6d57
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.018277771770954132,
3
  "best_model_checkpoint": "runs/deepseek_lora_20240424-122712/checkpoint-2000",
4
- "epoch": 1.2532309861361322,
5
  "eval_steps": 500,
6
- "global_step": 4000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2871,6 +2871,722 @@
2871
  "eval_samples_per_second": 16.138,
2872
  "eval_steps_per_second": 16.138,
2873
  "step": 4000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2874
  }
2875
  ],
2876
  "logging_steps": 10,
@@ -2878,7 +3594,7 @@
2878
  "num_input_tokens_seen": 0,
2879
  "num_train_epochs": 2,
2880
  "save_steps": 1000,
2881
- "total_flos": 6.4408503975936e+16,
2882
  "train_batch_size": 1,
2883
  "trial_name": null,
2884
  "trial_params": null
 
1
  {
2
  "best_metric": 0.018277771770954132,
3
  "best_model_checkpoint": "runs/deepseek_lora_20240424-122712/checkpoint-2000",
4
+ "epoch": 1.5665387326701654,
5
  "eval_steps": 500,
6
+ "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2871
  "eval_samples_per_second": 16.138,
2872
  "eval_steps_per_second": 16.138,
2873
  "step": 4000
2874
+ },
2875
+ {
2876
+ "epoch": 1.26,
2877
+ "grad_norm": 0.0019934908486902714,
2878
+ "learning_rate": 4.4e-06,
2879
+ "loss": 0.0371,
2880
+ "step": 4010
2881
+ },
2882
+ {
2883
+ "epoch": 1.26,
2884
+ "grad_norm": 0.019653044641017914,
2885
+ "learning_rate": 4.3555555555555555e-06,
2886
+ "loss": 0.0195,
2887
+ "step": 4020
2888
+ },
2889
+ {
2890
+ "epoch": 1.26,
2891
+ "grad_norm": 6.957361221313477,
2892
+ "learning_rate": 4.3111111111111115e-06,
2893
+ "loss": 0.0581,
2894
+ "step": 4030
2895
+ },
2896
+ {
2897
+ "epoch": 1.27,
2898
+ "grad_norm": 0.002056374680250883,
2899
+ "learning_rate": 4.266666666666668e-06,
2900
+ "loss": 0.0095,
2901
+ "step": 4040
2902
+ },
2903
+ {
2904
+ "epoch": 1.27,
2905
+ "grad_norm": 0.003081790404394269,
2906
+ "learning_rate": 4.222222222222223e-06,
2907
+ "loss": 0.0974,
2908
+ "step": 4050
2909
+ },
2910
+ {
2911
+ "epoch": 1.27,
2912
+ "grad_norm": 0.5953612327575684,
2913
+ "learning_rate": 4.177777777777778e-06,
2914
+ "loss": 0.0236,
2915
+ "step": 4060
2916
+ },
2917
+ {
2918
+ "epoch": 1.28,
2919
+ "grad_norm": 0.3564951717853546,
2920
+ "learning_rate": 4.133333333333333e-06,
2921
+ "loss": 0.006,
2922
+ "step": 4070
2923
+ },
2924
+ {
2925
+ "epoch": 1.28,
2926
+ "grad_norm": 1.716987133026123,
2927
+ "learning_rate": 4.088888888888889e-06,
2928
+ "loss": 0.0267,
2929
+ "step": 4080
2930
+ },
2931
+ {
2932
+ "epoch": 1.28,
2933
+ "grad_norm": 0.0012724585831165314,
2934
+ "learning_rate": 4.044444444444445e-06,
2935
+ "loss": 0.033,
2936
+ "step": 4090
2937
+ },
2938
+ {
2939
+ "epoch": 1.28,
2940
+ "grad_norm": 0.04030340909957886,
2941
+ "learning_rate": 4.000000000000001e-06,
2942
+ "loss": 0.0281,
2943
+ "step": 4100
2944
+ },
2945
+ {
2946
+ "epoch": 1.29,
2947
+ "grad_norm": 0.0011103869182989001,
2948
+ "learning_rate": 3.955555555555556e-06,
2949
+ "loss": 0.0207,
2950
+ "step": 4110
2951
+ },
2952
+ {
2953
+ "epoch": 1.29,
2954
+ "grad_norm": 1.1311607360839844,
2955
+ "learning_rate": 3.911111111111112e-06,
2956
+ "loss": 0.0419,
2957
+ "step": 4120
2958
+ },
2959
+ {
2960
+ "epoch": 1.29,
2961
+ "grad_norm": 4.105261325836182,
2962
+ "learning_rate": 3.866666666666667e-06,
2963
+ "loss": 0.0481,
2964
+ "step": 4130
2965
+ },
2966
+ {
2967
+ "epoch": 1.3,
2968
+ "grad_norm": 0.020243069157004356,
2969
+ "learning_rate": 3.8222222222222224e-06,
2970
+ "loss": 0.0159,
2971
+ "step": 4140
2972
+ },
2973
+ {
2974
+ "epoch": 1.3,
2975
+ "grad_norm": 0.0007079013157635927,
2976
+ "learning_rate": 3.777777777777778e-06,
2977
+ "loss": 0.0394,
2978
+ "step": 4150
2979
+ },
2980
+ {
2981
+ "epoch": 1.3,
2982
+ "grad_norm": 4.033346652984619,
2983
+ "learning_rate": 3.7333333333333337e-06,
2984
+ "loss": 0.0444,
2985
+ "step": 4160
2986
+ },
2987
+ {
2988
+ "epoch": 1.31,
2989
+ "grad_norm": 1.866074800491333,
2990
+ "learning_rate": 3.688888888888889e-06,
2991
+ "loss": 0.0236,
2992
+ "step": 4170
2993
+ },
2994
+ {
2995
+ "epoch": 1.31,
2996
+ "grad_norm": 0.0009274449548684061,
2997
+ "learning_rate": 3.644444444444445e-06,
2998
+ "loss": 0.0185,
2999
+ "step": 4180
3000
+ },
3001
+ {
3002
+ "epoch": 1.31,
3003
+ "grad_norm": 0.0005082357674837112,
3004
+ "learning_rate": 3.6000000000000003e-06,
3005
+ "loss": 0.0047,
3006
+ "step": 4190
3007
+ },
3008
+ {
3009
+ "epoch": 1.32,
3010
+ "grad_norm": 0.0029984298162162304,
3011
+ "learning_rate": 3.555555555555556e-06,
3012
+ "loss": 0.0059,
3013
+ "step": 4200
3014
+ },
3015
+ {
3016
+ "epoch": 1.32,
3017
+ "grad_norm": 1.9557390213012695,
3018
+ "learning_rate": 3.511111111111111e-06,
3019
+ "loss": 0.0159,
3020
+ "step": 4210
3021
+ },
3022
+ {
3023
+ "epoch": 1.32,
3024
+ "grad_norm": 0.0032698616851121187,
3025
+ "learning_rate": 3.4666666666666672e-06,
3026
+ "loss": 0.0232,
3027
+ "step": 4220
3028
+ },
3029
+ {
3030
+ "epoch": 1.33,
3031
+ "grad_norm": 0.0015465226024389267,
3032
+ "learning_rate": 3.4222222222222224e-06,
3033
+ "loss": 0.0352,
3034
+ "step": 4230
3035
+ },
3036
+ {
3037
+ "epoch": 1.33,
3038
+ "grad_norm": 0.000589876202866435,
3039
+ "learning_rate": 3.377777777777778e-06,
3040
+ "loss": 0.0148,
3041
+ "step": 4240
3042
+ },
3043
+ {
3044
+ "epoch": 1.33,
3045
+ "grad_norm": 0.0008864306146278977,
3046
+ "learning_rate": 3.3333333333333333e-06,
3047
+ "loss": 0.0118,
3048
+ "step": 4250
3049
+ },
3050
+ {
3051
+ "epoch": 1.33,
3052
+ "grad_norm": 0.001105438219383359,
3053
+ "learning_rate": 3.2888888888888894e-06,
3054
+ "loss": 0.0116,
3055
+ "step": 4260
3056
+ },
3057
+ {
3058
+ "epoch": 1.34,
3059
+ "grad_norm": 0.001639057882130146,
3060
+ "learning_rate": 3.2444444444444446e-06,
3061
+ "loss": 0.0346,
3062
+ "step": 4270
3063
+ },
3064
+ {
3065
+ "epoch": 1.34,
3066
+ "grad_norm": 5.211305141448975,
3067
+ "learning_rate": 3.2000000000000003e-06,
3068
+ "loss": 0.1259,
3069
+ "step": 4280
3070
+ },
3071
+ {
3072
+ "epoch": 1.34,
3073
+ "grad_norm": 0.0007241423591040075,
3074
+ "learning_rate": 3.1555555555555555e-06,
3075
+ "loss": 0.0062,
3076
+ "step": 4290
3077
+ },
3078
+ {
3079
+ "epoch": 1.35,
3080
+ "grad_norm": 0.0005371780716814101,
3081
+ "learning_rate": 3.1111111111111116e-06,
3082
+ "loss": 0.0057,
3083
+ "step": 4300
3084
+ },
3085
+ {
3086
+ "epoch": 1.35,
3087
+ "grad_norm": 0.0020129482727497816,
3088
+ "learning_rate": 3.066666666666667e-06,
3089
+ "loss": 0.017,
3090
+ "step": 4310
3091
+ },
3092
+ {
3093
+ "epoch": 1.35,
3094
+ "grad_norm": 0.002723652869462967,
3095
+ "learning_rate": 3.0222222222222225e-06,
3096
+ "loss": 0.055,
3097
+ "step": 4320
3098
+ },
3099
+ {
3100
+ "epoch": 1.36,
3101
+ "grad_norm": 0.0009510384988971055,
3102
+ "learning_rate": 2.9777777777777777e-06,
3103
+ "loss": 0.0278,
3104
+ "step": 4330
3105
+ },
3106
+ {
3107
+ "epoch": 1.36,
3108
+ "grad_norm": 0.0005794400931335986,
3109
+ "learning_rate": 2.9333333333333338e-06,
3110
+ "loss": 0.0462,
3111
+ "step": 4340
3112
+ },
3113
+ {
3114
+ "epoch": 1.36,
3115
+ "grad_norm": 0.001246045925654471,
3116
+ "learning_rate": 2.888888888888889e-06,
3117
+ "loss": 0.0345,
3118
+ "step": 4350
3119
+ },
3120
+ {
3121
+ "epoch": 1.37,
3122
+ "grad_norm": 1.7043557167053223,
3123
+ "learning_rate": 2.8444444444444446e-06,
3124
+ "loss": 0.0536,
3125
+ "step": 4360
3126
+ },
3127
+ {
3128
+ "epoch": 1.37,
3129
+ "grad_norm": 3.8166236877441406,
3130
+ "learning_rate": 2.8000000000000003e-06,
3131
+ "loss": 0.0218,
3132
+ "step": 4370
3133
+ },
3134
+ {
3135
+ "epoch": 1.37,
3136
+ "grad_norm": 2.2809741497039795,
3137
+ "learning_rate": 2.755555555555556e-06,
3138
+ "loss": 0.064,
3139
+ "step": 4380
3140
+ },
3141
+ {
3142
+ "epoch": 1.38,
3143
+ "grad_norm": 0.005824711639434099,
3144
+ "learning_rate": 2.7111111111111116e-06,
3145
+ "loss": 0.0269,
3146
+ "step": 4390
3147
+ },
3148
+ {
3149
+ "epoch": 1.38,
3150
+ "grad_norm": 0.05956351011991501,
3151
+ "learning_rate": 2.666666666666667e-06,
3152
+ "loss": 0.0352,
3153
+ "step": 4400
3154
+ },
3155
+ {
3156
+ "epoch": 1.38,
3157
+ "grad_norm": 0.0005406837444752455,
3158
+ "learning_rate": 2.6222222222222225e-06,
3159
+ "loss": 0.0447,
3160
+ "step": 4410
3161
+ },
3162
+ {
3163
+ "epoch": 1.38,
3164
+ "grad_norm": 1.6089625358581543,
3165
+ "learning_rate": 2.577777777777778e-06,
3166
+ "loss": 0.0295,
3167
+ "step": 4420
3168
+ },
3169
+ {
3170
+ "epoch": 1.39,
3171
+ "grad_norm": 0.0007441785419359803,
3172
+ "learning_rate": 2.5333333333333338e-06,
3173
+ "loss": 0.0309,
3174
+ "step": 4430
3175
+ },
3176
+ {
3177
+ "epoch": 1.39,
3178
+ "grad_norm": 0.295694500207901,
3179
+ "learning_rate": 2.488888888888889e-06,
3180
+ "loss": 0.0645,
3181
+ "step": 4440
3182
+ },
3183
+ {
3184
+ "epoch": 1.39,
3185
+ "grad_norm": 0.00048340618377551436,
3186
+ "learning_rate": 2.4444444444444447e-06,
3187
+ "loss": 0.0334,
3188
+ "step": 4450
3189
+ },
3190
+ {
3191
+ "epoch": 1.4,
3192
+ "grad_norm": 0.0010877919849008322,
3193
+ "learning_rate": 2.4000000000000003e-06,
3194
+ "loss": 0.0196,
3195
+ "step": 4460
3196
+ },
3197
+ {
3198
+ "epoch": 1.4,
3199
+ "grad_norm": 1.4027998447418213,
3200
+ "learning_rate": 2.3555555555555555e-06,
3201
+ "loss": 0.0419,
3202
+ "step": 4470
3203
+ },
3204
+ {
3205
+ "epoch": 1.4,
3206
+ "grad_norm": 1.5113612413406372,
3207
+ "learning_rate": 2.311111111111111e-06,
3208
+ "loss": 0.0181,
3209
+ "step": 4480
3210
+ },
3211
+ {
3212
+ "epoch": 1.41,
3213
+ "grad_norm": 0.018225079402327538,
3214
+ "learning_rate": 2.266666666666667e-06,
3215
+ "loss": 0.0124,
3216
+ "step": 4490
3217
+ },
3218
+ {
3219
+ "epoch": 1.41,
3220
+ "grad_norm": 0.0012544667115435004,
3221
+ "learning_rate": 2.222222222222222e-06,
3222
+ "loss": 0.0164,
3223
+ "step": 4500
3224
+ },
3225
+ {
3226
+ "epoch": 1.41,
3227
+ "eval_loss": 0.0191478431224823,
3228
+ "eval_runtime": 61.916,
3229
+ "eval_samples_per_second": 16.151,
3230
+ "eval_steps_per_second": 16.151,
3231
+ "step": 4500
3232
+ },
3233
+ {
3234
+ "epoch": 1.41,
3235
+ "grad_norm": 0.0007392147090286016,
3236
+ "learning_rate": 2.1777777777777777e-06,
3237
+ "loss": 0.0231,
3238
+ "step": 4510
3239
+ },
3240
+ {
3241
+ "epoch": 1.42,
3242
+ "grad_norm": 1.7059309482574463,
3243
+ "learning_rate": 2.133333333333334e-06,
3244
+ "loss": 0.0205,
3245
+ "step": 4520
3246
+ },
3247
+ {
3248
+ "epoch": 1.42,
3249
+ "grad_norm": 0.0005404640105552971,
3250
+ "learning_rate": 2.088888888888889e-06,
3251
+ "loss": 0.0281,
3252
+ "step": 4530
3253
+ },
3254
+ {
3255
+ "epoch": 1.42,
3256
+ "grad_norm": 0.000860686122905463,
3257
+ "learning_rate": 2.0444444444444447e-06,
3258
+ "loss": 0.0097,
3259
+ "step": 4540
3260
+ },
3261
+ {
3262
+ "epoch": 1.43,
3263
+ "grad_norm": 0.0006032692035660148,
3264
+ "learning_rate": 2.0000000000000003e-06,
3265
+ "loss": 0.009,
3266
+ "step": 4550
3267
+ },
3268
+ {
3269
+ "epoch": 1.43,
3270
+ "grad_norm": 0.0009364313445985317,
3271
+ "learning_rate": 1.955555555555556e-06,
3272
+ "loss": 0.0095,
3273
+ "step": 4560
3274
+ },
3275
+ {
3276
+ "epoch": 1.43,
3277
+ "grad_norm": 0.0004945364780724049,
3278
+ "learning_rate": 1.9111111111111112e-06,
3279
+ "loss": 0.0074,
3280
+ "step": 4570
3281
+ },
3282
+ {
3283
+ "epoch": 1.43,
3284
+ "grad_norm": 0.001013664877973497,
3285
+ "learning_rate": 1.8666666666666669e-06,
3286
+ "loss": 0.0074,
3287
+ "step": 4580
3288
+ },
3289
+ {
3290
+ "epoch": 1.44,
3291
+ "grad_norm": 0.001039516762830317,
3292
+ "learning_rate": 1.8222222222222225e-06,
3293
+ "loss": 0.0528,
3294
+ "step": 4590
3295
+ },
3296
+ {
3297
+ "epoch": 1.44,
3298
+ "grad_norm": 0.0011727253440767527,
3299
+ "learning_rate": 1.777777777777778e-06,
3300
+ "loss": 0.0304,
3301
+ "step": 4600
3302
+ },
3303
+ {
3304
+ "epoch": 1.44,
3305
+ "grad_norm": 0.0022508064284920692,
3306
+ "learning_rate": 1.7333333333333336e-06,
3307
+ "loss": 0.02,
3308
+ "step": 4610
3309
+ },
3310
+ {
3311
+ "epoch": 1.45,
3312
+ "grad_norm": 0.0005586406332440674,
3313
+ "learning_rate": 1.688888888888889e-06,
3314
+ "loss": 0.0343,
3315
+ "step": 4620
3316
+ },
3317
+ {
3318
+ "epoch": 1.45,
3319
+ "grad_norm": 1.7288540601730347,
3320
+ "learning_rate": 1.6444444444444447e-06,
3321
+ "loss": 0.0615,
3322
+ "step": 4630
3323
+ },
3324
+ {
3325
+ "epoch": 1.45,
3326
+ "grad_norm": 0.0005667012301273644,
3327
+ "learning_rate": 1.6000000000000001e-06,
3328
+ "loss": 0.0002,
3329
+ "step": 4640
3330
+ },
3331
+ {
3332
+ "epoch": 1.46,
3333
+ "grad_norm": 1.2609503269195557,
3334
+ "learning_rate": 1.5555555555555558e-06,
3335
+ "loss": 0.024,
3336
+ "step": 4650
3337
+ },
3338
+ {
3339
+ "epoch": 1.46,
3340
+ "grad_norm": 0.007942456752061844,
3341
+ "learning_rate": 1.5111111111111112e-06,
3342
+ "loss": 0.0858,
3343
+ "step": 4660
3344
+ },
3345
+ {
3346
+ "epoch": 1.46,
3347
+ "grad_norm": 0.0006302391411736608,
3348
+ "learning_rate": 1.4666666666666669e-06,
3349
+ "loss": 0.0085,
3350
+ "step": 4670
3351
+ },
3352
+ {
3353
+ "epoch": 1.47,
3354
+ "grad_norm": 0.0007383729098364711,
3355
+ "learning_rate": 1.4222222222222223e-06,
3356
+ "loss": 0.0077,
3357
+ "step": 4680
3358
+ },
3359
+ {
3360
+ "epoch": 1.47,
3361
+ "grad_norm": 1.8679457902908325,
3362
+ "learning_rate": 1.377777777777778e-06,
3363
+ "loss": 0.0498,
3364
+ "step": 4690
3365
+ },
3366
+ {
3367
+ "epoch": 1.47,
3368
+ "grad_norm": 1.0000814199447632,
3369
+ "learning_rate": 1.3333333333333334e-06,
3370
+ "loss": 0.0072,
3371
+ "step": 4700
3372
+ },
3373
+ {
3374
+ "epoch": 1.48,
3375
+ "grad_norm": 0.0014682277105748653,
3376
+ "learning_rate": 1.288888888888889e-06,
3377
+ "loss": 0.0167,
3378
+ "step": 4710
3379
+ },
3380
+ {
3381
+ "epoch": 1.48,
3382
+ "grad_norm": 0.002120391232892871,
3383
+ "learning_rate": 1.2444444444444445e-06,
3384
+ "loss": 0.0123,
3385
+ "step": 4720
3386
+ },
3387
+ {
3388
+ "epoch": 1.48,
3389
+ "grad_norm": 1.122591257095337,
3390
+ "learning_rate": 1.2000000000000002e-06,
3391
+ "loss": 0.0475,
3392
+ "step": 4730
3393
+ },
3394
+ {
3395
+ "epoch": 1.49,
3396
+ "grad_norm": 1.740593671798706,
3397
+ "learning_rate": 1.1555555555555556e-06,
3398
+ "loss": 0.051,
3399
+ "step": 4740
3400
+ },
3401
+ {
3402
+ "epoch": 1.49,
3403
+ "grad_norm": 0.001058158464729786,
3404
+ "learning_rate": 1.111111111111111e-06,
3405
+ "loss": 0.0376,
3406
+ "step": 4750
3407
+ },
3408
+ {
3409
+ "epoch": 1.49,
3410
+ "grad_norm": 0.001304270583204925,
3411
+ "learning_rate": 1.066666666666667e-06,
3412
+ "loss": 0.0051,
3413
+ "step": 4760
3414
+ },
3415
+ {
3416
+ "epoch": 1.49,
3417
+ "grad_norm": 1.0726263523101807,
3418
+ "learning_rate": 1.0222222222222223e-06,
3419
+ "loss": 0.0358,
3420
+ "step": 4770
3421
+ },
3422
+ {
3423
+ "epoch": 1.5,
3424
+ "grad_norm": 0.0022968349512666464,
3425
+ "learning_rate": 9.77777777777778e-07,
3426
+ "loss": 0.0502,
3427
+ "step": 4780
3428
+ },
3429
+ {
3430
+ "epoch": 1.5,
3431
+ "grad_norm": 0.0011897665681317449,
3432
+ "learning_rate": 9.333333333333334e-07,
3433
+ "loss": 0.0316,
3434
+ "step": 4790
3435
+ },
3436
+ {
3437
+ "epoch": 1.5,
3438
+ "grad_norm": 1.8926975727081299,
3439
+ "learning_rate": 8.88888888888889e-07,
3440
+ "loss": 0.0992,
3441
+ "step": 4800
3442
+ },
3443
+ {
3444
+ "epoch": 1.51,
3445
+ "grad_norm": 0.0009652904118411243,
3446
+ "learning_rate": 8.444444444444445e-07,
3447
+ "loss": 0.0043,
3448
+ "step": 4810
3449
+ },
3450
+ {
3451
+ "epoch": 1.51,
3452
+ "grad_norm": 0.0011450715828686953,
3453
+ "learning_rate": 8.000000000000001e-07,
3454
+ "loss": 0.0448,
3455
+ "step": 4820
3456
+ },
3457
+ {
3458
+ "epoch": 1.51,
3459
+ "grad_norm": 0.03609352558851242,
3460
+ "learning_rate": 7.555555555555556e-07,
3461
+ "loss": 0.0459,
3462
+ "step": 4830
3463
+ },
3464
+ {
3465
+ "epoch": 1.52,
3466
+ "grad_norm": 0.3606705665588379,
3467
+ "learning_rate": 7.111111111111112e-07,
3468
+ "loss": 0.0145,
3469
+ "step": 4840
3470
+ },
3471
+ {
3472
+ "epoch": 1.52,
3473
+ "grad_norm": 0.005971833132207394,
3474
+ "learning_rate": 6.666666666666667e-07,
3475
+ "loss": 0.0359,
3476
+ "step": 4850
3477
+ },
3478
+ {
3479
+ "epoch": 1.52,
3480
+ "grad_norm": 0.0006163293146528304,
3481
+ "learning_rate": 6.222222222222223e-07,
3482
+ "loss": 0.0195,
3483
+ "step": 4860
3484
+ },
3485
+ {
3486
+ "epoch": 1.53,
3487
+ "grad_norm": 0.000649360881652683,
3488
+ "learning_rate": 5.777777777777778e-07,
3489
+ "loss": 0.0549,
3490
+ "step": 4870
3491
+ },
3492
+ {
3493
+ "epoch": 1.53,
3494
+ "grad_norm": 0.5589812994003296,
3495
+ "learning_rate": 5.333333333333335e-07,
3496
+ "loss": 0.0179,
3497
+ "step": 4880
3498
+ },
3499
+ {
3500
+ "epoch": 1.53,
3501
+ "grad_norm": 4.655618190765381,
3502
+ "learning_rate": 4.88888888888889e-07,
3503
+ "loss": 0.0463,
3504
+ "step": 4890
3505
+ },
3506
+ {
3507
+ "epoch": 1.54,
3508
+ "grad_norm": 0.0005667076911777258,
3509
+ "learning_rate": 4.444444444444445e-07,
3510
+ "loss": 0.0389,
3511
+ "step": 4900
3512
+ },
3513
+ {
3514
+ "epoch": 1.54,
3515
+ "grad_norm": 0.0008188075153157115,
3516
+ "learning_rate": 4.0000000000000003e-07,
3517
+ "loss": 0.0898,
3518
+ "step": 4910
3519
+ },
3520
+ {
3521
+ "epoch": 1.54,
3522
+ "grad_norm": 0.01343528926372528,
3523
+ "learning_rate": 3.555555555555556e-07,
3524
+ "loss": 0.0124,
3525
+ "step": 4920
3526
+ },
3527
+ {
3528
+ "epoch": 1.54,
3529
+ "grad_norm": 0.0009366168524138629,
3530
+ "learning_rate": 3.111111111111111e-07,
3531
+ "loss": 0.0349,
3532
+ "step": 4930
3533
+ },
3534
+ {
3535
+ "epoch": 1.55,
3536
+ "grad_norm": 0.0007606361177749932,
3537
+ "learning_rate": 2.666666666666667e-07,
3538
+ "loss": 0.0109,
3539
+ "step": 4940
3540
+ },
3541
+ {
3542
+ "epoch": 1.55,
3543
+ "grad_norm": 0.0006974030402489007,
3544
+ "learning_rate": 2.2222222222222224e-07,
3545
+ "loss": 0.0164,
3546
+ "step": 4950
3547
+ },
3548
+ {
3549
+ "epoch": 1.55,
3550
+ "grad_norm": 0.001067605335265398,
3551
+ "learning_rate": 1.777777777777778e-07,
3552
+ "loss": 0.0388,
3553
+ "step": 4960
3554
+ },
3555
+ {
3556
+ "epoch": 1.56,
3557
+ "grad_norm": 0.0011008504079654813,
3558
+ "learning_rate": 1.3333333333333336e-07,
3559
+ "loss": 0.0391,
3560
+ "step": 4970
3561
+ },
3562
+ {
3563
+ "epoch": 1.56,
3564
+ "grad_norm": 0.0006954495911486447,
3565
+ "learning_rate": 8.88888888888889e-08,
3566
+ "loss": 0.0167,
3567
+ "step": 4980
3568
+ },
3569
+ {
3570
+ "epoch": 1.56,
3571
+ "grad_norm": 0.004439559765160084,
3572
+ "learning_rate": 4.444444444444445e-08,
3573
+ "loss": 0.0465,
3574
+ "step": 4990
3575
+ },
3576
+ {
3577
+ "epoch": 1.57,
3578
+ "grad_norm": 0.0010708813788369298,
3579
+ "learning_rate": 0.0,
3580
+ "loss": 0.0342,
3581
+ "step": 5000
3582
+ },
3583
+ {
3584
+ "epoch": 1.57,
3585
+ "eval_loss": 0.02267477475106716,
3586
+ "eval_runtime": 61.8731,
3587
+ "eval_samples_per_second": 16.162,
3588
+ "eval_steps_per_second": 16.162,
3589
+ "step": 5000
3590
  }
3591
  ],
3592
  "logging_steps": 10,
 
3594
  "num_input_tokens_seen": 0,
3595
  "num_train_epochs": 2,
3596
  "save_steps": 1000,
3597
+ "total_flos": 8.051062996992e+16,
3598
  "train_batch_size": 1,
3599
  "trial_name": null,
3600
  "trial_params": null