bharati2324 commited on
Commit
ed460d3
·
verified ·
1 Parent(s): 29983cf

Training in progress, step 600, checkpoint

Browse files
checkpoint-600/adapter_config.json CHANGED
@@ -23,12 +23,12 @@
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
26
- "o_proj",
27
- "up_proj",
28
  "k_proj",
29
- "down_proj",
30
  "v_proj",
 
31
  "q_proj",
 
32
  "gate_proj"
33
  ],
34
  "task_type": "CAUSAL_LM",
 
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
 
 
26
  "k_proj",
27
+ "up_proj",
28
  "v_proj",
29
+ "o_proj",
30
  "q_proj",
31
+ "down_proj",
32
  "gate_proj"
33
  ],
34
  "task_type": "CAUSAL_LM",
checkpoint-600/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:23f04e624c4c5c247083bd3ba4af06ccfe040fc2fb1bed0ff5d5a5412e8a7e20
3
  size 45118424
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3e18eef8b7057b6fd894829b81e17fffa8f7119e5f8a5312b4ff4c71429d7851
3
  size 45118424
checkpoint-600/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:14e223592512b824cf502c016a6248c9fd105ccd4377e244f5c6ca47856d23fd
3
  size 23159546
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2d235470d2a6fb04063db2484730247ae8fa0497bf7eff433c19a7162e5d1c32
3
  size 23159546
checkpoint-600/trainer_state.json CHANGED
@@ -10,210 +10,210 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.021333333333333333,
13
- "grad_norm": 0.47001057863235474,
14
  "learning_rate": 0.00019678111587982831,
15
- "loss": 1.2773,
16
  "step": 20
17
  },
18
  {
19
  "epoch": 0.042666666666666665,
20
- "grad_norm": 0.3469043970108032,
21
  "learning_rate": 0.0001924892703862661,
22
  "loss": 0.8918,
23
  "step": 40
24
  },
25
  {
26
  "epoch": 0.064,
27
- "grad_norm": 0.4485608637332916,
28
  "learning_rate": 0.00018819742489270387,
29
  "loss": 0.8588,
30
  "step": 60
31
  },
32
  {
33
  "epoch": 0.08533333333333333,
34
- "grad_norm": 0.4924505054950714,
35
  "learning_rate": 0.00018390557939914164,
36
  "loss": 0.7577,
37
  "step": 80
38
  },
39
  {
40
  "epoch": 0.10666666666666667,
41
- "grad_norm": 0.3011874854564667,
42
  "learning_rate": 0.00017961373390557942,
43
  "loss": 0.7796,
44
  "step": 100
45
  },
46
  {
47
  "epoch": 0.128,
48
- "grad_norm": 0.35178664326667786,
49
  "learning_rate": 0.00017532188841201717,
50
  "loss": 0.7647,
51
  "step": 120
52
  },
53
  {
54
  "epoch": 0.14933333333333335,
55
- "grad_norm": 0.29895663261413574,
56
  "learning_rate": 0.00017103004291845494,
57
- "loss": 0.6741,
58
  "step": 140
59
  },
60
  {
61
  "epoch": 0.17066666666666666,
62
- "grad_norm": 0.265635222196579,
63
  "learning_rate": 0.00016673819742489272,
64
  "loss": 0.7586,
65
  "step": 160
66
  },
67
  {
68
  "epoch": 0.192,
69
- "grad_norm": 0.29633283615112305,
70
  "learning_rate": 0.0001624463519313305,
71
  "loss": 0.7364,
72
  "step": 180
73
  },
74
  {
75
  "epoch": 0.21333333333333335,
76
- "grad_norm": 0.3618737757205963,
77
  "learning_rate": 0.00015815450643776824,
78
  "loss": 0.7943,
79
  "step": 200
80
  },
81
  {
82
  "epoch": 0.23466666666666666,
83
- "grad_norm": 0.2392752766609192,
84
  "learning_rate": 0.000153862660944206,
85
- "loss": 0.7054,
86
  "step": 220
87
  },
88
  {
89
  "epoch": 0.256,
90
- "grad_norm": 0.3207932114601135,
91
  "learning_rate": 0.00014957081545064377,
92
  "loss": 0.7495,
93
  "step": 240
94
  },
95
  {
96
  "epoch": 0.2773333333333333,
97
- "grad_norm": 0.3499705493450165,
98
  "learning_rate": 0.00014527896995708155,
99
  "loss": 0.7739,
100
  "step": 260
101
  },
102
  {
103
  "epoch": 0.2986666666666667,
104
- "grad_norm": 0.27541521191596985,
105
  "learning_rate": 0.00014098712446351932,
106
  "loss": 0.7125,
107
  "step": 280
108
  },
109
  {
110
  "epoch": 0.32,
111
- "grad_norm": 0.27608659863471985,
112
  "learning_rate": 0.0001366952789699571,
113
- "loss": 0.7307,
114
  "step": 300
115
  },
116
  {
117
  "epoch": 0.3413333333333333,
118
- "grad_norm": 0.27710551023483276,
119
  "learning_rate": 0.00013240343347639485,
120
  "loss": 0.6974,
121
  "step": 320
122
  },
123
  {
124
  "epoch": 0.3626666666666667,
125
- "grad_norm": 0.334416002035141,
126
  "learning_rate": 0.00012811158798283262,
127
  "loss": 0.7555,
128
  "step": 340
129
  },
130
  {
131
  "epoch": 0.384,
132
- "grad_norm": 0.288921594619751,
133
  "learning_rate": 0.0001238197424892704,
134
- "loss": 0.7222,
135
  "step": 360
136
  },
137
  {
138
  "epoch": 0.4053333333333333,
139
- "grad_norm": 0.3428654074668884,
140
  "learning_rate": 0.00011952789699570816,
141
  "loss": 0.7466,
142
  "step": 380
143
  },
144
  {
145
  "epoch": 0.4266666666666667,
146
- "grad_norm": 0.42291027307510376,
147
  "learning_rate": 0.00011523605150214594,
148
  "loss": 0.6999,
149
  "step": 400
150
  },
151
  {
152
  "epoch": 0.448,
153
- "grad_norm": 0.32916492223739624,
154
  "learning_rate": 0.0001109442060085837,
155
  "loss": 0.7554,
156
  "step": 420
157
  },
158
  {
159
  "epoch": 0.4693333333333333,
160
- "grad_norm": 0.343192458152771,
161
  "learning_rate": 0.00010665236051502145,
162
  "loss": 0.7347,
163
  "step": 440
164
  },
165
  {
166
  "epoch": 0.49066666666666664,
167
- "grad_norm": 0.35772615671157837,
168
  "learning_rate": 0.00010236051502145923,
169
  "loss": 0.7075,
170
  "step": 460
171
  },
172
  {
173
  "epoch": 0.512,
174
- "grad_norm": 0.34257206320762634,
175
  "learning_rate": 9.8068669527897e-05,
176
- "loss": 0.7338,
177
  "step": 480
178
  },
179
  {
180
  "epoch": 0.5333333333333333,
181
- "grad_norm": 0.34853076934814453,
182
  "learning_rate": 9.377682403433476e-05,
183
  "loss": 0.7269,
184
  "step": 500
185
  },
186
  {
187
  "epoch": 0.5546666666666666,
188
- "grad_norm": 0.3989846706390381,
189
  "learning_rate": 8.948497854077254e-05,
190
  "loss": 0.7505,
191
  "step": 520
192
  },
193
  {
194
  "epoch": 0.576,
195
- "grad_norm": 0.3323940634727478,
196
  "learning_rate": 8.51931330472103e-05,
197
  "loss": 0.7085,
198
  "step": 540
199
  },
200
  {
201
  "epoch": 0.5973333333333334,
202
- "grad_norm": 0.31621086597442627,
203
  "learning_rate": 8.090128755364808e-05,
204
  "loss": 0.6989,
205
  "step": 560
206
  },
207
  {
208
  "epoch": 0.6186666666666667,
209
- "grad_norm": 0.2995954155921936,
210
  "learning_rate": 7.660944206008584e-05,
211
  "loss": 0.7368,
212
  "step": 580
213
  },
214
  {
215
  "epoch": 0.64,
216
- "grad_norm": 0.325448215007782,
217
  "learning_rate": 7.23175965665236e-05,
218
  "loss": 0.7167,
219
  "step": 600
 
10
  "log_history": [
11
  {
12
  "epoch": 0.021333333333333333,
13
+ "grad_norm": 0.4694526791572571,
14
  "learning_rate": 0.00019678111587982831,
15
+ "loss": 1.2772,
16
  "step": 20
17
  },
18
  {
19
  "epoch": 0.042666666666666665,
20
+ "grad_norm": 0.34691280126571655,
21
  "learning_rate": 0.0001924892703862661,
22
  "loss": 0.8918,
23
  "step": 40
24
  },
25
  {
26
  "epoch": 0.064,
27
+ "grad_norm": 0.44894590973854065,
28
  "learning_rate": 0.00018819742489270387,
29
  "loss": 0.8588,
30
  "step": 60
31
  },
32
  {
33
  "epoch": 0.08533333333333333,
34
+ "grad_norm": 0.4901750981807709,
35
  "learning_rate": 0.00018390557939914164,
36
  "loss": 0.7577,
37
  "step": 80
38
  },
39
  {
40
  "epoch": 0.10666666666666667,
41
+ "grad_norm": 0.3013491630554199,
42
  "learning_rate": 0.00017961373390557942,
43
  "loss": 0.7796,
44
  "step": 100
45
  },
46
  {
47
  "epoch": 0.128,
48
+ "grad_norm": 0.35143589973449707,
49
  "learning_rate": 0.00017532188841201717,
50
  "loss": 0.7647,
51
  "step": 120
52
  },
53
  {
54
  "epoch": 0.14933333333333335,
55
+ "grad_norm": 0.29885634779930115,
56
  "learning_rate": 0.00017103004291845494,
57
+ "loss": 0.674,
58
  "step": 140
59
  },
60
  {
61
  "epoch": 0.17066666666666666,
62
+ "grad_norm": 0.26554301381111145,
63
  "learning_rate": 0.00016673819742489272,
64
  "loss": 0.7586,
65
  "step": 160
66
  },
67
  {
68
  "epoch": 0.192,
69
+ "grad_norm": 0.2963835895061493,
70
  "learning_rate": 0.0001624463519313305,
71
  "loss": 0.7364,
72
  "step": 180
73
  },
74
  {
75
  "epoch": 0.21333333333333335,
76
+ "grad_norm": 0.36166927218437195,
77
  "learning_rate": 0.00015815450643776824,
78
  "loss": 0.7943,
79
  "step": 200
80
  },
81
  {
82
  "epoch": 0.23466666666666666,
83
+ "grad_norm": 0.23920877277851105,
84
  "learning_rate": 0.000153862660944206,
85
+ "loss": 0.7055,
86
  "step": 220
87
  },
88
  {
89
  "epoch": 0.256,
90
+ "grad_norm": 0.32076919078826904,
91
  "learning_rate": 0.00014957081545064377,
92
  "loss": 0.7495,
93
  "step": 240
94
  },
95
  {
96
  "epoch": 0.2773333333333333,
97
+ "grad_norm": 0.34986230731010437,
98
  "learning_rate": 0.00014527896995708155,
99
  "loss": 0.7739,
100
  "step": 260
101
  },
102
  {
103
  "epoch": 0.2986666666666667,
104
+ "grad_norm": 0.27509021759033203,
105
  "learning_rate": 0.00014098712446351932,
106
  "loss": 0.7125,
107
  "step": 280
108
  },
109
  {
110
  "epoch": 0.32,
111
+ "grad_norm": 0.2761971652507782,
112
  "learning_rate": 0.0001366952789699571,
113
+ "loss": 0.7306,
114
  "step": 300
115
  },
116
  {
117
  "epoch": 0.3413333333333333,
118
+ "grad_norm": 0.27699899673461914,
119
  "learning_rate": 0.00013240343347639485,
120
  "loss": 0.6974,
121
  "step": 320
122
  },
123
  {
124
  "epoch": 0.3626666666666667,
125
+ "grad_norm": 0.33432355523109436,
126
  "learning_rate": 0.00012811158798283262,
127
  "loss": 0.7555,
128
  "step": 340
129
  },
130
  {
131
  "epoch": 0.384,
132
+ "grad_norm": 0.2890004515647888,
133
  "learning_rate": 0.0001238197424892704,
134
+ "loss": 0.7221,
135
  "step": 360
136
  },
137
  {
138
  "epoch": 0.4053333333333333,
139
+ "grad_norm": 0.3435133397579193,
140
  "learning_rate": 0.00011952789699570816,
141
  "loss": 0.7466,
142
  "step": 380
143
  },
144
  {
145
  "epoch": 0.4266666666666667,
146
+ "grad_norm": 0.42325925827026367,
147
  "learning_rate": 0.00011523605150214594,
148
  "loss": 0.6999,
149
  "step": 400
150
  },
151
  {
152
  "epoch": 0.448,
153
+ "grad_norm": 0.3292069733142853,
154
  "learning_rate": 0.0001109442060085837,
155
  "loss": 0.7554,
156
  "step": 420
157
  },
158
  {
159
  "epoch": 0.4693333333333333,
160
+ "grad_norm": 0.3431546092033386,
161
  "learning_rate": 0.00010665236051502145,
162
  "loss": 0.7347,
163
  "step": 440
164
  },
165
  {
166
  "epoch": 0.49066666666666664,
167
+ "grad_norm": 0.35773923993110657,
168
  "learning_rate": 0.00010236051502145923,
169
  "loss": 0.7075,
170
  "step": 460
171
  },
172
  {
173
  "epoch": 0.512,
174
+ "grad_norm": 0.34283700585365295,
175
  "learning_rate": 9.8068669527897e-05,
176
+ "loss": 0.7339,
177
  "step": 480
178
  },
179
  {
180
  "epoch": 0.5333333333333333,
181
+ "grad_norm": 0.3486020267009735,
182
  "learning_rate": 9.377682403433476e-05,
183
  "loss": 0.7269,
184
  "step": 500
185
  },
186
  {
187
  "epoch": 0.5546666666666666,
188
+ "grad_norm": 0.3991217315196991,
189
  "learning_rate": 8.948497854077254e-05,
190
  "loss": 0.7505,
191
  "step": 520
192
  },
193
  {
194
  "epoch": 0.576,
195
+ "grad_norm": 0.33239027857780457,
196
  "learning_rate": 8.51931330472103e-05,
197
  "loss": 0.7085,
198
  "step": 540
199
  },
200
  {
201
  "epoch": 0.5973333333333334,
202
+ "grad_norm": 0.31634777784347534,
203
  "learning_rate": 8.090128755364808e-05,
204
  "loss": 0.6989,
205
  "step": 560
206
  },
207
  {
208
  "epoch": 0.6186666666666667,
209
+ "grad_norm": 0.29959481954574585,
210
  "learning_rate": 7.660944206008584e-05,
211
  "loss": 0.7368,
212
  "step": 580
213
  },
214
  {
215
  "epoch": 0.64,
216
+ "grad_norm": 0.32558491826057434,
217
  "learning_rate": 7.23175965665236e-05,
218
  "loss": 0.7167,
219
  "step": 600
checkpoint-600/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4651d06185709dd3d181207d567d0b3ed653efb01f01015cb44b8df4eebee657
3
  size 5560
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:69617c1bea4a27e99b6c6729498e45489dcd01641dbfbfbf0cc0b118ad579975
3
  size 5560