bharati2324 commited on
Commit
a2a76c1
·
verified ·
1 Parent(s): eb830b6

Training in progress, step 400, checkpoint

Browse files
checkpoint-400/adapter_config.json CHANGED
@@ -23,12 +23,12 @@
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
26
- "o_proj",
27
- "up_proj",
28
  "k_proj",
29
- "down_proj",
30
  "v_proj",
 
31
  "q_proj",
 
32
  "gate_proj"
33
  ],
34
  "task_type": "CAUSAL_LM",
 
23
  "rank_pattern": {},
24
  "revision": null,
25
  "target_modules": [
 
 
26
  "k_proj",
27
+ "up_proj",
28
  "v_proj",
29
+ "o_proj",
30
  "q_proj",
31
+ "down_proj",
32
  "gate_proj"
33
  ],
34
  "task_type": "CAUSAL_LM",
checkpoint-400/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c9ad57c2d9c520a1ca889d61873609d9fa94e59e1fb7a1320d7c59b0dc1125e9
3
  size 45118424
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d4b89471d426195ef6b5e002d67fdd2c438e95cc7750b8a3181e95781dd29de6
3
  size 45118424
checkpoint-400/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f3c17b08ad4d0b430f3228a21ceb18bad7954f0f983e5f13340523b91d13d295
3
  size 23159546
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ef04aedfe7c98347d43fa29f4e7b39b2a687ae7ce2e366a0ce4dceaffa6dda58
3
  size 23159546
checkpoint-400/trainer_state.json CHANGED
@@ -10,140 +10,140 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.021333333333333333,
13
- "grad_norm": 0.47001057863235474,
14
  "learning_rate": 0.00019678111587982831,
15
- "loss": 1.2773,
16
  "step": 20
17
  },
18
  {
19
  "epoch": 0.042666666666666665,
20
- "grad_norm": 0.3469043970108032,
21
  "learning_rate": 0.0001924892703862661,
22
  "loss": 0.8918,
23
  "step": 40
24
  },
25
  {
26
  "epoch": 0.064,
27
- "grad_norm": 0.4485608637332916,
28
  "learning_rate": 0.00018819742489270387,
29
  "loss": 0.8588,
30
  "step": 60
31
  },
32
  {
33
  "epoch": 0.08533333333333333,
34
- "grad_norm": 0.4924505054950714,
35
  "learning_rate": 0.00018390557939914164,
36
  "loss": 0.7577,
37
  "step": 80
38
  },
39
  {
40
  "epoch": 0.10666666666666667,
41
- "grad_norm": 0.3011874854564667,
42
  "learning_rate": 0.00017961373390557942,
43
  "loss": 0.7796,
44
  "step": 100
45
  },
46
  {
47
  "epoch": 0.128,
48
- "grad_norm": 0.35178664326667786,
49
  "learning_rate": 0.00017532188841201717,
50
  "loss": 0.7647,
51
  "step": 120
52
  },
53
  {
54
  "epoch": 0.14933333333333335,
55
- "grad_norm": 0.29895663261413574,
56
  "learning_rate": 0.00017103004291845494,
57
- "loss": 0.6741,
58
  "step": 140
59
  },
60
  {
61
  "epoch": 0.17066666666666666,
62
- "grad_norm": 0.265635222196579,
63
  "learning_rate": 0.00016673819742489272,
64
  "loss": 0.7586,
65
  "step": 160
66
  },
67
  {
68
  "epoch": 0.192,
69
- "grad_norm": 0.29633283615112305,
70
  "learning_rate": 0.0001624463519313305,
71
  "loss": 0.7364,
72
  "step": 180
73
  },
74
  {
75
  "epoch": 0.21333333333333335,
76
- "grad_norm": 0.3618737757205963,
77
  "learning_rate": 0.00015815450643776824,
78
  "loss": 0.7943,
79
  "step": 200
80
  },
81
  {
82
  "epoch": 0.23466666666666666,
83
- "grad_norm": 0.2392752766609192,
84
  "learning_rate": 0.000153862660944206,
85
- "loss": 0.7054,
86
  "step": 220
87
  },
88
  {
89
  "epoch": 0.256,
90
- "grad_norm": 0.3207932114601135,
91
  "learning_rate": 0.00014957081545064377,
92
  "loss": 0.7495,
93
  "step": 240
94
  },
95
  {
96
  "epoch": 0.2773333333333333,
97
- "grad_norm": 0.3499705493450165,
98
  "learning_rate": 0.00014527896995708155,
99
  "loss": 0.7739,
100
  "step": 260
101
  },
102
  {
103
  "epoch": 0.2986666666666667,
104
- "grad_norm": 0.27541521191596985,
105
  "learning_rate": 0.00014098712446351932,
106
  "loss": 0.7125,
107
  "step": 280
108
  },
109
  {
110
  "epoch": 0.32,
111
- "grad_norm": 0.27608659863471985,
112
  "learning_rate": 0.0001366952789699571,
113
- "loss": 0.7307,
114
  "step": 300
115
  },
116
  {
117
  "epoch": 0.3413333333333333,
118
- "grad_norm": 0.27710551023483276,
119
  "learning_rate": 0.00013240343347639485,
120
  "loss": 0.6974,
121
  "step": 320
122
  },
123
  {
124
  "epoch": 0.3626666666666667,
125
- "grad_norm": 0.334416002035141,
126
  "learning_rate": 0.00012811158798283262,
127
  "loss": 0.7555,
128
  "step": 340
129
  },
130
  {
131
  "epoch": 0.384,
132
- "grad_norm": 0.288921594619751,
133
  "learning_rate": 0.0001238197424892704,
134
- "loss": 0.7222,
135
  "step": 360
136
  },
137
  {
138
  "epoch": 0.4053333333333333,
139
- "grad_norm": 0.3428654074668884,
140
  "learning_rate": 0.00011952789699570816,
141
  "loss": 0.7466,
142
  "step": 380
143
  },
144
  {
145
  "epoch": 0.4266666666666667,
146
- "grad_norm": 0.42291027307510376,
147
  "learning_rate": 0.00011523605150214594,
148
  "loss": 0.6999,
149
  "step": 400
 
10
  "log_history": [
11
  {
12
  "epoch": 0.021333333333333333,
13
+ "grad_norm": 0.4694526791572571,
14
  "learning_rate": 0.00019678111587982831,
15
+ "loss": 1.2772,
16
  "step": 20
17
  },
18
  {
19
  "epoch": 0.042666666666666665,
20
+ "grad_norm": 0.34691280126571655,
21
  "learning_rate": 0.0001924892703862661,
22
  "loss": 0.8918,
23
  "step": 40
24
  },
25
  {
26
  "epoch": 0.064,
27
+ "grad_norm": 0.44894590973854065,
28
  "learning_rate": 0.00018819742489270387,
29
  "loss": 0.8588,
30
  "step": 60
31
  },
32
  {
33
  "epoch": 0.08533333333333333,
34
+ "grad_norm": 0.4901750981807709,
35
  "learning_rate": 0.00018390557939914164,
36
  "loss": 0.7577,
37
  "step": 80
38
  },
39
  {
40
  "epoch": 0.10666666666666667,
41
+ "grad_norm": 0.3013491630554199,
42
  "learning_rate": 0.00017961373390557942,
43
  "loss": 0.7796,
44
  "step": 100
45
  },
46
  {
47
  "epoch": 0.128,
48
+ "grad_norm": 0.35143589973449707,
49
  "learning_rate": 0.00017532188841201717,
50
  "loss": 0.7647,
51
  "step": 120
52
  },
53
  {
54
  "epoch": 0.14933333333333335,
55
+ "grad_norm": 0.29885634779930115,
56
  "learning_rate": 0.00017103004291845494,
57
+ "loss": 0.674,
58
  "step": 140
59
  },
60
  {
61
  "epoch": 0.17066666666666666,
62
+ "grad_norm": 0.26554301381111145,
63
  "learning_rate": 0.00016673819742489272,
64
  "loss": 0.7586,
65
  "step": 160
66
  },
67
  {
68
  "epoch": 0.192,
69
+ "grad_norm": 0.2963835895061493,
70
  "learning_rate": 0.0001624463519313305,
71
  "loss": 0.7364,
72
  "step": 180
73
  },
74
  {
75
  "epoch": 0.21333333333333335,
76
+ "grad_norm": 0.36166927218437195,
77
  "learning_rate": 0.00015815450643776824,
78
  "loss": 0.7943,
79
  "step": 200
80
  },
81
  {
82
  "epoch": 0.23466666666666666,
83
+ "grad_norm": 0.23920877277851105,
84
  "learning_rate": 0.000153862660944206,
85
+ "loss": 0.7055,
86
  "step": 220
87
  },
88
  {
89
  "epoch": 0.256,
90
+ "grad_norm": 0.32076919078826904,
91
  "learning_rate": 0.00014957081545064377,
92
  "loss": 0.7495,
93
  "step": 240
94
  },
95
  {
96
  "epoch": 0.2773333333333333,
97
+ "grad_norm": 0.34986230731010437,
98
  "learning_rate": 0.00014527896995708155,
99
  "loss": 0.7739,
100
  "step": 260
101
  },
102
  {
103
  "epoch": 0.2986666666666667,
104
+ "grad_norm": 0.27509021759033203,
105
  "learning_rate": 0.00014098712446351932,
106
  "loss": 0.7125,
107
  "step": 280
108
  },
109
  {
110
  "epoch": 0.32,
111
+ "grad_norm": 0.2761971652507782,
112
  "learning_rate": 0.0001366952789699571,
113
+ "loss": 0.7306,
114
  "step": 300
115
  },
116
  {
117
  "epoch": 0.3413333333333333,
118
+ "grad_norm": 0.27699899673461914,
119
  "learning_rate": 0.00013240343347639485,
120
  "loss": 0.6974,
121
  "step": 320
122
  },
123
  {
124
  "epoch": 0.3626666666666667,
125
+ "grad_norm": 0.33432355523109436,
126
  "learning_rate": 0.00012811158798283262,
127
  "loss": 0.7555,
128
  "step": 340
129
  },
130
  {
131
  "epoch": 0.384,
132
+ "grad_norm": 0.2890004515647888,
133
  "learning_rate": 0.0001238197424892704,
134
+ "loss": 0.7221,
135
  "step": 360
136
  },
137
  {
138
  "epoch": 0.4053333333333333,
139
+ "grad_norm": 0.3435133397579193,
140
  "learning_rate": 0.00011952789699570816,
141
  "loss": 0.7466,
142
  "step": 380
143
  },
144
  {
145
  "epoch": 0.4266666666666667,
146
+ "grad_norm": 0.42325925827026367,
147
  "learning_rate": 0.00011523605150214594,
148
  "loss": 0.6999,
149
  "step": 400
checkpoint-400/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4651d06185709dd3d181207d567d0b3ed653efb01f01015cb44b8df4eebee657
3
  size 5560
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:69617c1bea4a27e99b6c6729498e45489dcd01641dbfbfbf0cc0b118ad579975
3
  size 5560