Training in progress, epoch 1

Browse files

Files changed (5) hide show

model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
trainer_log.jsonl +68 -0

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6e4c25012ed9f1968a09704d4d23860fb848f7cee8fff497daa7e50547535c2
 size 4903351912

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f1dbff88bb3743d19c85c2f23d049029a6151bcd0fd09ab5ca910ed1e6fa592
 size 4903351912

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7d62dfec9c45d77ea4b91bd01250687dbc51d42ec53b0b7aeeda67f22340fce
 size 4947570872

 version https://git-lfs.github.com/spec/v1
+oid sha256:8648aacc784306883fecdb7544dd664ad4b8cd21a2bb0a2e918b534c63b80c62
 size 4947570872

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e9d306b5342ec8bf4053df29b18f339f824eb0ff0cb5c7229f72254fb1df638
 size 4962221464

 version https://git-lfs.github.com/spec/v1
+oid sha256:60b46b6af37b7e3c8673b12068a67d2ee569ba8c2217c944339d6838cb453a49
 size 4962221464

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f2042b31225259fb20fc31c7b53f49666070b21b7b4e60869519d97d665fcb8
 size 3670322200

 version https://git-lfs.github.com/spec/v1
+oid sha256:d586bedc31558768e7217e88c6c50390e1eca899489731570dda6772f1f51d27
 size 3670322200

trainer_log.jsonl CHANGED Viewed

@@ -66,3 +66,71 @@
 {"current_steps": 660, "total_steps": 2004, "loss": 0.616, "learning_rate": 5e-06, "epoch": 0.9878391019644528, "percentage": 32.93, "elapsed_time": "8:08:45", "remaining_time": "16:35:17"}
 {"current_steps": 668, "total_steps": 2004, "eval_loss": 0.6200858950614929, "epoch": 0.9998129092609915, "percentage": 33.33, "elapsed_time": "8:23:22", "remaining_time": "16:46:44"}
 {"current_steps": 670, "total_steps": 2004, "loss": 0.6487, "learning_rate": 5e-06, "epoch": 1.0028063610851263, "percentage": 33.43, "elapsed_time": "8:26:02", "remaining_time": "16:47:33"}

 {"current_steps": 660, "total_steps": 2004, "loss": 0.616, "learning_rate": 5e-06, "epoch": 0.9878391019644528, "percentage": 32.93, "elapsed_time": "8:08:45", "remaining_time": "16:35:17"}
 {"current_steps": 668, "total_steps": 2004, "eval_loss": 0.6200858950614929, "epoch": 0.9998129092609915, "percentage": 33.33, "elapsed_time": "8:23:22", "remaining_time": "16:46:44"}
 {"current_steps": 670, "total_steps": 2004, "loss": 0.6487, "learning_rate": 5e-06, "epoch": 1.0028063610851263, "percentage": 33.43, "elapsed_time": "8:26:02", "remaining_time": "16:47:33"}
+{"current_steps": 680, "total_steps": 2004, "loss": 0.545, "learning_rate": 5e-06, "epoch": 1.0177736202057999, "percentage": 33.93, "elapsed_time": "8:33:26", "remaining_time": "16:39:42"}
+{"current_steps": 690, "total_steps": 2004, "loss": 0.5337, "learning_rate": 5e-06, "epoch": 1.0327408793264734, "percentage": 34.43, "elapsed_time": "8:40:51", "remaining_time": "16:31:53"}
+{"current_steps": 700, "total_steps": 2004, "loss": 0.5325, "learning_rate": 5e-06, "epoch": 1.047708138447147, "percentage": 34.93, "elapsed_time": "8:48:15", "remaining_time": "16:24:03"}
+{"current_steps": 710, "total_steps": 2004, "loss": 0.5318, "learning_rate": 5e-06, "epoch": 1.0626753975678205, "percentage": 35.43, "elapsed_time": "8:55:39", "remaining_time": "16:16:15"}
+{"current_steps": 720, "total_steps": 2004, "loss": 0.5295, "learning_rate": 5e-06, "epoch": 1.077642656688494, "percentage": 35.93, "elapsed_time": "9:03:03", "remaining_time": "16:08:28"}
+{"current_steps": 730, "total_steps": 2004, "loss": 0.5317, "learning_rate": 5e-06, "epoch": 1.0926099158091676, "percentage": 36.43, "elapsed_time": "9:10:28", "remaining_time": "16:00:40"}
+{"current_steps": 740, "total_steps": 2004, "loss": 0.5315, "learning_rate": 5e-06, "epoch": 1.1075771749298409, "percentage": 36.93, "elapsed_time": "9:17:52", "remaining_time": "15:52:54"}
+{"current_steps": 750, "total_steps": 2004, "loss": 0.533, "learning_rate": 5e-06, "epoch": 1.1225444340505144, "percentage": 37.43, "elapsed_time": "9:25:16", "remaining_time": "15:45:08"}
+{"current_steps": 760, "total_steps": 2004, "loss": 0.5316, "learning_rate": 5e-06, "epoch": 1.137511693171188, "percentage": 37.92, "elapsed_time": "9:32:40", "remaining_time": "15:37:22"}
+{"current_steps": 770, "total_steps": 2004, "loss": 0.5359, "learning_rate": 5e-06, "epoch": 1.1524789522918615, "percentage": 38.42, "elapsed_time": "9:40:04", "remaining_time": "15:29:37"}
+{"current_steps": 780, "total_steps": 2004, "loss": 0.5335, "learning_rate": 5e-06, "epoch": 1.167446211412535, "percentage": 38.92, "elapsed_time": "9:47:29", "remaining_time": "15:21:54"}
+{"current_steps": 790, "total_steps": 2004, "loss": 0.5353, "learning_rate": 5e-06, "epoch": 1.1824134705332086, "percentage": 39.42, "elapsed_time": "9:54:53", "remaining_time": "15:14:10"}
+{"current_steps": 800, "total_steps": 2004, "loss": 0.534, "learning_rate": 5e-06, "epoch": 1.197380729653882, "percentage": 39.92, "elapsed_time": "10:02:17", "remaining_time": "15:06:27"}
+{"current_steps": 810, "total_steps": 2004, "loss": 0.5342, "learning_rate": 5e-06, "epoch": 1.2123479887745556, "percentage": 40.42, "elapsed_time": "10:09:41", "remaining_time": "14:58:44"}
+{"current_steps": 820, "total_steps": 2004, "loss": 0.5406, "learning_rate": 5e-06, "epoch": 1.2273152478952292, "percentage": 40.92, "elapsed_time": "10:17:06", "remaining_time": "14:51:02"}
+{"current_steps": 830, "total_steps": 2004, "loss": 0.5402, "learning_rate": 5e-06, "epoch": 1.2422825070159027, "percentage": 41.42, "elapsed_time": "10:24:30", "remaining_time": "14:43:20"}
+{"current_steps": 840, "total_steps": 2004, "loss": 0.5421, "learning_rate": 5e-06, "epoch": 1.2572497661365762, "percentage": 41.92, "elapsed_time": "10:31:54", "remaining_time": "14:35:38"}
+{"current_steps": 850, "total_steps": 2004, "loss": 0.5341, "learning_rate": 5e-06, "epoch": 1.2722170252572498, "percentage": 42.42, "elapsed_time": "10:39:18", "remaining_time": "14:27:57"}
+{"current_steps": 860, "total_steps": 2004, "loss": 0.5396, "learning_rate": 5e-06, "epoch": 1.2871842843779233, "percentage": 42.91, "elapsed_time": "10:46:42", "remaining_time": "14:20:16"}
+{"current_steps": 870, "total_steps": 2004, "loss": 0.5401, "learning_rate": 5e-06, "epoch": 1.3021515434985969, "percentage": 43.41, "elapsed_time": "10:54:06", "remaining_time": "14:12:36"}
+{"current_steps": 880, "total_steps": 2004, "loss": 0.5379, "learning_rate": 5e-06, "epoch": 1.3171188026192704, "percentage": 43.91, "elapsed_time": "11:01:31", "remaining_time": "14:04:56"}
+{"current_steps": 890, "total_steps": 2004, "loss": 0.5338, "learning_rate": 5e-06, "epoch": 1.332086061739944, "percentage": 44.41, "elapsed_time": "11:08:55", "remaining_time": "13:57:16"}
+{"current_steps": 900, "total_steps": 2004, "loss": 0.5341, "learning_rate": 5e-06, "epoch": 1.3470533208606175, "percentage": 44.91, "elapsed_time": "11:16:19", "remaining_time": "13:49:37"}
+{"current_steps": 910, "total_steps": 2004, "loss": 0.5465, "learning_rate": 5e-06, "epoch": 1.362020579981291, "percentage": 45.41, "elapsed_time": "11:23:43", "remaining_time": "13:41:58"}
+{"current_steps": 920, "total_steps": 2004, "loss": 0.5419, "learning_rate": 5e-06, "epoch": 1.3769878391019645, "percentage": 45.91, "elapsed_time": "11:31:07", "remaining_time": "13:34:19"}
+{"current_steps": 930, "total_steps": 2004, "loss": 0.5431, "learning_rate": 5e-06, "epoch": 1.3919550982226379, "percentage": 46.41, "elapsed_time": "11:38:31", "remaining_time": "13:26:41"}
+{"current_steps": 940, "total_steps": 2004, "loss": 0.5432, "learning_rate": 5e-06, "epoch": 1.4069223573433116, "percentage": 46.91, "elapsed_time": "11:45:56", "remaining_time": "13:19:03"}
+{"current_steps": 950, "total_steps": 2004, "loss": 0.5419, "learning_rate": 5e-06, "epoch": 1.421889616463985, "percentage": 47.41, "elapsed_time": "11:53:20", "remaining_time": "13:11:26"}
+{"current_steps": 960, "total_steps": 2004, "loss": 0.5491, "learning_rate": 5e-06, "epoch": 1.4368568755846587, "percentage": 47.9, "elapsed_time": "12:00:44", "remaining_time": "13:03:48"}
+{"current_steps": 970, "total_steps": 2004, "loss": 0.5508, "learning_rate": 5e-06, "epoch": 1.451824134705332, "percentage": 48.4, "elapsed_time": "12:08:09", "remaining_time": "12:56:11"}
+{"current_steps": 980, "total_steps": 2004, "loss": 0.5394, "learning_rate": 5e-06, "epoch": 1.4667913938260055, "percentage": 48.9, "elapsed_time": "12:15:33", "remaining_time": "12:48:35"}
+{"current_steps": 990, "total_steps": 2004, "loss": 0.5439, "learning_rate": 5e-06, "epoch": 1.481758652946679, "percentage": 49.4, "elapsed_time": "12:22:57", "remaining_time": "12:40:58"}
+{"current_steps": 1000, "total_steps": 2004, "loss": 0.5382, "learning_rate": 5e-06, "epoch": 1.4967259120673526, "percentage": 49.9, "elapsed_time": "12:30:22", "remaining_time": "12:33:22"}
+{"current_steps": 1010, "total_steps": 2004, "loss": 0.5421, "learning_rate": 5e-06, "epoch": 1.5116931711880262, "percentage": 50.4, "elapsed_time": "12:37:46", "remaining_time": "12:25:46"}
+{"current_steps": 1020, "total_steps": 2004, "loss": 0.5465, "learning_rate": 5e-06, "epoch": 1.5266604303086997, "percentage": 50.9, "elapsed_time": "12:45:10", "remaining_time": "12:18:10"}
+{"current_steps": 1030, "total_steps": 2004, "loss": 0.5403, "learning_rate": 5e-06, "epoch": 1.5416276894293732, "percentage": 51.4, "elapsed_time": "12:52:35", "remaining_time": "12:10:34"}
+{"current_steps": 1040, "total_steps": 2004, "loss": 0.5451, "learning_rate": 5e-06, "epoch": 1.5565949485500468, "percentage": 51.9, "elapsed_time": "12:59:59", "remaining_time": "12:02:59"}
+{"current_steps": 1050, "total_steps": 2004, "loss": 0.5405, "learning_rate": 5e-06, "epoch": 1.5715622076707203, "percentage": 52.4, "elapsed_time": "13:07:23", "remaining_time": "11:55:24"}
+{"current_steps": 1060, "total_steps": 2004, "loss": 0.5462, "learning_rate": 5e-06, "epoch": 1.5865294667913938, "percentage": 52.89, "elapsed_time": "13:14:48", "remaining_time": "11:47:49"}
+{"current_steps": 1070, "total_steps": 2004, "loss": 0.5455, "learning_rate": 5e-06, "epoch": 1.6014967259120674, "percentage": 53.39, "elapsed_time": "13:22:12", "remaining_time": "11:40:14"}
+{"current_steps": 1080, "total_steps": 2004, "loss": 0.5487, "learning_rate": 5e-06, "epoch": 1.616463985032741, "percentage": 53.89, "elapsed_time": "13:29:36", "remaining_time": "11:32:39"}
+{"current_steps": 1090, "total_steps": 2004, "loss": 0.5449, "learning_rate": 5e-06, "epoch": 1.6314312441534145, "percentage": 54.39, "elapsed_time": "13:37:00", "remaining_time": "11:25:05"}
+{"current_steps": 1100, "total_steps": 2004, "loss": 0.5485, "learning_rate": 5e-06, "epoch": 1.646398503274088, "percentage": 54.89, "elapsed_time": "13:44:24", "remaining_time": "11:17:30"}
+{"current_steps": 1110, "total_steps": 2004, "loss": 0.5378, "learning_rate": 5e-06, "epoch": 1.6613657623947615, "percentage": 55.39, "elapsed_time": "13:51:48", "remaining_time": "11:09:56"}
+{"current_steps": 1120, "total_steps": 2004, "loss": 0.5366, "learning_rate": 5e-06, "epoch": 1.6763330215154348, "percentage": 55.89, "elapsed_time": "13:59:12", "remaining_time": "11:02:22"}
+{"current_steps": 1130, "total_steps": 2004, "loss": 0.5378, "learning_rate": 5e-06, "epoch": 1.6913002806361086, "percentage": 56.39, "elapsed_time": "14:06:36", "remaining_time": "10:54:48"}
+{"current_steps": 1140, "total_steps": 2004, "loss": 0.5406, "learning_rate": 5e-06, "epoch": 1.706267539756782, "percentage": 56.89, "elapsed_time": "14:14:01", "remaining_time": "10:47:15"}
+{"current_steps": 1150, "total_steps": 2004, "loss": 0.5381, "learning_rate": 5e-06, "epoch": 1.7212347988774557, "percentage": 57.39, "elapsed_time": "14:21:25", "remaining_time": "10:39:42"}
+{"current_steps": 1160, "total_steps": 2004, "loss": 0.5418, "learning_rate": 5e-06, "epoch": 1.736202057998129, "percentage": 57.88, "elapsed_time": "14:28:49", "remaining_time": "10:32:09"}
+{"current_steps": 1170, "total_steps": 2004, "loss": 0.5403, "learning_rate": 5e-06, "epoch": 1.7511693171188027, "percentage": 58.38, "elapsed_time": "14:36:14", "remaining_time": "10:24:36"}
+{"current_steps": 1180, "total_steps": 2004, "loss": 0.5469, "learning_rate": 5e-06, "epoch": 1.766136576239476, "percentage": 58.88, "elapsed_time": "14:43:38", "remaining_time": "10:17:03"}
+{"current_steps": 1190, "total_steps": 2004, "loss": 0.5467, "learning_rate": 5e-06, "epoch": 1.7811038353601498, "percentage": 59.38, "elapsed_time": "14:51:02", "remaining_time": "10:09:30"}
+{"current_steps": 1200, "total_steps": 2004, "loss": 0.5421, "learning_rate": 5e-06, "epoch": 1.7960710944808231, "percentage": 59.88, "elapsed_time": "14:58:26", "remaining_time": "10:01:57"}
+{"current_steps": 1210, "total_steps": 2004, "loss": 0.5488, "learning_rate": 5e-06, "epoch": 1.8110383536014967, "percentage": 60.38, "elapsed_time": "15:05:50", "remaining_time": "9:54:24"}
+{"current_steps": 1220, "total_steps": 2004, "loss": 0.5363, "learning_rate": 5e-06, "epoch": 1.8260056127221702, "percentage": 60.88, "elapsed_time": "15:13:14", "remaining_time": "9:46:52"}
+{"current_steps": 1230, "total_steps": 2004, "loss": 0.54, "learning_rate": 5e-06, "epoch": 1.8409728718428437, "percentage": 61.38, "elapsed_time": "15:20:39", "remaining_time": "9:39:20"}
+{"current_steps": 1240, "total_steps": 2004, "loss": 0.5417, "learning_rate": 5e-06, "epoch": 1.8559401309635173, "percentage": 61.88, "elapsed_time": "15:28:03", "remaining_time": "9:31:48"}
+{"current_steps": 1250, "total_steps": 2004, "loss": 0.5469, "learning_rate": 5e-06, "epoch": 1.8709073900841908, "percentage": 62.38, "elapsed_time": "15:35:27", "remaining_time": "9:24:16"}
+{"current_steps": 1260, "total_steps": 2004, "loss": 0.5376, "learning_rate": 5e-06, "epoch": 1.8858746492048644, "percentage": 62.87, "elapsed_time": "15:42:51", "remaining_time": "9:16:44"}
+{"current_steps": 1270, "total_steps": 2004, "loss": 0.5439, "learning_rate": 5e-06, "epoch": 1.900841908325538, "percentage": 63.37, "elapsed_time": "15:50:16", "remaining_time": "9:09:12"}
+{"current_steps": 1280, "total_steps": 2004, "loss": 0.5444, "learning_rate": 5e-06, "epoch": 1.9158091674462114, "percentage": 63.87, "elapsed_time": "15:57:40", "remaining_time": "9:01:41"}
+{"current_steps": 1290, "total_steps": 2004, "loss": 0.5419, "learning_rate": 5e-06, "epoch": 1.930776426566885, "percentage": 64.37, "elapsed_time": "16:05:05", "remaining_time": "8:54:09"}
+{"current_steps": 1300, "total_steps": 2004, "loss": 0.5433, "learning_rate": 5e-06, "epoch": 1.9457436856875585, "percentage": 64.87, "elapsed_time": "16:12:29", "remaining_time": "8:46:38"}
+{"current_steps": 1310, "total_steps": 2004, "loss": 0.5503, "learning_rate": 5e-06, "epoch": 1.960710944808232, "percentage": 65.37, "elapsed_time": "16:19:53", "remaining_time": "8:39:07"}
+{"current_steps": 1320, "total_steps": 2004, "loss": 0.5438, "learning_rate": 5e-06, "epoch": 1.9756782039289056, "percentage": 65.87, "elapsed_time": "16:27:17", "remaining_time": "8:31:35"}
+{"current_steps": 1330, "total_steps": 2004, "loss": 0.5488, "learning_rate": 5e-06, "epoch": 1.990645463049579, "percentage": 66.37, "elapsed_time": "16:34:42", "remaining_time": "8:24:04"}
+{"current_steps": 1336, "total_steps": 2004, "eval_loss": 0.6217324733734131, "epoch": 1.999625818521983, "percentage": 66.67, "elapsed_time": "16:47:54", "remaining_time": "8:23:57"}
+{"current_steps": 1340, "total_steps": 2004, "loss": 0.5617, "learning_rate": 5e-06, "epoch": 2.0056127221702527, "percentage": 66.87, "elapsed_time": "16:52:06", "remaining_time": "8:21:31"}