Model save

Files changed (4) hide show

README.md CHANGED Viewed

@@ -33,13 +33,13 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 8
 - eval_batch_size: 16
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
 - gradient_accumulation_steps: 8
-- total_train_batch_size: 256
 - total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine

 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 4
 - eval_batch_size: 16
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
 - gradient_accumulation_steps: 8
+- total_train_batch_size: 128
 - total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine

runs/Feb05_03-26-53_r2d2-devbox-czz9b/events.out.tfevents.1738726055.r2d2-devbox-czz9b.2943.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:4100ad857e7cbb9ad1a781210189158a8d9b3c58cfdec0aadc2d811030358561
+size 4582

step_0/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ae515be2b54d1d5c521d1f19ebabb4994cb1b954fc86dc1ba735f3bb63a5541
 size 5752

 version https://git-lfs.github.com/spec/v1
+oid sha256:63ead96715b6a988afd48a9863d804905f7e0db329df76ba35f96c8465a110b2
 size 5752

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ae515be2b54d1d5c521d1f19ebabb4994cb1b954fc86dc1ba735f3bb63a5541
 size 5752

 version https://git-lfs.github.com/spec/v1
+oid sha256:63ead96715b6a988afd48a9863d804905f7e0db329df76ba35f96c8465a110b2
 size 5752