DylanJHJ
/

function-base-qrecc

Model card Files Files and versions Community

3v324v23 commited on Oct 3, 2023

Commit

2e1a0b0

1 Parent(s): 45062a0

add baseline model checkpoints

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +10 -0
{archived → function-base-flatten}/checkpoint-10000/config.json +2 -1
generation_config.json → function-base-flatten/checkpoint-10000/generation_config.json +1 -1
optimizer.pt → function-base-flatten/checkpoint-10000/optimizer.pt +2 -2
pytorch_model.bin → function-base-flatten/checkpoint-10000/pytorch_model.bin +2 -2
{archived → function-base-flatten}/checkpoint-10000/rng_state.pth +1 -1
scheduler.pt → function-base-flatten/checkpoint-10000/scheduler.pt +1 -1
{archived → function-base-flatten}/checkpoint-10000/trainer_state.json +133 -130
function-base-flatten/checkpoint-10000/training_args.bin +3 -0
config.json → function-base-flatten/checkpoint-15000/config.json +2 -1
{archived/checkpoint-10000 → function-base-flatten/checkpoint-15000}/generation_config.json +1 -1
{archived/checkpoint-10000 → function-base-flatten/checkpoint-15000}/optimizer.pt +2 -2
{archived/checkpoint-10000 → function-base-flatten/checkpoint-15000}/pytorch_model.bin +2 -2
rng_state.pth → function-base-flatten/checkpoint-15000/rng_state.pth +1 -1
{archived/checkpoint-10000 → function-base-flatten/checkpoint-15000}/scheduler.pt +1 -1
function-base-flatten/checkpoint-15000/trainer_state.json +439 -0
function-base-flatten/checkpoint-15000/training_args.bin +3 -0
function-base-flatten/checkpoint-20000/config.json +62 -0
function-base-flatten/checkpoint-20000/generation_config.json +7 -0
function-base-flatten/checkpoint-20000/optimizer.pt +3 -0
function-base-flatten/checkpoint-20000/pytorch_model.bin +3 -0
function-base-flatten/checkpoint-20000/rng_state.pth +3 -0
function-base-flatten/checkpoint-20000/scheduler.pt +3 -0
function-base-flatten/checkpoint-20000/trainer_state.json +579 -0
function-base-flatten/checkpoint-20000/training_args.bin +3 -0
function-base-flatten/checkpoint-5000/config.json +62 -0
function-base-flatten/checkpoint-5000/generation_config.json +7 -0
function-base-flatten/checkpoint-5000/optimizer.pt +3 -0
function-base-flatten/checkpoint-5000/pytorch_model.bin +3 -0
function-base-flatten/checkpoint-5000/rng_state.pth +3 -0
function-base-flatten/checkpoint-5000/scheduler.pt +3 -0
function-base-flatten/checkpoint-5000/trainer_state.json +159 -0
function-base-flatten/checkpoint-5000/training_args.bin +3 -0
function-base/checkpoint-10000/config.json +62 -0
function-base/checkpoint-10000/generation_config.json +7 -0
function-base/checkpoint-10000/optimizer.pt +3 -0
function-base/checkpoint-10000/pytorch_model.bin +3 -0
function-base/checkpoint-10000/rng_state.pth +3 -0
function-base/checkpoint-10000/scheduler.pt +3 -0
function-base/checkpoint-10000/trainer_state.json +299 -0
training_args.bin → function-base/checkpoint-10000/training_args.bin +1 -1
function-base/checkpoint-15000/config.json +62 -0
function-base/checkpoint-15000/generation_config.json +7 -0
function-base/checkpoint-15000/optimizer.pt +3 -0
function-base/checkpoint-15000/pytorch_model.bin +3 -0
function-base/checkpoint-15000/rng_state.pth +3 -0
function-base/checkpoint-15000/scheduler.pt +3 -0
function-base/checkpoint-15000/trainer_state.json +439 -0
{archived/checkpoint-10000 → function-base/checkpoint-15000}/training_args.bin +1 -1
function-base/checkpoint-20000/config.json +62 -0

.gitattributes CHANGED Viewed

@@ -37,3 +37,13 @@ checkpoint-10000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
 checkpoint-10000/training_args.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
 **/**/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

 checkpoint-10000/training_args.bin filter=lfs diff=lfs merge=lfs -text
 pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
 **/**/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+*/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+function-base/checkpoint-10000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+function-base/checkpoint-15000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+function-base/checkpoint-20000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+function-base/checkpoint-5000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+**/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+function-base-flatten/checkpoint-10000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+function-base-flatten/checkpoint-15000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+function-base-flatten/checkpoint-20000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+function-base-flatten/checkpoint-5000/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

{archived → function-base-flatten}/checkpoint-10000/config.json RENAMED Viewed

@@ -3,6 +3,7 @@
   "architectures": [
     "FiDT5"
   ],
   "d_ff": 2048,
   "d_kv": 64,
   "d_model": 768,
@@ -55,7 +56,7 @@
   },
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.31.0",
   "use_cache": true,
   "vocab_size": 32128
 }

   "architectures": [
     "FiDT5"
   ],
+  "classifier_dropout": 0.0,
   "d_ff": 2048,
   "d_kv": 64,
   "d_model": 768,
   },
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
   "use_cache": true,
   "vocab_size": 32128
 }

generation_config.json → function-base-flatten/checkpoint-10000/generation_config.json RENAMED Viewed

@@ -3,5 +3,5 @@
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
-  "transformers_version": "4.31.0"
 }

   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.33.1"
 }

optimizer.pt → function-base-flatten/checkpoint-10000/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50d4d0984f6d3afa328cdb63469c5a8ff9da0e29f70ebc2b46f803ea273608cd
-size 2371333

 version https://git-lfs.github.com/spec/v1
+oid sha256:02862daee9f5279b5eb8cd89e34c2669c673cdf1d59a98c134566a9b2e31be64
+size 2372293

pytorch_model.bin → function-base-flatten/checkpoint-10000/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70f77c75f6db835162d64802678671bae5af6ec92907394913c274e72964591a
-size 990408885

 version https://git-lfs.github.com/spec/v1
+oid sha256:298486418d9e1499d63285dd7ef1ea2dc836d8fcb2372dba48dac0d9bd8acf4e
+size 990410745

{archived → function-base-flatten}/checkpoint-10000/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dc462a4cd692df29deb3db06d4e4ea5357a3f9583326b1e4246b17e9779a0bd
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ffe83d5f6e5972b42f5e84134778b78cd2b53ac4084db95835b17046131594e
 size 14575

scheduler.pt → function-base-flatten/checkpoint-10000/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f5e24b8bf255cbefe9d307944a9741807d095b40cc5429a7befe9515b366b0f
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:5ca84735770f2a357642bb07a692869b77f0409ed01b19bf3c890697e28d947e
 size 627

{archived → function-base-flatten}/checkpoint-10000/trainer_state.json RENAMED Viewed

@@ -1,7 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2616704516780217,
   "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
@@ -9,288 +10,290 @@
   "log_history": [
     {
       "epoch": 0.06,
-      "learning_rate": 6.25e-05,
-      "loss": 5.1725,
       "step": 500
     },
     {
       "epoch": 0.06,
-      "eval_loss": 0.6939732432365417,
-      "eval_runtime": 5.8238,
-      "eval_samples_per_second": 17.171,
-      "eval_steps_per_second": 8.585,
       "step": 500
     },
     {
       "epoch": 0.13,
-      "learning_rate": 9.782608695652174e-05,
-      "loss": 0.5104,
       "step": 1000
     },
     {
       "epoch": 0.13,
-      "eval_loss": 0.641968846321106,
-      "eval_runtime": 6.0125,
-      "eval_samples_per_second": 16.632,
-      "eval_steps_per_second": 8.316,
       "step": 1000
     },
     {
       "epoch": 0.19,
-      "learning_rate": 9.239130434782609e-05,
-      "loss": 0.485,
       "step": 1500
     },
     {
       "epoch": 0.19,
-      "eval_loss": 0.6206984519958496,
-      "eval_runtime": 5.6411,
-      "eval_samples_per_second": 17.727,
-      "eval_steps_per_second": 8.864,
       "step": 1500
     },
     {
       "epoch": 0.25,
-      "learning_rate": 8.695652173913044e-05,
-      "loss": 0.4644,
       "step": 2000
     },
     {
       "epoch": 0.25,
-      "eval_loss": 0.6094934344291687,
-      "eval_runtime": 4.7677,
-      "eval_samples_per_second": 20.974,
-      "eval_steps_per_second": 10.487,
       "step": 2000
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 8.152173913043478e-05,
-      "loss": 0.4563,
       "step": 2500
     },
     {
-      "epoch": 0.32,
-      "eval_loss": 0.6136000156402588,
-      "eval_runtime": 5.1919,
-      "eval_samples_per_second": 19.261,
-      "eval_steps_per_second": 9.63,
       "step": 2500
     },
     {
       "epoch": 0.38,
-      "learning_rate": 7.608695652173914e-05,
-      "loss": 0.4426,
       "step": 3000
     },
     {
       "epoch": 0.38,
-      "eval_loss": 0.6097093224525452,
-      "eval_runtime": 5.562,
-      "eval_samples_per_second": 17.979,
-      "eval_steps_per_second": 8.99,
       "step": 3000
     },
     {
       "epoch": 0.44,
-      "learning_rate": 7.065217391304349e-05,
-      "loss": 0.4401,
       "step": 3500
     },
     {
       "epoch": 0.44,
-      "eval_loss": 0.5967560410499573,
-      "eval_runtime": 5.8426,
-      "eval_samples_per_second": 17.116,
-      "eval_steps_per_second": 8.558,
       "step": 3500
     },
     {
       "epoch": 0.5,
-      "learning_rate": 6.521739130434783e-05,
-      "loss": 0.4258,
       "step": 4000
     },
     {
       "epoch": 0.5,
-      "eval_loss": 0.6082923412322998,
-      "eval_runtime": 5.3584,
-      "eval_samples_per_second": 18.662,
-      "eval_steps_per_second": 9.331,
       "step": 4000
     },
     {
       "epoch": 0.57,
-      "learning_rate": 5.9782608695652175e-05,
-      "loss": 0.424,
       "step": 4500
     },
     {
       "epoch": 0.57,
-      "eval_loss": 0.5975988507270813,
-      "eval_runtime": 4.7572,
-      "eval_samples_per_second": 21.021,
-      "eval_steps_per_second": 10.51,
       "step": 4500
     },
     {
       "epoch": 0.63,
-      "learning_rate": 5.4347826086956524e-05,
-      "loss": 0.4375,
       "step": 5000
     },
     {
       "epoch": 0.63,
-      "eval_loss": 0.5958980321884155,
-      "eval_runtime": 5.8907,
-      "eval_samples_per_second": 16.976,
-      "eval_steps_per_second": 8.488,
       "step": 5000
     },
     {
       "epoch": 0.69,
-      "learning_rate": 4.891304347826087e-05,
-      "loss": 0.4341,
       "step": 5500
     },
     {
       "epoch": 0.69,
-      "eval_loss": 0.5830276012420654,
-      "eval_runtime": 5.3687,
-      "eval_samples_per_second": 18.626,
-      "eval_steps_per_second": 9.313,
       "step": 5500
     },
     {
       "epoch": 0.76,
-      "learning_rate": 4.347826086956522e-05,
-      "loss": 0.4337,
       "step": 6000
     },
     {
       "epoch": 0.76,
-      "eval_loss": 0.5838184356689453,
-      "eval_runtime": 5.9136,
-      "eval_samples_per_second": 16.91,
-      "eval_steps_per_second": 8.455,
       "step": 6000
     },
     {
       "epoch": 0.82,
-      "learning_rate": 3.804347826086957e-05,
-      "loss": 0.4363,
       "step": 6500
     },
     {
       "epoch": 0.82,
-      "eval_loss": 0.5774537920951843,
-      "eval_runtime": 5.28,
-      "eval_samples_per_second": 18.939,
-      "eval_steps_per_second": 9.47,
       "step": 6500
     },
     {
       "epoch": 0.88,
-      "learning_rate": 3.260869565217392e-05,
-      "loss": 0.4122,
       "step": 7000
     },
     {
       "epoch": 0.88,
-      "eval_loss": 0.5706260800361633,
-      "eval_runtime": 5.6473,
-      "eval_samples_per_second": 17.707,
-      "eval_steps_per_second": 8.854,
       "step": 7000
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 2.7173913043478262e-05,
-      "loss": 0.4074,
       "step": 7500
     },
     {
-      "epoch": 0.95,
-      "eval_loss": 0.5714925527572632,
-      "eval_runtime": 3.7863,
-      "eval_samples_per_second": 26.411,
-      "eval_steps_per_second": 13.206,
       "step": 7500
     },
     {
       "epoch": 1.01,
-      "learning_rate": 2.173913043478261e-05,
-      "loss": 0.4137,
       "step": 8000
     },
     {
       "epoch": 1.01,
-      "eval_loss": 0.5754862427711487,
-      "eval_runtime": 6.0221,
-      "eval_samples_per_second": 16.605,
-      "eval_steps_per_second": 8.303,
       "step": 8000
     },
     {
       "epoch": 1.07,
-      "learning_rate": 1.630434782608696e-05,
-      "loss": 0.362,
       "step": 8500
     },
     {
       "epoch": 1.07,
-      "eval_loss": 0.5741321444511414,
-      "eval_runtime": 5.8113,
-      "eval_samples_per_second": 17.208,
-      "eval_steps_per_second": 8.604,
       "step": 8500
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 1.0869565217391305e-05,
-      "loss": 0.3791,
       "step": 9000
     },
     {
-      "epoch": 1.14,
-      "eval_loss": 0.570868968963623,
-      "eval_runtime": 5.5735,
-      "eval_samples_per_second": 17.942,
-      "eval_steps_per_second": 8.971,
       "step": 9000
     },
     {
       "epoch": 1.2,
-      "learning_rate": 5.4347826086956525e-06,
-      "loss": 0.3628,
       "step": 9500
     },
     {
       "epoch": 1.2,
-      "eval_loss": 0.5734958052635193,
-      "eval_runtime": 5.3626,
-      "eval_samples_per_second": 18.648,
-      "eval_steps_per_second": 9.324,
       "step": 9500
     },
     {
       "epoch": 1.26,
-      "learning_rate": 0.0,
-      "loss": 0.3694,
       "step": 10000
     },
     {
       "epoch": 1.26,
-      "eval_loss": 0.573215663433075,
-      "eval_runtime": 4.6899,
-      "eval_samples_per_second": 21.322,
-      "eval_steps_per_second": 10.661,
       "step": 10000
     }
   ],
-  "max_steps": 10000,
-  "num_train_epochs": 2,
-  "total_flos": 3.8513087293824e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2597631645250693,
+  "eval_steps": 500,
   "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "log_history": [
     {
       "epoch": 0.06,
+      "learning_rate": 0.000975,
+      "loss": 1.0322,
       "step": 500
     },
     {
       "epoch": 0.06,
+      "eval_loss": 0.8672707676887512,
+      "eval_runtime": 15.3736,
+      "eval_samples_per_second": 65.047,
+      "eval_steps_per_second": 32.523,
       "step": 500
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.00095,
+      "loss": 0.9884,
       "step": 1000
     },
     {
       "epoch": 0.13,
+      "eval_loss": 0.8287830948829651,
+      "eval_runtime": 15.4828,
+      "eval_samples_per_second": 64.588,
+      "eval_steps_per_second": 32.294,
       "step": 1000
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.000925,
+      "loss": 0.9418,
       "step": 1500
     },
     {
       "epoch": 0.19,
+      "eval_loss": 0.8468040823936462,
+      "eval_runtime": 15.4288,
+      "eval_samples_per_second": 64.814,
+      "eval_steps_per_second": 32.407,
       "step": 1500
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.9232,
       "step": 2000
     },
     {
       "epoch": 0.25,
+      "eval_loss": 0.8540903329849243,
+      "eval_runtime": 15.6504,
+      "eval_samples_per_second": 63.896,
+      "eval_steps_per_second": 31.948,
       "step": 2000
     },
     {
+      "epoch": 0.31,
+      "learning_rate": 0.000875,
+      "loss": 0.9107,
       "step": 2500
     },
     {
+      "epoch": 0.31,
+      "eval_loss": 0.809073269367218,
+      "eval_runtime": 15.3867,
+      "eval_samples_per_second": 64.991,
+      "eval_steps_per_second": 32.496,
       "step": 2500
     },
     {
       "epoch": 0.38,
+      "learning_rate": 0.00085,
+      "loss": 0.9233,
       "step": 3000
     },
     {
       "epoch": 0.38,
+      "eval_loss": 0.8151862621307373,
+      "eval_runtime": 15.0851,
+      "eval_samples_per_second": 66.291,
+      "eval_steps_per_second": 33.145,
       "step": 3000
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.000825,
+      "loss": 0.9038,
       "step": 3500
     },
     {
       "epoch": 0.44,
+      "eval_loss": 0.8232718706130981,
+      "eval_runtime": 15.5073,
+      "eval_samples_per_second": 64.486,
+      "eval_steps_per_second": 32.243,
       "step": 3500
     },
     {
       "epoch": 0.5,
+      "learning_rate": 0.0008,
+      "loss": 0.8747,
       "step": 4000
     },
     {
       "epoch": 0.5,
+      "eval_loss": 0.7864852547645569,
+      "eval_runtime": 15.3637,
+      "eval_samples_per_second": 65.089,
+      "eval_steps_per_second": 32.544,
       "step": 4000
     },
     {
       "epoch": 0.57,
+      "learning_rate": 0.0007750000000000001,
+      "loss": 0.8981,
       "step": 4500
     },
     {
       "epoch": 0.57,
+      "eval_loss": 0.770944356918335,
+      "eval_runtime": 15.3602,
+      "eval_samples_per_second": 65.103,
+      "eval_steps_per_second": 32.552,
       "step": 4500
     },
     {
       "epoch": 0.63,
+      "learning_rate": 0.00075,
+      "loss": 0.8538,
       "step": 5000
     },
     {
       "epoch": 0.63,
+      "eval_loss": 0.7905715107917786,
+      "eval_runtime": 16.0451,
+      "eval_samples_per_second": 62.324,
+      "eval_steps_per_second": 31.162,
       "step": 5000
     },
     {
       "epoch": 0.69,
+      "learning_rate": 0.000725,
+      "loss": 0.8295,
       "step": 5500
     },
     {
       "epoch": 0.69,
+      "eval_loss": 0.7717331051826477,
+      "eval_runtime": 16.2335,
+      "eval_samples_per_second": 61.601,
+      "eval_steps_per_second": 30.8,
       "step": 5500
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.0007,
+      "loss": 0.8346,
       "step": 6000
     },
     {
       "epoch": 0.76,
+      "eval_loss": 0.7587910890579224,
+      "eval_runtime": 15.3749,
+      "eval_samples_per_second": 65.041,
+      "eval_steps_per_second": 32.521,
       "step": 6000
     },
     {
       "epoch": 0.82,
+      "learning_rate": 0.000675,
+      "loss": 0.8366,
       "step": 6500
     },
     {
       "epoch": 0.82,
+      "eval_loss": 0.7654258012771606,
+      "eval_runtime": 15.1755,
+      "eval_samples_per_second": 65.895,
+      "eval_steps_per_second": 32.948,
       "step": 6500
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.0006500000000000001,
+      "loss": 0.8017,
       "step": 7000
     },
     {
       "epoch": 0.88,
+      "eval_loss": 0.759145975112915,
+      "eval_runtime": 15.3597,
+      "eval_samples_per_second": 65.106,
+      "eval_steps_per_second": 32.553,
       "step": 7000
     },
     {
+      "epoch": 0.94,
+      "learning_rate": 0.000625,
+      "loss": 0.7788,
       "step": 7500
     },
     {
+      "epoch": 0.94,
+      "eval_loss": 0.7703807950019836,
+      "eval_runtime": 15.9867,
+      "eval_samples_per_second": 62.552,
+      "eval_steps_per_second": 31.276,
       "step": 7500
     },
     {
       "epoch": 1.01,
+      "learning_rate": 0.0006,
+      "loss": 0.7764,
       "step": 8000
     },
     {
       "epoch": 1.01,
+      "eval_loss": 0.7488923668861389,
+      "eval_runtime": 16.1496,
+      "eval_samples_per_second": 61.921,
+      "eval_steps_per_second": 30.961,
       "step": 8000
     },
     {
       "epoch": 1.07,
+      "learning_rate": 0.000575,
+      "loss": 0.5766,
       "step": 8500
     },
     {
       "epoch": 1.07,
+      "eval_loss": 0.7688985466957092,
+      "eval_runtime": 15.5729,
+      "eval_samples_per_second": 64.214,
+      "eval_steps_per_second": 32.107,
       "step": 8500
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 0.00055,
+      "loss": 0.6024,
       "step": 9000
     },
     {
+      "epoch": 1.13,
+      "eval_loss": 0.7472162842750549,
+      "eval_runtime": 15.4638,
+      "eval_samples_per_second": 64.667,
+      "eval_steps_per_second": 32.334,
       "step": 9000
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.0005250000000000001,
+      "loss": 0.5822,
       "step": 9500
     },
     {
       "epoch": 1.2,
+      "eval_loss": 0.7330933809280396,
+      "eval_runtime": 15.5588,
+      "eval_samples_per_second": 64.272,
+      "eval_steps_per_second": 32.136,
       "step": 9500
     },
     {
       "epoch": 1.26,
+      "learning_rate": 0.0005,
+      "loss": 0.5812,
       "step": 10000
     },
     {
       "epoch": 1.26,
+      "eval_loss": 0.7249069809913635,
+      "eval_runtime": 15.1664,
+      "eval_samples_per_second": 65.935,
+      "eval_steps_per_second": 32.968,
       "step": 10000
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 20000,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "total_flos": 5.445321533503488e+16,
   "trial_name": null,
   "trial_params": null
 }

function-base-flatten/checkpoint-10000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:857168942562a5574ce0eadda06d15062fa7c087954ae9df9c3df06ec62f42c4
+size 4283

config.json → function-base-flatten/checkpoint-15000/config.json RENAMED Viewed

@@ -3,6 +3,7 @@
   "architectures": [
     "FiDT5"
   ],
   "d_ff": 2048,
   "d_kv": 64,
   "d_model": 768,
@@ -55,7 +56,7 @@
   },
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.31.0",
   "use_cache": true,
   "vocab_size": 32128
 }

   "architectures": [
     "FiDT5"
   ],
+  "classifier_dropout": 0.0,
   "d_ff": 2048,
   "d_kv": 64,
   "d_model": 768,
   },
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
   "use_cache": true,
   "vocab_size": 32128
 }

{archived/checkpoint-10000 → function-base-flatten/checkpoint-15000}/generation_config.json RENAMED Viewed

@@ -3,5 +3,5 @@
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
-  "transformers_version": "4.31.0"
 }

   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.33.1"
 }

{archived/checkpoint-10000 → function-base-flatten/checkpoint-15000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:337bb55603ebee89cb75dec21a9c866c67a9172a10eaa13590c6e617c99537c4
-size 2371333

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3fc6096a4bea0a15a0ef50591ecf5d74f46d983ae8dcc8255a582e94c0d786e
+size 2372293

{archived/checkpoint-10000 → function-base-flatten/checkpoint-15000}/pytorch_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b745769676f63fdcd414ff882cdcee4e322aba6ef69bea206e1d7fb4e5f7e6c
-size 990408885

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfc4d7035318a7d9356a8c80980d5e8e98a09127dace85985989b9a5114f139b
+size 990410745

rng_state.pth → function-base-flatten/checkpoint-15000/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:96805bdb6c1ed875dd7da931970e8b852a1c747ef4c73dba10e101dc01ad5c13
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:84148658af0ffc7e402e61e276c1e47ca4c371c6495ebac7d6c4bc7bb1680e2c
 size 14575

{archived/checkpoint-10000 → function-base-flatten/checkpoint-15000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f5e24b8bf255cbefe9d307944a9741807d095b40cc5429a7befe9515b366b0f
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:62b793f9ea6eba39185d82063b1e7434411e2aeca1bab5a010024f955d1696b3
 size 627

function-base-flatten/checkpoint-15000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,439 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.8896447467876039,
+  "eval_steps": 500,
+  "global_step": 15000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000975,
+      "loss": 1.0322,
+      "step": 500
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.8672707676887512,
+      "eval_runtime": 15.3736,
+      "eval_samples_per_second": 65.047,
+      "eval_steps_per_second": 32.523,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00095,
+      "loss": 0.9884,
+      "step": 1000
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.8287830948829651,
+      "eval_runtime": 15.4828,
+      "eval_samples_per_second": 64.588,
+      "eval_steps_per_second": 32.294,
+      "step": 1000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000925,
+      "loss": 0.9418,
+      "step": 1500
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.8468040823936462,
+      "eval_runtime": 15.4288,
+      "eval_samples_per_second": 64.814,
+      "eval_steps_per_second": 32.407,
+      "step": 1500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.9232,
+      "step": 2000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.8540903329849243,
+      "eval_runtime": 15.6504,
+      "eval_samples_per_second": 63.896,
+      "eval_steps_per_second": 31.948,
+      "step": 2000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000875,
+      "loss": 0.9107,
+      "step": 2500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.809073269367218,
+      "eval_runtime": 15.3867,
+      "eval_samples_per_second": 64.991,
+      "eval_steps_per_second": 32.496,
+      "step": 2500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00085,
+      "loss": 0.9233,
+      "step": 3000
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.8151862621307373,
+      "eval_runtime": 15.0851,
+      "eval_samples_per_second": 66.291,
+      "eval_steps_per_second": 33.145,
+      "step": 3000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.000825,
+      "loss": 0.9038,
+      "step": 3500
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.8232718706130981,
+      "eval_runtime": 15.5073,
+      "eval_samples_per_second": 64.486,
+      "eval_steps_per_second": 32.243,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0008,
+      "loss": 0.8747,
+      "step": 4000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.7864852547645569,
+      "eval_runtime": 15.3637,
+      "eval_samples_per_second": 65.089,
+      "eval_steps_per_second": 32.544,
+      "step": 4000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0007750000000000001,
+      "loss": 0.8981,
+      "step": 4500
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.770944356918335,
+      "eval_runtime": 15.3602,
+      "eval_samples_per_second": 65.103,
+      "eval_steps_per_second": 32.552,
+      "step": 4500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00075,
+      "loss": 0.8538,
+      "step": 5000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.7905715107917786,
+      "eval_runtime": 16.0451,
+      "eval_samples_per_second": 62.324,
+      "eval_steps_per_second": 31.162,
+      "step": 5000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.000725,
+      "loss": 0.8295,
+      "step": 5500
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.7717331051826477,
+      "eval_runtime": 16.2335,
+      "eval_samples_per_second": 61.601,
+      "eval_steps_per_second": 30.8,
+      "step": 5500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0007,
+      "loss": 0.8346,
+      "step": 6000
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.7587910890579224,
+      "eval_runtime": 15.3749,
+      "eval_samples_per_second": 65.041,
+      "eval_steps_per_second": 32.521,
+      "step": 6000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.000675,
+      "loss": 0.8366,
+      "step": 6500
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.7654258012771606,
+      "eval_runtime": 15.1755,
+      "eval_samples_per_second": 65.895,
+      "eval_steps_per_second": 32.948,
+      "step": 6500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0006500000000000001,
+      "loss": 0.8017,
+      "step": 7000
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.759145975112915,
+      "eval_runtime": 15.3597,
+      "eval_samples_per_second": 65.106,
+      "eval_steps_per_second": 32.553,
+      "step": 7000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000625,
+      "loss": 0.7788,
+      "step": 7500
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.7703807950019836,
+      "eval_runtime": 15.9867,
+      "eval_samples_per_second": 62.552,
+      "eval_steps_per_second": 31.276,
+      "step": 7500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0006,
+      "loss": 0.7764,
+      "step": 8000
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 0.7488923668861389,
+      "eval_runtime": 16.1496,
+      "eval_samples_per_second": 61.921,
+      "eval_steps_per_second": 30.961,
+      "step": 8000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.000575,
+      "loss": 0.5766,
+      "step": 8500
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.7688985466957092,
+      "eval_runtime": 15.5729,
+      "eval_samples_per_second": 64.214,
+      "eval_steps_per_second": 32.107,
+      "step": 8500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00055,
+      "loss": 0.6024,
+      "step": 9000
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.7472162842750549,
+      "eval_runtime": 15.4638,
+      "eval_samples_per_second": 64.667,
+      "eval_steps_per_second": 32.334,
+      "step": 9000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0005250000000000001,
+      "loss": 0.5822,
+      "step": 9500
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.7330933809280396,
+      "eval_runtime": 15.5588,
+      "eval_samples_per_second": 64.272,
+      "eval_steps_per_second": 32.136,
+      "step": 9500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0005,
+      "loss": 0.5812,
+      "step": 10000
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.7249069809913635,
+      "eval_runtime": 15.1664,
+      "eval_samples_per_second": 65.935,
+      "eval_steps_per_second": 32.968,
+      "step": 10000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.000475,
+      "loss": 0.5758,
+      "step": 10500
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.7344868779182434,
+      "eval_runtime": 15.267,
+      "eval_samples_per_second": 65.501,
+      "eval_steps_per_second": 32.75,
+      "step": 10500
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00045000000000000004,
+      "loss": 0.5714,
+      "step": 11000
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.7404966950416565,
+      "eval_runtime": 15.2995,
+      "eval_samples_per_second": 65.361,
+      "eval_steps_per_second": 32.681,
+      "step": 11000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.000425,
+      "loss": 0.5787,
+      "step": 11500
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.7168460488319397,
+      "eval_runtime": 15.277,
+      "eval_samples_per_second": 65.458,
+      "eval_steps_per_second": 32.729,
+      "step": 11500
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0004,
+      "loss": 0.5694,
+      "step": 12000
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.7175167202949524,
+      "eval_runtime": 15.6988,
+      "eval_samples_per_second": 63.699,
+      "eval_steps_per_second": 31.85,
+      "step": 12000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.000375,
+      "loss": 0.5835,
+      "step": 12500
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.7070069313049316,
+      "eval_runtime": 17.1549,
+      "eval_samples_per_second": 58.293,
+      "eval_steps_per_second": 29.146,
+      "step": 12500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00035,
+      "loss": 0.5664,
+      "step": 13000
+    },
+    {
+      "epoch": 1.64,
+      "eval_loss": 0.7037546038627625,
+      "eval_runtime": 15.2843,
+      "eval_samples_per_second": 65.427,
+      "eval_steps_per_second": 32.713,
+      "step": 13000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.5534,
+      "step": 13500
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.706645667552948,
+      "eval_runtime": 15.983,
+      "eval_samples_per_second": 62.567,
+      "eval_steps_per_second": 31.283,
+      "step": 13500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0003,
+      "loss": 0.5588,
+      "step": 14000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.7000927329063416,
+      "eval_runtime": 15.4052,
+      "eval_samples_per_second": 64.913,
+      "eval_steps_per_second": 32.457,
+      "step": 14000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.000275,
+      "loss": 0.5568,
+      "step": 14500
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 0.6883980631828308,
+      "eval_runtime": 15.226,
+      "eval_samples_per_second": 65.677,
+      "eval_steps_per_second": 32.839,
+      "step": 14500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00025,
+      "loss": 0.5661,
+      "step": 15000
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.6906747817993164,
+      "eval_runtime": 15.225,
+      "eval_samples_per_second": 65.681,
+      "eval_steps_per_second": 32.841,
+      "step": 15000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 20000,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "total_flos": 8.170201074567168e+16,
+  "trial_name": null,
+  "trial_params": null
+}

function-base-flatten/checkpoint-15000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:857168942562a5574ce0eadda06d15062fa7c087954ae9df9c3df06ec62f42c4
+size 4283

function-base-flatten/checkpoint-20000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

function-base-flatten/checkpoint-20000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.1"
+}

function-base-flatten/checkpoint-20000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f48f34683d2ac110d59dd00b1585aaef74de33fcadd1e19a361eb0b516be913c
+size 2372293

function-base-flatten/checkpoint-20000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aca407d24447508342f9dfc23627a02773a09e95bd307d9602b44bd70f333450
+size 990410745

function-base-flatten/checkpoint-20000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d45fe887815d6bbd1e0ca49c6430d2920293486016d8671f425007a097024ef6
+size 14575

function-base-flatten/checkpoint-20000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f58a0653df4cbbcf9d6cc03d846193b654e5e1cc8a7d6462c99377d7fbe445ea
+size 627

function-base-flatten/checkpoint-20000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,579 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.5195263290501386,
+  "eval_steps": 500,
+  "global_step": 20000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000975,
+      "loss": 1.0322,
+      "step": 500
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.8672707676887512,
+      "eval_runtime": 15.3736,
+      "eval_samples_per_second": 65.047,
+      "eval_steps_per_second": 32.523,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00095,
+      "loss": 0.9884,
+      "step": 1000
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.8287830948829651,
+      "eval_runtime": 15.4828,
+      "eval_samples_per_second": 64.588,
+      "eval_steps_per_second": 32.294,
+      "step": 1000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000925,
+      "loss": 0.9418,
+      "step": 1500
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.8468040823936462,
+      "eval_runtime": 15.4288,
+      "eval_samples_per_second": 64.814,
+      "eval_steps_per_second": 32.407,
+      "step": 1500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.9232,
+      "step": 2000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.8540903329849243,
+      "eval_runtime": 15.6504,
+      "eval_samples_per_second": 63.896,
+      "eval_steps_per_second": 31.948,
+      "step": 2000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000875,
+      "loss": 0.9107,
+      "step": 2500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.809073269367218,
+      "eval_runtime": 15.3867,
+      "eval_samples_per_second": 64.991,
+      "eval_steps_per_second": 32.496,
+      "step": 2500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00085,
+      "loss": 0.9233,
+      "step": 3000
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.8151862621307373,
+      "eval_runtime": 15.0851,
+      "eval_samples_per_second": 66.291,
+      "eval_steps_per_second": 33.145,
+      "step": 3000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.000825,
+      "loss": 0.9038,
+      "step": 3500
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.8232718706130981,
+      "eval_runtime": 15.5073,
+      "eval_samples_per_second": 64.486,
+      "eval_steps_per_second": 32.243,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0008,
+      "loss": 0.8747,
+      "step": 4000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.7864852547645569,
+      "eval_runtime": 15.3637,
+      "eval_samples_per_second": 65.089,
+      "eval_steps_per_second": 32.544,
+      "step": 4000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0007750000000000001,
+      "loss": 0.8981,
+      "step": 4500
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.770944356918335,
+      "eval_runtime": 15.3602,
+      "eval_samples_per_second": 65.103,
+      "eval_steps_per_second": 32.552,
+      "step": 4500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00075,
+      "loss": 0.8538,
+      "step": 5000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.7905715107917786,
+      "eval_runtime": 16.0451,
+      "eval_samples_per_second": 62.324,
+      "eval_steps_per_second": 31.162,
+      "step": 5000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.000725,
+      "loss": 0.8295,
+      "step": 5500
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.7717331051826477,
+      "eval_runtime": 16.2335,
+      "eval_samples_per_second": 61.601,
+      "eval_steps_per_second": 30.8,
+      "step": 5500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0007,
+      "loss": 0.8346,
+      "step": 6000
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.7587910890579224,
+      "eval_runtime": 15.3749,
+      "eval_samples_per_second": 65.041,
+      "eval_steps_per_second": 32.521,
+      "step": 6000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.000675,
+      "loss": 0.8366,
+      "step": 6500
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.7654258012771606,
+      "eval_runtime": 15.1755,
+      "eval_samples_per_second": 65.895,
+      "eval_steps_per_second": 32.948,
+      "step": 6500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0006500000000000001,
+      "loss": 0.8017,
+      "step": 7000
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.759145975112915,
+      "eval_runtime": 15.3597,
+      "eval_samples_per_second": 65.106,
+      "eval_steps_per_second": 32.553,
+      "step": 7000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000625,
+      "loss": 0.7788,
+      "step": 7500
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.7703807950019836,
+      "eval_runtime": 15.9867,
+      "eval_samples_per_second": 62.552,
+      "eval_steps_per_second": 31.276,
+      "step": 7500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0006,
+      "loss": 0.7764,
+      "step": 8000
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 0.7488923668861389,
+      "eval_runtime": 16.1496,
+      "eval_samples_per_second": 61.921,
+      "eval_steps_per_second": 30.961,
+      "step": 8000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.000575,
+      "loss": 0.5766,
+      "step": 8500
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.7688985466957092,
+      "eval_runtime": 15.5729,
+      "eval_samples_per_second": 64.214,
+      "eval_steps_per_second": 32.107,
+      "step": 8500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00055,
+      "loss": 0.6024,
+      "step": 9000
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.7472162842750549,
+      "eval_runtime": 15.4638,
+      "eval_samples_per_second": 64.667,
+      "eval_steps_per_second": 32.334,
+      "step": 9000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0005250000000000001,
+      "loss": 0.5822,
+      "step": 9500
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.7330933809280396,
+      "eval_runtime": 15.5588,
+      "eval_samples_per_second": 64.272,
+      "eval_steps_per_second": 32.136,
+      "step": 9500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0005,
+      "loss": 0.5812,
+      "step": 10000
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.7249069809913635,
+      "eval_runtime": 15.1664,
+      "eval_samples_per_second": 65.935,
+      "eval_steps_per_second": 32.968,
+      "step": 10000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.000475,
+      "loss": 0.5758,
+      "step": 10500
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.7344868779182434,
+      "eval_runtime": 15.267,
+      "eval_samples_per_second": 65.501,
+      "eval_steps_per_second": 32.75,
+      "step": 10500
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00045000000000000004,
+      "loss": 0.5714,
+      "step": 11000
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.7404966950416565,
+      "eval_runtime": 15.2995,
+      "eval_samples_per_second": 65.361,
+      "eval_steps_per_second": 32.681,
+      "step": 11000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.000425,
+      "loss": 0.5787,
+      "step": 11500
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.7168460488319397,
+      "eval_runtime": 15.277,
+      "eval_samples_per_second": 65.458,
+      "eval_steps_per_second": 32.729,
+      "step": 11500
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0004,
+      "loss": 0.5694,
+      "step": 12000
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.7175167202949524,
+      "eval_runtime": 15.6988,
+      "eval_samples_per_second": 63.699,
+      "eval_steps_per_second": 31.85,
+      "step": 12000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.000375,
+      "loss": 0.5835,
+      "step": 12500
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.7070069313049316,
+      "eval_runtime": 17.1549,
+      "eval_samples_per_second": 58.293,
+      "eval_steps_per_second": 29.146,
+      "step": 12500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00035,
+      "loss": 0.5664,
+      "step": 13000
+    },
+    {
+      "epoch": 1.64,
+      "eval_loss": 0.7037546038627625,
+      "eval_runtime": 15.2843,
+      "eval_samples_per_second": 65.427,
+      "eval_steps_per_second": 32.713,
+      "step": 13000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.5534,
+      "step": 13500
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.706645667552948,
+      "eval_runtime": 15.983,
+      "eval_samples_per_second": 62.567,
+      "eval_steps_per_second": 31.283,
+      "step": 13500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0003,
+      "loss": 0.5588,
+      "step": 14000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.7000927329063416,
+      "eval_runtime": 15.4052,
+      "eval_samples_per_second": 64.913,
+      "eval_steps_per_second": 32.457,
+      "step": 14000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.000275,
+      "loss": 0.5568,
+      "step": 14500
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 0.6883980631828308,
+      "eval_runtime": 15.226,
+      "eval_samples_per_second": 65.677,
+      "eval_steps_per_second": 32.839,
+      "step": 14500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00025,
+      "loss": 0.5661,
+      "step": 15000
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.6906747817993164,
+      "eval_runtime": 15.225,
+      "eval_samples_per_second": 65.681,
+      "eval_steps_per_second": 32.841,
+      "step": 15000
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.536,
+      "step": 15500
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.6931287050247192,
+      "eval_runtime": 15.5471,
+      "eval_samples_per_second": 64.321,
+      "eval_steps_per_second": 32.16,
+      "step": 15500
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0002,
+      "loss": 0.5042,
+      "step": 16000
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.712044894695282,
+      "eval_runtime": 15.4441,
+      "eval_samples_per_second": 64.75,
+      "eval_steps_per_second": 32.375,
+      "step": 16000
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 0.000175,
+      "loss": 0.3784,
+      "step": 16500
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.7175341844558716,
+      "eval_runtime": 15.0821,
+      "eval_samples_per_second": 66.304,
+      "eval_steps_per_second": 33.152,
+      "step": 16500
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00015,
+      "loss": 0.3755,
+      "step": 17000
+    },
+    {
+      "epoch": 2.14,
+      "eval_loss": 0.7178177833557129,
+      "eval_runtime": 15.1581,
+      "eval_samples_per_second": 65.972,
+      "eval_steps_per_second": 32.986,
+      "step": 17000
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 0.000125,
+      "loss": 0.3632,
+      "step": 17500
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 0.7224026918411255,
+      "eval_runtime": 15.2639,
+      "eval_samples_per_second": 65.514,
+      "eval_steps_per_second": 32.757,
+      "step": 17500
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0001,
+      "loss": 0.3632,
+      "step": 18000
+    },
+    {
+      "epoch": 2.27,
+      "eval_loss": 0.7143183350563049,
+      "eval_runtime": 15.506,
+      "eval_samples_per_second": 64.491,
+      "eval_steps_per_second": 32.246,
+      "step": 18000
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 7.5e-05,
+      "loss": 0.3614,
+      "step": 18500
+    },
+    {
+      "epoch": 2.33,
+      "eval_loss": 0.7125980257987976,
+      "eval_runtime": 15.2549,
+      "eval_samples_per_second": 65.552,
+      "eval_steps_per_second": 32.776,
+      "step": 18500
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 5e-05,
+      "loss": 0.3838,
+      "step": 19000
+    },
+    {
+      "epoch": 2.39,
+      "eval_loss": 0.7115333080291748,
+      "eval_runtime": 15.4705,
+      "eval_samples_per_second": 64.639,
+      "eval_steps_per_second": 32.32,
+      "step": 19000
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3652,
+      "step": 19500
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.7107402086257935,
+      "eval_runtime": 16.4678,
+      "eval_samples_per_second": 60.725,
+      "eval_steps_per_second": 30.362,
+      "step": 19500
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.0,
+      "loss": 0.3608,
+      "step": 20000
+    },
+    {
+      "epoch": 2.52,
+      "eval_loss": 0.7085164189338684,
+      "eval_runtime": 15.3333,
+      "eval_samples_per_second": 65.218,
+      "eval_steps_per_second": 32.609,
+      "step": 20000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 20000,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "total_flos": 1.0899423608893747e+17,
+  "trial_name": null,
+  "trial_params": null
+}

function-base-flatten/checkpoint-20000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:857168942562a5574ce0eadda06d15062fa7c087954ae9df9c3df06ec62f42c4
+size 4283

function-base-flatten/checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

function-base-flatten/checkpoint-5000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.1"
+}

function-base-flatten/checkpoint-5000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0908a23754ae755048af4506000784b7466bc0b906c915f3a3ecf011c299b63
+size 2372293

function-base-flatten/checkpoint-5000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72b274ec351daa7fada5fee63ca9860df026dabfc9939fcc1d6405f0e533689e
+size 990410745

function-base-flatten/checkpoint-5000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c9d06088956111c6e20d5851243172fc06211d12a6d319b3a987552ba61c609
+size 14575

function-base-flatten/checkpoint-5000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf2e868687b4ae6ba785ff2503f15cde78e0501a53544557c44b05f9fae02479
+size 627

function-base-flatten/checkpoint-5000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,159 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6298815822625347,
+  "eval_steps": 500,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000975,
+      "loss": 1.0322,
+      "step": 500
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.8672707676887512,
+      "eval_runtime": 15.3736,
+      "eval_samples_per_second": 65.047,
+      "eval_steps_per_second": 32.523,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00095,
+      "loss": 0.9884,
+      "step": 1000
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.8287830948829651,
+      "eval_runtime": 15.4828,
+      "eval_samples_per_second": 64.588,
+      "eval_steps_per_second": 32.294,
+      "step": 1000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000925,
+      "loss": 0.9418,
+      "step": 1500
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.8468040823936462,
+      "eval_runtime": 15.4288,
+      "eval_samples_per_second": 64.814,
+      "eval_steps_per_second": 32.407,
+      "step": 1500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.9232,
+      "step": 2000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.8540903329849243,
+      "eval_runtime": 15.6504,
+      "eval_samples_per_second": 63.896,
+      "eval_steps_per_second": 31.948,
+      "step": 2000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000875,
+      "loss": 0.9107,
+      "step": 2500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.809073269367218,
+      "eval_runtime": 15.3867,
+      "eval_samples_per_second": 64.991,
+      "eval_steps_per_second": 32.496,
+      "step": 2500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00085,
+      "loss": 0.9233,
+      "step": 3000
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.8151862621307373,
+      "eval_runtime": 15.0851,
+      "eval_samples_per_second": 66.291,
+      "eval_steps_per_second": 33.145,
+      "step": 3000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.000825,
+      "loss": 0.9038,
+      "step": 3500
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.8232718706130981,
+      "eval_runtime": 15.5073,
+      "eval_samples_per_second": 64.486,
+      "eval_steps_per_second": 32.243,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0008,
+      "loss": 0.8747,
+      "step": 4000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.7864852547645569,
+      "eval_runtime": 15.3637,
+      "eval_samples_per_second": 65.089,
+      "eval_steps_per_second": 32.544,
+      "step": 4000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0007750000000000001,
+      "loss": 0.8981,
+      "step": 4500
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.770944356918335,
+      "eval_runtime": 15.3602,
+      "eval_samples_per_second": 65.103,
+      "eval_steps_per_second": 32.552,
+      "step": 4500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00075,
+      "loss": 0.8538,
+      "step": 5000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.7905715107917786,
+      "eval_runtime": 16.0451,
+      "eval_samples_per_second": 62.324,
+      "eval_steps_per_second": 31.162,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 20000,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "total_flos": 2.716206661221581e+16,
+  "trial_name": null,
+  "trial_params": null
+}

function-base-flatten/checkpoint-5000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:857168942562a5574ce0eadda06d15062fa7c087954ae9df9c3df06ec62f42c4
+size 4283

function-base/checkpoint-10000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

function-base/checkpoint-10000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.1"
+}

function-base/checkpoint-10000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31a8a4d069a6841f5bc2ea4a8f73c35b1643780ee12aea2bacb523db2f0f8014
+size 2372293

function-base/checkpoint-10000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84906aa788bf8a1e878057086eb3a908712a1f7edc9948f79bf943f0a8211a7c
+size 990410745

function-base/checkpoint-10000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a1e8dfcc14f0e4c7687859bd95ad0362e76e36c0d62c4a58370f1dfda0a5a17
+size 14575

function-base/checkpoint-10000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ca84735770f2a357642bb07a692869b77f0409ed01b19bf3c890697e28d947e
+size 627

function-base/checkpoint-10000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,299 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.2597631645250693,
+  "eval_steps": 500,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000975,
+      "loss": 0.9774,
+      "step": 500
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.8144938945770264,
+      "eval_runtime": 14.6573,
+      "eval_samples_per_second": 68.225,
+      "eval_steps_per_second": 34.113,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00095,
+      "loss": 0.9617,
+      "step": 1000
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.8077166080474854,
+      "eval_runtime": 15.1765,
+      "eval_samples_per_second": 65.891,
+      "eval_steps_per_second": 32.946,
+      "step": 1000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000925,
+      "loss": 0.911,
+      "step": 1500
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.8064053058624268,
+      "eval_runtime": 15.3268,
+      "eval_samples_per_second": 65.245,
+      "eval_steps_per_second": 32.623,
+      "step": 1500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.8954,
+      "step": 2000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.8163686990737915,
+      "eval_runtime": 14.5944,
+      "eval_samples_per_second": 68.519,
+      "eval_steps_per_second": 34.26,
+      "step": 2000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000875,
+      "loss": 0.883,
+      "step": 2500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.8068735003471375,
+      "eval_runtime": 14.8614,
+      "eval_samples_per_second": 67.288,
+      "eval_steps_per_second": 33.644,
+      "step": 2500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00085,
+      "loss": 0.8867,
+      "step": 3000
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.7819482088088989,
+      "eval_runtime": 14.6896,
+      "eval_samples_per_second": 68.076,
+      "eval_steps_per_second": 34.038,
+      "step": 3000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.000825,
+      "loss": 0.8688,
+      "step": 3500
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.8062307238578796,
+      "eval_runtime": 14.6856,
+      "eval_samples_per_second": 68.094,
+      "eval_steps_per_second": 34.047,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0008,
+      "loss": 0.8446,
+      "step": 4000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.7707250714302063,
+      "eval_runtime": 15.0517,
+      "eval_samples_per_second": 66.438,
+      "eval_steps_per_second": 33.219,
+      "step": 4000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0007750000000000001,
+      "loss": 0.8617,
+      "step": 4500
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.7528353333473206,
+      "eval_runtime": 14.7368,
+      "eval_samples_per_second": 67.857,
+      "eval_steps_per_second": 33.929,
+      "step": 4500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00075,
+      "loss": 0.8158,
+      "step": 5000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.7551385760307312,
+      "eval_runtime": 15.3736,
+      "eval_samples_per_second": 65.047,
+      "eval_steps_per_second": 32.523,
+      "step": 5000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.000725,
+      "loss": 0.7889,
+      "step": 5500
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.7405046820640564,
+      "eval_runtime": 15.4488,
+      "eval_samples_per_second": 64.73,
+      "eval_steps_per_second": 32.365,
+      "step": 5500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0007,
+      "loss": 0.7992,
+      "step": 6000
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.7292428016662598,
+      "eval_runtime": 15.892,
+      "eval_samples_per_second": 62.925,
+      "eval_steps_per_second": 31.462,
+      "step": 6000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.000675,
+      "loss": 0.8051,
+      "step": 6500
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.7345249056816101,
+      "eval_runtime": 14.8049,
+      "eval_samples_per_second": 67.545,
+      "eval_steps_per_second": 33.773,
+      "step": 6500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0006500000000000001,
+      "loss": 0.7684,
+      "step": 7000
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.7357723712921143,
+      "eval_runtime": 14.7316,
+      "eval_samples_per_second": 67.881,
+      "eval_steps_per_second": 33.941,
+      "step": 7000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000625,
+      "loss": 0.753,
+      "step": 7500
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.7323009371757507,
+      "eval_runtime": 14.6239,
+      "eval_samples_per_second": 68.381,
+      "eval_steps_per_second": 34.191,
+      "step": 7500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0006,
+      "loss": 0.7464,
+      "step": 8000
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 0.7275989651679993,
+      "eval_runtime": 15.2815,
+      "eval_samples_per_second": 65.439,
+      "eval_steps_per_second": 32.719,
+      "step": 8000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.000575,
+      "loss": 0.5429,
+      "step": 8500
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.7231326103210449,
+      "eval_runtime": 15.5099,
+      "eval_samples_per_second": 64.475,
+      "eval_steps_per_second": 32.238,
+      "step": 8500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00055,
+      "loss": 0.5704,
+      "step": 9000
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.717272162437439,
+      "eval_runtime": 14.9897,
+      "eval_samples_per_second": 66.712,
+      "eval_steps_per_second": 33.356,
+      "step": 9000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0005250000000000001,
+      "loss": 0.5459,
+      "step": 9500
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.7188604474067688,
+      "eval_runtime": 14.7366,
+      "eval_samples_per_second": 67.858,
+      "eval_steps_per_second": 33.929,
+      "step": 9500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0005,
+      "loss": 0.5435,
+      "step": 10000
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.7037996053695679,
+      "eval_runtime": 14.5588,
+      "eval_samples_per_second": 68.687,
+      "eval_steps_per_second": 34.343,
+      "step": 10000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 20000,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "total_flos": 6.278100154500096e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin → function-base/checkpoint-10000/training_args.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8289752bca98a3f14e53feb07fafa691076be700549694b90e50635b318dad97
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:82ea3910cc2b6cda26544c9471813d33e4dddc44d4ed360de38519e745497679
 size 4219

function-base/checkpoint-15000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}

function-base/checkpoint-15000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.33.1"
+}

function-base/checkpoint-15000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3138aeb908f29a6626871da58849ebc4a60358542679230032fbe02f4e3658e4
+size 2372293

function-base/checkpoint-15000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e85c9b3d2de2c3e436770a52af0d80543e90725ecee7e845d35843969e56ce2
+size 990410745

function-base/checkpoint-15000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:941a40eace4874c8bc2176908a7a69bb49bf28a46f7d454a00dba777352366c7
+size 14575

function-base/checkpoint-15000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62b793f9ea6eba39185d82063b1e7434411e2aeca1bab5a010024f955d1696b3
+size 627

function-base/checkpoint-15000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,439 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.8896447467876039,
+  "eval_steps": 500,
+  "global_step": 15000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.000975,
+      "loss": 0.9774,
+      "step": 500
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.8144938945770264,
+      "eval_runtime": 14.6573,
+      "eval_samples_per_second": 68.225,
+      "eval_steps_per_second": 34.113,
+      "step": 500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00095,
+      "loss": 0.9617,
+      "step": 1000
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 0.8077166080474854,
+      "eval_runtime": 15.1765,
+      "eval_samples_per_second": 65.891,
+      "eval_steps_per_second": 32.946,
+      "step": 1000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000925,
+      "loss": 0.911,
+      "step": 1500
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.8064053058624268,
+      "eval_runtime": 15.3268,
+      "eval_samples_per_second": 65.245,
+      "eval_steps_per_second": 32.623,
+      "step": 1500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009000000000000001,
+      "loss": 0.8954,
+      "step": 2000
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.8163686990737915,
+      "eval_runtime": 14.5944,
+      "eval_samples_per_second": 68.519,
+      "eval_steps_per_second": 34.26,
+      "step": 2000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.000875,
+      "loss": 0.883,
+      "step": 2500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.8068735003471375,
+      "eval_runtime": 14.8614,
+      "eval_samples_per_second": 67.288,
+      "eval_steps_per_second": 33.644,
+      "step": 2500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00085,
+      "loss": 0.8867,
+      "step": 3000
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.7819482088088989,
+      "eval_runtime": 14.6896,
+      "eval_samples_per_second": 68.076,
+      "eval_steps_per_second": 34.038,
+      "step": 3000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.000825,
+      "loss": 0.8688,
+      "step": 3500
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.8062307238578796,
+      "eval_runtime": 14.6856,
+      "eval_samples_per_second": 68.094,
+      "eval_steps_per_second": 34.047,
+      "step": 3500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0008,
+      "loss": 0.8446,
+      "step": 4000
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.7707250714302063,
+      "eval_runtime": 15.0517,
+      "eval_samples_per_second": 66.438,
+      "eval_steps_per_second": 33.219,
+      "step": 4000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0007750000000000001,
+      "loss": 0.8617,
+      "step": 4500
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.7528353333473206,
+      "eval_runtime": 14.7368,
+      "eval_samples_per_second": 67.857,
+      "eval_steps_per_second": 33.929,
+      "step": 4500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00075,
+      "loss": 0.8158,
+      "step": 5000
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.7551385760307312,
+      "eval_runtime": 15.3736,
+      "eval_samples_per_second": 65.047,
+      "eval_steps_per_second": 32.523,
+      "step": 5000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.000725,
+      "loss": 0.7889,
+      "step": 5500
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.7405046820640564,
+      "eval_runtime": 15.4488,
+      "eval_samples_per_second": 64.73,
+      "eval_steps_per_second": 32.365,
+      "step": 5500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0007,
+      "loss": 0.7992,
+      "step": 6000
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.7292428016662598,
+      "eval_runtime": 15.892,
+      "eval_samples_per_second": 62.925,
+      "eval_steps_per_second": 31.462,
+      "step": 6000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.000675,
+      "loss": 0.8051,
+      "step": 6500
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.7345249056816101,
+      "eval_runtime": 14.8049,
+      "eval_samples_per_second": 67.545,
+      "eval_steps_per_second": 33.773,
+      "step": 6500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0006500000000000001,
+      "loss": 0.7684,
+      "step": 7000
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.7357723712921143,
+      "eval_runtime": 14.7316,
+      "eval_samples_per_second": 67.881,
+      "eval_steps_per_second": 33.941,
+      "step": 7000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000625,
+      "loss": 0.753,
+      "step": 7500
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.7323009371757507,
+      "eval_runtime": 14.6239,
+      "eval_samples_per_second": 68.381,
+      "eval_steps_per_second": 34.191,
+      "step": 7500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0006,
+      "loss": 0.7464,
+      "step": 8000
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 0.7275989651679993,
+      "eval_runtime": 15.2815,
+      "eval_samples_per_second": 65.439,
+      "eval_steps_per_second": 32.719,
+      "step": 8000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.000575,
+      "loss": 0.5429,
+      "step": 8500
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.7231326103210449,
+      "eval_runtime": 15.5099,
+      "eval_samples_per_second": 64.475,
+      "eval_steps_per_second": 32.238,
+      "step": 8500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00055,
+      "loss": 0.5704,
+      "step": 9000
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.717272162437439,
+      "eval_runtime": 14.9897,
+      "eval_samples_per_second": 66.712,
+      "eval_steps_per_second": 33.356,
+      "step": 9000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0005250000000000001,
+      "loss": 0.5459,
+      "step": 9500
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.7188604474067688,
+      "eval_runtime": 14.7366,
+      "eval_samples_per_second": 67.858,
+      "eval_steps_per_second": 33.929,
+      "step": 9500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0005,
+      "loss": 0.5435,
+      "step": 10000
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.7037996053695679,
+      "eval_runtime": 14.5588,
+      "eval_samples_per_second": 68.687,
+      "eval_steps_per_second": 34.343,
+      "step": 10000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.000475,
+      "loss": 0.5429,
+      "step": 10500
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.7000067234039307,
+      "eval_runtime": 14.629,
+      "eval_samples_per_second": 68.357,
+      "eval_steps_per_second": 34.179,
+      "step": 10500
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00045000000000000004,
+      "loss": 0.5363,
+      "step": 11000
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.7090610861778259,
+      "eval_runtime": 15.5146,
+      "eval_samples_per_second": 64.455,
+      "eval_steps_per_second": 32.228,
+      "step": 11000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.000425,
+      "loss": 0.551,
+      "step": 11500
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 0.6937999129295349,
+      "eval_runtime": 15.2752,
+      "eval_samples_per_second": 65.466,
+      "eval_steps_per_second": 32.733,
+      "step": 11500
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0004,
+      "loss": 0.5345,
+      "step": 12000
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.6926913261413574,
+      "eval_runtime": 14.5585,
+      "eval_samples_per_second": 68.688,
+      "eval_steps_per_second": 34.344,
+      "step": 12000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.000375,
+      "loss": 0.5519,
+      "step": 12500
+    },
+    {
+      "epoch": 1.57,
+      "eval_loss": 0.6763409972190857,
+      "eval_runtime": 14.6685,
+      "eval_samples_per_second": 68.173,
+      "eval_steps_per_second": 34.087,
+      "step": 12500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.00035,
+      "loss": 0.5324,
+      "step": 13000
+    },
+    {
+      "epoch": 1.64,
+      "eval_loss": 0.6778369545936584,
+      "eval_runtime": 17.3898,
+      "eval_samples_per_second": 57.505,
+      "eval_steps_per_second": 28.753,
+      "step": 13000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00032500000000000004,
+      "loss": 0.5272,
+      "step": 13500
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.6725330948829651,
+      "eval_runtime": 14.6869,
+      "eval_samples_per_second": 68.088,
+      "eval_steps_per_second": 34.044,
+      "step": 13500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0003,
+      "loss": 0.5258,
+      "step": 14000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.6668800115585327,
+      "eval_runtime": 15.0231,
+      "eval_samples_per_second": 66.564,
+      "eval_steps_per_second": 33.282,
+      "step": 14000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.000275,
+      "loss": 0.5229,
+      "step": 14500
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 0.6599903106689453,
+      "eval_runtime": 14.6661,
+      "eval_samples_per_second": 68.184,
+      "eval_steps_per_second": 34.092,
+      "step": 14500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00025,
+      "loss": 0.5386,
+      "step": 15000
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.659939706325531,
+      "eval_runtime": 14.6708,
+      "eval_samples_per_second": 68.163,
+      "eval_steps_per_second": 34.081,
+      "step": 15000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 20000,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "total_flos": 9.418761150170112e+16,
+  "trial_name": null,
+  "trial_params": null
+}

{archived/checkpoint-10000 → function-base/checkpoint-15000}/training_args.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92133b734236cd14623f5f32d7dac13646e59db8ee0cae12878e084143f07cb4
 size 4219

 version https://git-lfs.github.com/spec/v1
+oid sha256:82ea3910cc2b6cda26544c9471813d33e4dddc44d4ed360de38519e745497679
 size 4219

function-base/checkpoint-20000/config.json ADDED Viewed

	@@ -0,0 +1,62 @@

+{
+  "_name_or_path": "google/flan-t5-base",
+  "architectures": [
+    "FiDT5"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.1",
+  "use_cache": true,
+  "vocab_size": 32128
+}