End of training

Browse files

Files changed (7) hide show

README.md +7 -7
config.json +7 -36
generation_config.json +1 -1
logs/events.out.tfevents.1710315784.devi.305254.0 +3 -0
model.safetensors +2 -2
tokenizer_config.json +0 -7
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 license: apache-2.0
-base_model: google/flan-t5-base
 tags:
 - generated_from_trainer
 model-index:
@@ -13,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 # model
-This model is a fine-tuned version of [google/flan-t5-base](https://huggingface.co/google/flan-t5-base) on the None dataset.
 ## Model description
@@ -33,12 +33,12 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0005
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 10
 ### Training results
@@ -46,7 +46,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.37.2
-- Pytorch 2.1.0+cu121
 - Datasets 2.17.1
 - Tokenizers 0.15.2

 ---
 license: apache-2.0
+base_model: google/flan-t5-large
 tags:
 - generated_from_trainer
 model-index:
 # model
+This model is a fine-tuned version of [google/flan-t5-large](https://huggingface.co/google/flan-t5-large) on the None dataset.
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 0.0005
+- train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 4
 ### Training results
 ### Framework versions
+- Transformers 4.38.1
+- Pytorch 2.2.1+cu121
 - Datasets 2.17.1
 - Tokenizers 0.15.2

config.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-  "_name_or_path": "google/flan-t5-base",
   "architectures": [
     "T5ForConditionalGeneration"
   ],
   "classifier_dropout": 0.0,
-  "d_ff": 2048,
   "d_kv": 64,
-  "d_model": 768,
   "decoder_start_token_id": 0,
   "dense_act_fn": "gelu_new",
   "dropout_rate": 0.1,
@@ -18,45 +18,16 @@
   "layer_norm_epsilon": 1e-06,
   "model_type": "t5",
   "n_positions": 512,
-  "num_decoder_layers": 12,
-  "num_heads": 12,
-  "num_layers": 12,
   "output_past": true,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
-  "task_specific_params": {
-    "summarization": {
-      "early_stopping": true,
-      "length_penalty": 2.0,
-      "max_length": 200,
-      "min_length": 30,
-      "no_repeat_ngram_size": 3,
-      "num_beams": 4,
-      "prefix": "summarize: "
-    },
-    "translation_en_to_de": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to German: "
-    },
-    "translation_en_to_fr": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to French: "
-    },
-    "translation_en_to_ro": {
-      "early_stopping": true,
-      "max_length": 300,
-      "num_beams": 4,
-      "prefix": "translate English to Romanian: "
-    }
-  },
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.37.2",
   "use_cache": true,
   "vocab_size": 32128
 }

 {
+  "_name_or_path": "google/flan-t5-large",
   "architectures": [
     "T5ForConditionalGeneration"
   ],
   "classifier_dropout": 0.0,
+  "d_ff": 2816,
   "d_kv": 64,
+  "d_model": 1024,
   "decoder_start_token_id": 0,
   "dense_act_fn": "gelu_new",
   "dropout_rate": 0.1,
   "layer_norm_epsilon": 1e-06,
   "model_type": "t5",
   "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
   "output_past": true,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,
   "relative_attention_num_buckets": 32,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.38.1",
   "use_cache": true,
   "vocab_size": 32128
 }

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
-  "transformers_version": "4.37.2"
 }

   "decoder_start_token_id": 0,
   "eos_token_id": 1,
   "pad_token_id": 0,
+  "transformers_version": "4.38.1"
 }

logs/events.out.tfevents.1710315784.devi.305254.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7880a90ffb0bfa82157214111c454f7dd38901c894d02b6f3497f2394f30cf88
+size 5989

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7986a098d3918ddf468a2e09f20d35666582f40c27dbc6090e4cd6c777aa7d2
-size 990345064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c8c68939773c650895101be528bd854196876e203346558e1203efc780f499b
+size 3132668808

tokenizer_config.json CHANGED Viewed

@@ -930,16 +930,9 @@
   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "extra_ids": 100,
-  "max_length": 7,
   "model_max_length": 512,
-  "pad_to_multiple_of": null,
   "pad_token": "<pad>",
-  "pad_token_type_id": 0,
-  "padding_side": "right",
   "sp_model_kwargs": {},
-  "stride": 0,
   "tokenizer_class": "T5Tokenizer",
-  "truncation_side": "right",
-  "truncation_strategy": "longest_first",
   "unk_token": "<unk>"
 }

   "clean_up_tokenization_spaces": true,
   "eos_token": "</s>",
   "extra_ids": 100,
   "model_max_length": 512,
   "pad_token": "<pad>",
   "sp_model_kwargs": {},
   "tokenizer_class": "T5Tokenizer",
   "unk_token": "<unk>"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7cc7887b932d1cd8a641005ba327d392d8f47b9ecb467482b336c0e93e1f1b11
-size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4116cd5feb5028c4a2f3344520ae85965c5770a7e9b40090343211af8cf1ad9
+size 5048