adityarajkishan
/

ImageCaptioningTransformers

@@ -1,9 +1,11 @@
 {
   "architectures": [
     "VisionEncoderDecoderModel"
   ],
   "decoder": {
-    "_name_or_path": "gpt2",
     "activation_function": "gelu_new",
     "add_cross_attention": true,
     "architectures": [
@@ -11,18 +13,16 @@
     ],
     "attn_pdrop": 0.1,
     "bad_words_ids": null,
-    "begin_suppress_tokens": null,
     "bos_token_id": 50256,
     "chunk_size_feed_forward": 0,
     "cross_attention_hidden_size": null,
-    "decoder_start_token_id": null,
     "diversity_penalty": 0.0,
     "do_sample": false,
     "early_stopping": false,
     "embd_pdrop": 0.1,
     "encoder_no_repeat_ngram_size": 0,
     "eos_token_id": 50256,
-    "exponential_decay_length_penalty": null,
     "finetuning_task": null,
     "forced_bos_token_id": null,
     "forced_eos_token_id": null,
@@ -55,7 +55,7 @@
     "output_attentions": false,
     "output_hidden_states": false,
     "output_scores": false,
-    "pad_token_id": null,
     "prefix": null,
     "problem_type": null,
     "pruned_heads": {},
@@ -73,7 +73,6 @@
     "summary_proj_to_labels": true,
     "summary_type": "cls_index",
     "summary_use_proj": true,
-    "suppress_tokens": null,
     "task_specific_params": {
       "text-generation": {
         "do_sample": true,
@@ -81,7 +80,6 @@
       }
     },
     "temperature": 1.0,
-    "tf_legacy_loss": false,
     "tie_encoder_decoder": false,
     "tie_word_embeddings": true,
     "tokenizer_class": null,
@@ -89,21 +87,20 @@
     "top_p": 1.0,
     "torch_dtype": null,
     "torchscript": false,
-    "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
     "vocab_size": 50257
   },
   "decoder_start_token_id": 50256,
   "encoder": {
-    "_name_or_path": "google/vit-base-patch16-224-in21k",
     "add_cross_attention": false,
     "architectures": [
       "ViTModel"
     ],
     "attention_probs_dropout_prob": 0.0,
     "bad_words_ids": null,
-    "begin_suppress_tokens": null,
     "bos_token_id": null,
     "chunk_size_feed_forward": 0,
     "cross_attention_hidden_size": null,
@@ -112,9 +109,7 @@
     "do_sample": false,
     "early_stopping": false,
     "encoder_no_repeat_ngram_size": 0,
-    "encoder_stride": 16,
     "eos_token_id": null,
-    "exponential_decay_length_penalty": null,
     "finetuning_task": null,
     "forced_bos_token_id": null,
     "forced_eos_token_id": null,
@@ -160,10 +155,8 @@
     "return_dict": true,
     "return_dict_in_generate": false,
     "sep_token_id": null,
-    "suppress_tokens": null,
     "task_specific_params": null,
     "temperature": 1.0,
-    "tf_legacy_loss": false,
     "tie_encoder_decoder": false,
     "tie_word_embeddings": true,
     "tokenizer_class": null,
@@ -171,7 +164,7 @@
     "top_p": 1.0,
     "torch_dtype": null,
     "torchscript": false,
-    "typical_p": 1.0,
     "use_bfloat16": false
   },
   "eos_token_id": 50256,
@@ -180,5 +173,5 @@
   "pad_token_id": 50256,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.35.2"
 }

 {
+  "_name_or_path": "vit-gpt-pt",
   "architectures": [
     "VisionEncoderDecoderModel"
   ],
+  "bos_token_id": 50256,
   "decoder": {
+    "_name_or_path": "",
     "activation_function": "gelu_new",
     "add_cross_attention": true,
     "architectures": [
     ],
     "attn_pdrop": 0.1,
     "bad_words_ids": null,
     "bos_token_id": 50256,
     "chunk_size_feed_forward": 0,
     "cross_attention_hidden_size": null,
+    "decoder_start_token_id": 50256,
     "diversity_penalty": 0.0,
     "do_sample": false,
     "early_stopping": false,
     "embd_pdrop": 0.1,
     "encoder_no_repeat_ngram_size": 0,
     "eos_token_id": 50256,
     "finetuning_task": null,
     "forced_bos_token_id": null,
     "forced_eos_token_id": null,
     "output_attentions": false,
     "output_hidden_states": false,
     "output_scores": false,
+    "pad_token_id": 50256,
     "prefix": null,
     "problem_type": null,
     "pruned_heads": {},
     "summary_proj_to_labels": true,
     "summary_type": "cls_index",
     "summary_use_proj": true,
     "task_specific_params": {
       "text-generation": {
         "do_sample": true,
       }
     },
     "temperature": 1.0,
     "tie_encoder_decoder": false,
     "tie_word_embeddings": true,
     "tokenizer_class": null,
     "top_p": 1.0,
     "torch_dtype": null,
     "torchscript": false,
+    "transformers_version": "4.15.0",
     "use_bfloat16": false,
     "use_cache": true,
     "vocab_size": 50257
   },
   "decoder_start_token_id": 50256,
   "encoder": {
+    "_name_or_path": "",
     "add_cross_attention": false,
     "architectures": [
       "ViTModel"
     ],
     "attention_probs_dropout_prob": 0.0,
     "bad_words_ids": null,
     "bos_token_id": null,
     "chunk_size_feed_forward": 0,
     "cross_attention_hidden_size": null,
     "do_sample": false,
     "early_stopping": false,
     "encoder_no_repeat_ngram_size": 0,
     "eos_token_id": null,
     "finetuning_task": null,
     "forced_bos_token_id": null,
     "forced_eos_token_id": null,
     "return_dict": true,
     "return_dict_in_generate": false,
     "sep_token_id": null,
     "task_specific_params": null,
     "temperature": 1.0,
     "tie_encoder_decoder": false,
     "tie_word_embeddings": true,
     "tokenizer_class": null,
     "top_p": 1.0,
     "torch_dtype": null,
     "torchscript": false,
+    "transformers_version": "4.15.0",
     "use_bfloat16": false
   },
   "eos_token_id": 50256,
   "pad_token_id": 50256,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": null
 }