arminmrm93
/

kaggle_qa_model

Multiple Choice

Transformers

TensorFlow

distilbert

generated_from_keras_callback

Inference Endpoints

Model card Files Files and versions Community

arminmrm93 commited on Oct 10, 2023

Commit

fa3ef22

1 Parent(s): da8f2f2

Upload TFDistilBertForMultipleChoice

Browse files

Files changed (3) hide show

README.md +6 -17
config.json +14 -16
tf_model.h5 +2 -2

README.md CHANGED Viewed

@@ -1,25 +1,21 @@
 ---
 license: apache-2.0
-base_model: bert-base-uncased
 tags:
 - generated_from_keras_callback
 model-index:
-- name: arminmrm93/kaggle_qa_model
   results: []
 ---
 <!-- This model card has been generated automatically according to the information Keras had access to. You should
 probably proofread and complete it, then remove this comment. -->
-# arminmrm93/kaggle_qa_model
-This model is a fine-tuned version of [bert-base-uncased](https://huggingface.co/bert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Train Loss: 1.6112
-- Train Accuracy: 0.455
-- Validation Loss: 1.6094
-- Validation Accuracy: 0.4550
-- Epoch: 4
 ## Model description
@@ -38,18 +34,11 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- optimizer: {'name': 'Adam', 'weight_decay': None, 'clipnorm': None, 'global_clipnorm': None, 'clipvalue': None, 'use_ema': False, 'ema_momentum': 0.99, 'ema_overwrite_frequency': None, 'jit_compile': True, 'is_legacy_optimizer': False, 'learning_rate': {'module': 'keras.optimizers.schedules', 'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 0.0006103840571684032, 'decay_steps': 100, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}, 'registered_name': None}, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False}
 - training_precision: float32
 ### Training results
-| Train Loss | Train Accuracy | Validation Loss | Validation Accuracy | Epoch |
-|:----------:|:--------------:|:---------------:|:-------------------:|:-----:|
-| 1.6365     | 0.465          | 1.6094          | 0.4650              | 0     |
-| 1.6167     | 0.455          | 1.6094          | 0.4550              | 1     |
-| 1.6238     | 0.455          | 1.6094          | 0.4550              | 2     |
-| 1.6132     | 0.455          | 1.6094          | 0.4550              | 3     |
-| 1.6112     | 0.455          | 1.6094          | 0.4550              | 4     |
 ### Framework versions

 ---
 license: apache-2.0
+base_model: distilbert-base-uncased
 tags:
 - generated_from_keras_callback
 model-index:
+- name: kaggle_qa_model
   results: []
 ---
 <!-- This model card has been generated automatically according to the information Keras had access to. You should
 probably proofread and complete it, then remove this comment. -->
+# kaggle_qa_model
+This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- optimizer: {'name': 'Adam', 'weight_decay': None, 'clipnorm': None, 'global_clipnorm': None, 'clipvalue': None, 'use_ema': False, 'ema_momentum': 0.99, 'ema_overwrite_frequency': None, 'jit_compile': True, 'is_legacy_optimizer': False, 'learning_rate': {'module': 'keras.optimizers.schedules', 'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 5e-05, 'decay_steps': 150, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}, 'registered_name': None}, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False}
 - training_precision: float32
 ### Training results
 ### Framework versions

config.json CHANGED Viewed

@@ -1,25 +1,23 @@
 {
-  "_name_or_path": "bert-base-uncased",
   "architectures": [
-    "BertForMultipleChoice"
   ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "gradient_checkpointing": false,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
   "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
   "pad_token_id": 0,
-  "position_embedding_type": "absolute",
   "transformers_version": "4.34.0",
-  "type_vocab_size": 2,
-  "use_cache": true,
   "vocab_size": 30522
 }

 {
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
   "architectures": [
+    "DistilBertForMultipleChoice"
   ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
   "initializer_range": 0.02,
   "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
   "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
   "transformers_version": "4.34.0",
   "vocab_size": 30522
 }

tf_model.h5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60ba0625f32dc0dd1a9d06f5d5ce40e5c02895c3edbc915876f56e34831e044e
-size 438203668

 version https://git-lfs.github.com/spec/v1
+oid sha256:281541c4894b89802ce99618345b520737372c283926dfcdc50608c5899faf0f
+size 267948736