Training in progress, step 125

Files changed (5) hide show

config.json CHANGED Viewed

@@ -3,8 +3,10 @@
   "architectures": [
     "MistralForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
   "hidden_size": 768,
   "initializer_range": 0.02,
@@ -19,7 +21,7 @@
   "sliding_window": 768,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
-  "transformers_version": "4.35.2",
   "use_cache": true,
   "vocab_size": 32000
 }

   "architectures": [
     "MistralForCausalLM"
   ],
+  "attention_dropout": 0.0,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "head_dim": 48,
   "hidden_act": "silu",
   "hidden_size": 768,
   "initializer_range": 0.02,
   "sliding_window": 768,
   "tie_word_embeddings": false,
   "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
   "use_cache": true,
   "vocab_size": 32000
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8286eb4edb5f3926f382a3897d1f8eb47fab7695a7e389a2a47d4618657a74c4
 size 338197712

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebb33abf93ee40404c3303f7c7de4b1a4f76f60ea0a4cd7bed57cb2ecb391a07
 size 338197712

tokenizer.json CHANGED Viewed

@@ -36,23 +36,13 @@
       "special": true
     }
   ],
-  "normalizer": {
-    "type": "Sequence",
-    "normalizers": [
-      {
-        "type": "Prepend",
-        "prepend": "▁"
-      },
-      {
-        "type": "Replace",
-        "pattern": {
-          "String": " "
-        },
-        "content": "▁"
-      }
-    ]
   },
-  "pre_tokenizer": null,
   "post_processor": {
     "type": "TemplateProcessing",
     "single": [
@@ -139,6 +129,7 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

       "special": true
     }
   ],
+  "normalizer": null,
+  "pre_tokenizer": {
+    "type": "Metaspace",
+    "replacement": "▁",
+    "prepend_scheme": "first",
+    "split": false
   },
   "post_processor": {
     "type": "TemplateProcessing",
     "single": [
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
+    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,7 @@
 {
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",
@@ -29,8 +32,8 @@
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
-  "legacy": true,
-  "max_length": 30000,
   "model_max_length": 1000000000000000019884624838656,
   "pad_to_multiple_of": null,
   "pad_token": "</s>",
@@ -38,7 +41,10 @@
   "padding_side": "left",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": "<unk>",
   "use_default_system_prompt": false
 }

 {
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",
   "bos_token": "<s>",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
+  "legacy": false,
+  "max_length": 512,
   "model_max_length": 1000000000000000019884624838656,
   "pad_to_multiple_of": null,
   "pad_token": "</s>",
   "padding_side": "left",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
+  "stride": 0,
   "tokenizer_class": "LlamaTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
   "unk_token": "<unk>",
   "use_default_system_prompt": false
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed223478ce6e7fdecdb7ca00270a13bf737d4cb94f118b7238740f15ae576b6e
-size 4536

 version https://git-lfs.github.com/spec/v1
+oid sha256:715ac413a238a890a767d1af2d51cb6076befa8e0ae7024302e13aeaa1dd1341
+size 5432