diff --git a/.gitattributes b/.gitattributes
new file mode 100644
index 0000000000000000000000000000000000000000..a6344aac8c09253b3b630fb776ae94478aa0275b
--- /dev/null
+++ b/.gitattributes
@@ -0,0 +1,35 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
diff --git a/config.json b/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..be3f78f392e9de4aa2e9fe2995183be82f446566
--- /dev/null
+++ b/config.json
@@ -0,0 +1,30 @@
+{
+  "_name_or_path": "/NFS/models/mistralai/Mixtral-8x7B-Instruct-v0.1",
+  "architectures": [
+    "MixtralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 32768,
+  "model_type": "mixtral",
+  "num_attention_heads": 32,
+  "num_experts_per_tok": 2,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "num_local_experts": 8,
+  "output_router_logits": false,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 1000000.0,
+  "router_aux_loss_coef": 0.02,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.36.2",
+  "use_cache": true,
+  "vocab_size": 32000
+}
diff --git a/generation_config.json b/generation_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..c533f934c6359393a56a3ea067a0df118c14797e
--- /dev/null
+++ b/generation_config.json
@@ -0,0 +1,6 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.36.2"
+}
diff --git a/pytorch_model-00001-of-00098.bin b/pytorch_model-00001-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..afd1d2eaedc0bb2c60f76d9e55611a2d0d6b7743
--- /dev/null
+++ b/pytorch_model-00001-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3c2c0476a2f2f33538300d96d608294aa5062fd1b9285fa2c8465aaca863b1d3
+size 933302768
diff --git a/pytorch_model-00002-of-00098.bin b/pytorch_model-00002-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4955cb9e8b6c54cc146c1703b08dd2a177f01773
--- /dev/null
+++ b/pytorch_model-00002-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:248ebc6d41a163305f6f9d088a02264130ce16f25bca3ca8dd95bb4076e15a1f
+size 939527804
diff --git a/pytorch_model-00003-of-00098.bin b/pytorch_model-00003-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..afe08669b24f518f735db8d6042185379eeb2402
--- /dev/null
+++ b/pytorch_model-00003-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:180025e77c6c8e8bf84abb3579fb665411c0c7e09dea7757e1a42cce1d4fce1e
+size 939527804
diff --git a/pytorch_model-00004-of-00098.bin b/pytorch_model-00004-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..b2e98cab1f75f3697acfee4b060765f672cb3dac
--- /dev/null
+++ b/pytorch_model-00004-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:015b464d5d85902b1f256da917a0ce025427c10350433d59d59c006f497c7552
+size 906057190
diff --git a/pytorch_model-00005-of-00098.bin b/pytorch_model-00005-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..2bbcbedc51b58144bd43f4ba03c44462ca598ab9
--- /dev/null
+++ b/pytorch_model-00005-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3e6737993b044fd550ec4a9a496faeac60a80e4179b2269fb7262ef248a6ddc
+size 939527804
diff --git a/pytorch_model-00006-of-00098.bin b/pytorch_model-00006-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..bf379e712309a436a57184e5fe53bc199bd188ab
--- /dev/null
+++ b/pytorch_model-00006-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:be993201935c4b7f5044b2c0fc8897cbb9dc0f10a3bd67e5256540ee427bd66f
+size 939527804
diff --git a/pytorch_model-00007-of-00098.bin b/pytorch_model-00007-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..a5f9d156d1a1dca09c8a7fe6361d236c7c66b349
--- /dev/null
+++ b/pytorch_model-00007-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ca1d0d0a3d18f516625b11b986b14bcf7a71f9e145cea3dd7a7ea14bffa64cd1
+size 906057190
diff --git a/pytorch_model-00008-of-00098.bin b/pytorch_model-00008-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..34658481076025d013d7a92f43201e2af785d0a9
--- /dev/null
+++ b/pytorch_model-00008-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6c0807aa215d79d55096ed321ecc7fbc86467d8e5e09b880ac4def317284acfe
+size 939527804
diff --git a/pytorch_model-00009-of-00098.bin b/pytorch_model-00009-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..f339a028cc8554d52d51a91ebc1c7b75212765fe
--- /dev/null
+++ b/pytorch_model-00009-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:11f769117df63150808e8662d48bcdd3c19afd2695cccb7f72f69465d4026d90
+size 939527804
diff --git a/pytorch_model-00010-of-00098.bin b/pytorch_model-00010-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..b92b078722e0409a2895bdcd164993d1e7ca78a5
--- /dev/null
+++ b/pytorch_model-00010-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:25066bd2de14ca157fc2d55275a87c5135f243838b54fccae65f3a4d222f2661
+size 906057190
diff --git a/pytorch_model-00011-of-00098.bin b/pytorch_model-00011-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4c4f2d0048ed48285e5a50d11887e257925e491c
--- /dev/null
+++ b/pytorch_model-00011-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:170e8eb20b1c3b5dd67515cd660daef830cd5089e212dadf4daebf3ca4cdf016
+size 939527804
diff --git a/pytorch_model-00012-of-00098.bin b/pytorch_model-00012-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..47f6da058d66284512e51973806d6a2e3b582a14
--- /dev/null
+++ b/pytorch_model-00012-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7e319965d719370a6933d99c4ca352e66ae2231d6c97bb57d5c5f7afc1b3d85a
+size 939527804
diff --git a/pytorch_model-00014-of-00098.bin b/pytorch_model-00014-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..7416bc7a2011188df01f8f1a6d718cb7161cf03d
--- /dev/null
+++ b/pytorch_model-00014-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6068aa7a2426e384ba7ec2e56b7aa5a8b55a6478151447ee8dad6e65afd012d0
+size 939527804
diff --git a/pytorch_model-00015-of-00098.bin b/pytorch_model-00015-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..48ed56e491eca76b322c14d3e43676d8bd878bd8
--- /dev/null
+++ b/pytorch_model-00015-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:82932e07a66f68f6d9958504a8f02516cdaaeaa66a757b0c3104c19787eb3316
+size 939527804
diff --git a/pytorch_model-00016-of-00098.bin b/pytorch_model-00016-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..535bf19595affe99f965162f49ffc1f5cccf9008
--- /dev/null
+++ b/pytorch_model-00016-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9655fb9223fba76a6fdeebe737f667e193493930446fdc3efa8e5e76ab050d91
+size 906057190
diff --git a/pytorch_model-00017-of-00098.bin b/pytorch_model-00017-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..e5d883da03db73190f0365411701593f1cc77837
--- /dev/null
+++ b/pytorch_model-00017-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2b6cbcb5dd895c4af14f1aac60ffa54b9d8fca18942b8532a68996e0551c0b9c
+size 939527804
diff --git a/pytorch_model-00018-of-00098.bin b/pytorch_model-00018-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..db9d7841e1da3f0b27dcf067bf4c890a6d6c0a67
--- /dev/null
+++ b/pytorch_model-00018-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dd80ac97a16c1b7505e92ee176429f41c0d907aefeebe56f548a95aa70514d0b
+size 939527804
diff --git a/pytorch_model-00019-of-00098.bin b/pytorch_model-00019-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..bf3eb52157f2b3650d0810dda87a02a904afccde
--- /dev/null
+++ b/pytorch_model-00019-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a75613cfcad1b45790658b0ea150a88b75582a61e1c7986577dd6905158a3967
+size 989877396
diff --git a/pytorch_model-00020-of-00098.bin b/pytorch_model-00020-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..b4ecb3bcd004071b69257cbaa260d6ee77e8aae4
--- /dev/null
+++ b/pytorch_model-00020-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:756dc2aa6d324c2ccf97f5c8d4ac4f47896063862b025dbaacb0d5682c4a9835
+size 973148382
diff --git a/pytorch_model-00021-of-00098.bin b/pytorch_model-00021-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..d71ef34dccccd19fc5c74ebf02f443990d57f230
--- /dev/null
+++ b/pytorch_model-00021-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c9bb53091d9453b25f72506b567696e4164aeee97304744348be00e2dba7bfe
+size 939527804
diff --git a/pytorch_model-00022-of-00098.bin b/pytorch_model-00022-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4f14645dab9dc7e5d22cebb315aebcdeaf6ae1b8
--- /dev/null
+++ b/pytorch_model-00022-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:742b2d3fb4e723e487010ad66cd5afca0dd3ca417ab7e530ac7d9772cc4dd05a
+size 989877396
diff --git a/pytorch_model-00023-of-00098.bin b/pytorch_model-00023-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4f0b7e0bef25ffd859842ef9ef3429333c899d72
--- /dev/null
+++ b/pytorch_model-00023-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:38e9f38786f29caa36fe5db46b692740e7297e53b34cbc1c0bf6eb75bd35b159
+size 973148382
diff --git a/pytorch_model-00024-of-00098.bin b/pytorch_model-00024-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..8e6a667abf5fd9a1eeaf3cadf76aa7571a498294
--- /dev/null
+++ b/pytorch_model-00024-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:afc011c33ff4c617cb4f6aa8ba5301ec59586e95648a52d2c991546e5f06017b
+size 939527804
diff --git a/pytorch_model-00025-of-00098.bin b/pytorch_model-00025-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..18a094736655daa05b5f4e45c0d07a3674f117d8
--- /dev/null
+++ b/pytorch_model-00025-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:096bff31b851362095ab8c0fcb30b4fd666433cc194951a60ac65786f615d905
+size 989877396
diff --git a/pytorch_model-00026-of-00098.bin b/pytorch_model-00026-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..470354b0013cba2782efc0259ba40a553a25d6ba
--- /dev/null
+++ b/pytorch_model-00026-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e5cc2ec37bd9f9f672ea1caadbc070cd2c280966dfac7fc8f86ce506c2cd0b7c
+size 973148382
diff --git a/pytorch_model-00027-of-00098.bin b/pytorch_model-00027-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..58459e9a39e5b74b3f48b9d6bdfcf236852fa206
--- /dev/null
+++ b/pytorch_model-00027-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:038bba896b515d4d5ddacd3d0ed3187cf8ea9d22a1fe8b3225719ecbdbd7459e
+size 939527804
diff --git a/pytorch_model-00028-of-00098.bin b/pytorch_model-00028-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..d00801286c8252ea33b4a7afabef24462def8c0f
--- /dev/null
+++ b/pytorch_model-00028-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:02fdae8ba9625a9f705eb90a5bcc5fb49239ffa51b10891f9bc2dc182d216c7b
+size 989877396
diff --git a/pytorch_model-00029-of-00098.bin b/pytorch_model-00029-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..cbc018b7ef09d90da8260ee9596e19f1bf6c5fb5
--- /dev/null
+++ b/pytorch_model-00029-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:62568fc189b93d61653aa14bc83f9799a69df10701af5045969ee959ea486dfd
+size 973148382
diff --git a/pytorch_model-00030-of-00098.bin b/pytorch_model-00030-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..2a9bca200d536114f1ae036c74e6789b2a4ba9a3
--- /dev/null
+++ b/pytorch_model-00030-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:83f04304aed095bc0af09c471deb33e0eadec7ac7559f55f039854262e27886f
+size 939527804
diff --git a/pytorch_model-00031-of-00098.bin b/pytorch_model-00031-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..e0e8d58672f37115e6f41b2049d1d16164f13f2c
--- /dev/null
+++ b/pytorch_model-00031-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9adffdf2e0189319c8c97d1cd04fcca208c1cea509598560ef3e7697748b0cbd
+size 989877396
diff --git a/pytorch_model-00032-of-00098.bin b/pytorch_model-00032-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..0f62f6cfc2703bec9844f4bef7c0f54531e758d9
--- /dev/null
+++ b/pytorch_model-00032-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f4466c099fb62237641d8d3e7eb8ecc9db88ebef3a7aa2354d917c25c78d454e
+size 973148446
diff --git a/pytorch_model-00033-of-00098.bin b/pytorch_model-00033-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..dbf788c1cd9b17144163fe16ece4187847781e9e
--- /dev/null
+++ b/pytorch_model-00033-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c8ab55eda2b1d6df2c516631b781aa447043265026506e63df9088312a3e0f49
+size 939527804
diff --git a/pytorch_model-00034-of-00098.bin b/pytorch_model-00034-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4707a7183275324296cc1c20c22737db93bc9ed7
--- /dev/null
+++ b/pytorch_model-00034-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2fae83b39f6f649b08af841c344a55f1a2d6ee4f826cbd1449776d56a94b873a
+size 989877396
diff --git a/pytorch_model-00035-of-00098.bin b/pytorch_model-00035-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..6a3a9dee71372bda2f06c1a88232ad7b1464cc11
--- /dev/null
+++ b/pytorch_model-00035-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:cec83f6c391a41c94e8a0793724d0248e25d0ec5d437e269112526bf81bce416
+size 973148446
diff --git a/pytorch_model-00036-of-00098.bin b/pytorch_model-00036-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..7efb4ea358558657c7fd05e8831e0278f1f16030
--- /dev/null
+++ b/pytorch_model-00036-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3b5e7fc20db845f94f4c05af70af5d1e34a1da0657328e7086a9d473537d477
+size 939527804
diff --git a/pytorch_model-00037-of-00098.bin b/pytorch_model-00037-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..a230c226c320b08e24ec6d253fefeb566f590a00
--- /dev/null
+++ b/pytorch_model-00037-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:da4fc8c7f2f8a0b04b3be1fd34325e1b84eeb6ba0d87a573971ec733bcd261cf
+size 989877396
diff --git a/pytorch_model-00038-of-00098.bin b/pytorch_model-00038-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..7743fef2aaf46a32f6d11056f07f8680b5422bf7
--- /dev/null
+++ b/pytorch_model-00038-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7a755ac7ee34f34e1067ccea7111f3dd6f89253f0ae4100f05af2adb2b45f21
+size 973148446
diff --git a/pytorch_model-00039-of-00098.bin b/pytorch_model-00039-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4ff1f1191ec58494c931652c89158e7da800d0db
--- /dev/null
+++ b/pytorch_model-00039-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e90480d963210881d8f771eff6da71ca87b61ad379132f6441696e31ef5a63c3
+size 939527804
diff --git a/pytorch_model-00040-of-00098.bin b/pytorch_model-00040-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..25112e6cf6444b413e71e4b44419b9994bdf3ad1
--- /dev/null
+++ b/pytorch_model-00040-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6cc0f3e6ec165a4f698ee4b851b08d039e4e912d2f7cd22ea551f2a37423d35d
+size 989877396
diff --git a/pytorch_model-00041-of-00098.bin b/pytorch_model-00041-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4abde22df08729959c109d1529b22e89bdce8e58
--- /dev/null
+++ b/pytorch_model-00041-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1182ef8f7e069b17a62e0199e8bc609686e6980795893cb37d83aecfbba4ed0a
+size 973148446
diff --git a/pytorch_model-00042-of-00098.bin b/pytorch_model-00042-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..a2bf3d99c5949f3c7003f7f23deb518fd8208765
--- /dev/null
+++ b/pytorch_model-00042-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e00f41dcf8fd09c95c75d1cc3d473e6a03ff4ac3020e5621654d413f859e752c
+size 939527804
diff --git a/pytorch_model-00043-of-00098.bin b/pytorch_model-00043-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..cc5464cbdee8f645b52ed8ad43efcea858e1191b
--- /dev/null
+++ b/pytorch_model-00043-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:366327a3333be2572a1be038d7779f566247ffa7c14e37945c7a3ec5851e149a
+size 989877396
diff --git a/pytorch_model-00044-of-00098.bin b/pytorch_model-00044-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..d1bb0cd61215ada4d31d7a316c34f7a800e334e1
--- /dev/null
+++ b/pytorch_model-00044-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d16ccd90827329155dd8d1d21f2c3f1f33bb27cfd89ed73a409ea6d5b4b12e12
+size 973148446
diff --git a/pytorch_model-00045-of-00098.bin b/pytorch_model-00045-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..1d0556306edaedfe86de9a11e2d990dbf86187bc
--- /dev/null
+++ b/pytorch_model-00045-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:aeb1b1b70afea85431be52135c85de4f5a2d2ad7319de7aab30ce5dbfc5d720a
+size 939527804
diff --git a/pytorch_model-00046-of-00098.bin b/pytorch_model-00046-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..5326cff0e5399d2f639ef9d3f5a5949fd49d59ba
--- /dev/null
+++ b/pytorch_model-00046-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4cee3222e9623c3d0c5123d945d5f5b64d6c0d02f834628d4432752970ac1da9
+size 989877396
diff --git a/pytorch_model-00047-of-00098.bin b/pytorch_model-00047-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..1d7b4ccccdf085871051fcb08e5148b547c5fd29
--- /dev/null
+++ b/pytorch_model-00047-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61768c9d3f0f9db76ea536cd96f27fda8378c661913144f9c1137e28f0850e23
+size 973148446
diff --git a/pytorch_model-00048-of-00098.bin b/pytorch_model-00048-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..d44557bd88f2cc79a25908298031bbd8b4ef2b5e
--- /dev/null
+++ b/pytorch_model-00048-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d215ce5248d72d8e1950190873b4469e8dfb630d44f392276069174d2e15633
+size 939527804
diff --git a/pytorch_model-00049-of-00098.bin b/pytorch_model-00049-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..1ef051ab596cfaa47772eae50adaf6860b4429e2
--- /dev/null
+++ b/pytorch_model-00049-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1303687f40429bbe106ac5ce784c0f82b6cf8ae1261f9ed4713442737e1fab66
+size 989877396
diff --git a/pytorch_model-00050-of-00098.bin b/pytorch_model-00050-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..df78383b36f777d264c7f0729bd5fe419b13df24
--- /dev/null
+++ b/pytorch_model-00050-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:981bc07ca79e978dea6e2b97bbc2d66243a97f1ffd620c5ccf07491c4fd7505f
+size 973148446
diff --git a/pytorch_model-00051-of-00098.bin b/pytorch_model-00051-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..eb6c36d7e215877641adfbb72307415bec2b79ad
--- /dev/null
+++ b/pytorch_model-00051-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d0e0a571650d460bc8d7413e7451b8589b6d504ae175f0b32a412460d14fbe08
+size 939527804
diff --git a/pytorch_model-00052-of-00098.bin b/pytorch_model-00052-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..54a6f6563876dc341b81d6e2d0cf3fd81a07bef9
--- /dev/null
+++ b/pytorch_model-00052-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5b648eb704c7c5696e237bae522c14c689b688015e583969b4f12e6ca9a971af
+size 989877396
diff --git a/pytorch_model-00053-of-00098.bin b/pytorch_model-00053-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..58e9519b18cba2efdaaba76eabe5d3abbf13106d
--- /dev/null
+++ b/pytorch_model-00053-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b2680ca03014884b2ad0f490f99e3c4044a55a26b0335e921636d4bcf6d890
+size 973148446
diff --git a/pytorch_model-00054-of-00098.bin b/pytorch_model-00054-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4cdd434e023ae65f91245f14c5118486409519f0
--- /dev/null
+++ b/pytorch_model-00054-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f26009c2ce221acf8207d7d226dbdf8fe68630cc2fd5ac3c3a3d6eaec7d54d9
+size 939527804
diff --git a/pytorch_model-00055-of-00098.bin b/pytorch_model-00055-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..ac7470c95f2f40f01eef018cae6f8c477131e64d
--- /dev/null
+++ b/pytorch_model-00055-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8a63012b0caa1efe6d00d42d923f3b63830bb0f2f55d37ed6747f2bc46f19730
+size 989877396
diff --git a/pytorch_model-00056-of-00098.bin b/pytorch_model-00056-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..6a61e40be6ca5bed548ec2b90ee51b7c94235dda
--- /dev/null
+++ b/pytorch_model-00056-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fc0b5f5ff135c866c0899a3394d3427e6ad3feaf7eb2eb2adfcbd1bec6f39c2d
+size 973148446
diff --git a/pytorch_model-00057-of-00098.bin b/pytorch_model-00057-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..f6b9a52792499c74dbb6dbce6cb17c53506c018b
--- /dev/null
+++ b/pytorch_model-00057-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:095265645db43b4aabee0d71181d17bbca25f3ce9e2ad0824187a8b440a422b3
+size 939527804
diff --git a/pytorch_model-00058-of-00098.bin b/pytorch_model-00058-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..458944760b31fad1d622126896d3afcbea4e52c6
--- /dev/null
+++ b/pytorch_model-00058-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c7a3591f7cbbf013ccb8c46df70d3397a28cc8d8e85ee8ed60789f772a8df6cd
+size 989877396
diff --git a/pytorch_model-00059-of-00098.bin b/pytorch_model-00059-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..27222688fef949defd99c8d468f23131b71408ef
--- /dev/null
+++ b/pytorch_model-00059-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f2d2221ffa951e29c1d12d8f3037d2582972e9af5fb668fa460ff3ee635a06c
+size 973148446
diff --git a/pytorch_model-00060-of-00098.bin b/pytorch_model-00060-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..cba04ad8d9104c6056096ee11698de1794254d01
--- /dev/null
+++ b/pytorch_model-00060-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:52ee8bc06fd43b219490537f368cae17207f0322692033072e7eed55845bbfbc
+size 939527804
diff --git a/pytorch_model-00061-of-00098.bin b/pytorch_model-00061-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..aecfa0c56ddf2bc11716f71ad9500dda5f62e9b1
--- /dev/null
+++ b/pytorch_model-00061-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:28c10298d61313b11b304bd8aba7d7c7fdcd3c8dc35a05cf7f806f10a627fcf1
+size 989877396
diff --git a/pytorch_model-00062-of-00098.bin b/pytorch_model-00062-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..ed9c84be0873408cd6ac3eb5379197c0135797be
--- /dev/null
+++ b/pytorch_model-00062-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f3a2b14a092d3d113398d779d1cb4849631365ed3b26c8e2cb59b1da92531d01
+size 973148446
diff --git a/pytorch_model-00063-of-00098.bin b/pytorch_model-00063-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..2d28851ee4243fe7b35f7a175825b6c67fe99452
--- /dev/null
+++ b/pytorch_model-00063-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:317c506a462ae7417d5a5ae7698c21f703c816e5992f05d52663392a7e803053
+size 939527804
diff --git a/pytorch_model-00064-of-00098.bin b/pytorch_model-00064-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..722700ad6d69e5996903235f917fbc66e8e10f77
--- /dev/null
+++ b/pytorch_model-00064-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c3f098df288a50cc66108140ba9fc49d52f9bd9b19c27eb0b99cd5dbafe08a70
+size 989877396
diff --git a/pytorch_model-00065-of-00098.bin b/pytorch_model-00065-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..36f7f41933ec98af674fbb9bff45ee9bb9e643b5
--- /dev/null
+++ b/pytorch_model-00065-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3e782e5e95e6fd7dc942f41f6ffca18bb3c355629fac2145fd9549776643c193
+size 973148446
diff --git a/pytorch_model-00066-of-00098.bin b/pytorch_model-00066-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..a9e41c4912543e69c19989a63f3e84991d9451f2
--- /dev/null
+++ b/pytorch_model-00066-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6913cbc98fec31d9b4afefb508a8574d499d3c98be9301a68ac0c307696b7ba6
+size 939527804
diff --git a/pytorch_model-00067-of-00098.bin b/pytorch_model-00067-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..62526854d840f9d3de5fc21ea87ccd3f7937b813
--- /dev/null
+++ b/pytorch_model-00067-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dcec5ee396e98875b34926a97346b823575edc8c02265d37a9f25e43a16941f5
+size 989877396
diff --git a/pytorch_model-00068-of-00098.bin b/pytorch_model-00068-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..223533a18e584a00fd8db228ab084c9b7e75695c
--- /dev/null
+++ b/pytorch_model-00068-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0fcc4e7522d882a04a8d52b29452852bc3594ccf4d401b5d74471464be5b0ebf
+size 973148446
diff --git a/pytorch_model-00069-of-00098.bin b/pytorch_model-00069-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..fe9e3dd7d6867a5a8f75054bacbe4a3fe08d7bd8
--- /dev/null
+++ b/pytorch_model-00069-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:edd8c3cdd0b57b83efa40b02a1c4d6a26815d4242124cedce4c161d7de02a5e2
+size 939527804
diff --git a/pytorch_model-00070-of-00098.bin b/pytorch_model-00070-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..461223a8730c1f54c8538f247fd936e09fc923b6
--- /dev/null
+++ b/pytorch_model-00070-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d73bc017950ed64a1353d6d5959f56240da0a0a1ff6ced575e115647f3a641be
+size 989877396
diff --git a/pytorch_model-00071-of-00098.bin b/pytorch_model-00071-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..6e83f5f4720eaf8d9a4b443128b0fcd7b952d661
--- /dev/null
+++ b/pytorch_model-00071-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:feab95ed3214dc1d3a0d848811298cfcfaf1c85daf6b833b5623bf4bb8232fb1
+size 973148446
diff --git a/pytorch_model-00072-of-00098.bin b/pytorch_model-00072-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..59aadeb5774866fe83f83aba14b2db84bfc21575
--- /dev/null
+++ b/pytorch_model-00072-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:946d775116b6971c728258b545423a84eaf545418545841562ae53e94dcebe36
+size 939527804
diff --git a/pytorch_model-00073-of-00098.bin b/pytorch_model-00073-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..8fafa9df29839f8b152aaa2db05b7165a91949f6
--- /dev/null
+++ b/pytorch_model-00073-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:792b75b4d333a767a40aa9fc1ac064b67cff80d259da8aa1ca0435cc3e1eb37e
+size 989877396
diff --git a/pytorch_model-00074-of-00098.bin b/pytorch_model-00074-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4d3b7856c9b498776c9e141262034a61bec37a0f
--- /dev/null
+++ b/pytorch_model-00074-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:3a8a9ebdd5a5ae74fabd9855cecd98b416a6904ae38ae5a329c22f3f08162bda
+size 973148446
diff --git a/pytorch_model-00075-of-00098.bin b/pytorch_model-00075-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..264fcabff5407bbdc465b12247f4fccbe74d1873
--- /dev/null
+++ b/pytorch_model-00075-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2954a57c2777b80eab984b7c758039d7c4902e88ea347d6ce4d0fc57cc7add1c
+size 939527804
diff --git a/pytorch_model-00076-of-00098.bin b/pytorch_model-00076-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..41526a7774010104b24f838ab8537725e3894c1c
--- /dev/null
+++ b/pytorch_model-00076-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:12ffe17e5dd610c7f92cbf25b36cd1fe769fa7138b7c024c257a67eb411dbd4f
+size 989877396
diff --git a/pytorch_model-00077-of-00098.bin b/pytorch_model-00077-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..e7a6abf4b2cadc20c7bd6cabac2e1c1777cfc54d
--- /dev/null
+++ b/pytorch_model-00077-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bbac5a030cfa2f241be8d8dad4a67ad7de3bbddbfeb9cf7b0b9e581538011f12
+size 973148446
diff --git a/pytorch_model-00078-of-00098.bin b/pytorch_model-00078-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..06774a3bbcfaf61899870d9a96f550407062ee20
--- /dev/null
+++ b/pytorch_model-00078-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a3603bb7b7eaf62056cb95c4c188d1423c1891918ab7be7cb553ff700921ce7e
+size 939527804
diff --git a/pytorch_model-00079-of-00098.bin b/pytorch_model-00079-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..209da5cdb11dcff9ff85a76922c83c1d502637c4
--- /dev/null
+++ b/pytorch_model-00079-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1a3b140a9b15f39ecd0ff398aab43017129ca6fd2544f45f2f47d72b5a19e0ad
+size 989877396
diff --git a/pytorch_model-00080-of-00098.bin b/pytorch_model-00080-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..7937701ba12bf970543d40f7e4a25123a37b60d6
--- /dev/null
+++ b/pytorch_model-00080-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:60dfeb1703c207a380067ef0cfb9c0747e70f41703742d056598beeec94ab68d
+size 973148446
diff --git a/pytorch_model-00081-of-00098.bin b/pytorch_model-00081-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..13436025f92dd45bbdb5fa6c6e2a40beac3322ea
--- /dev/null
+++ b/pytorch_model-00081-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:5e8fc485ed9147edf27e81d33d7afc5269567b1438adc7cbb0dd5a0af12958ba
+size 939527804
diff --git a/pytorch_model-00082-of-00098.bin b/pytorch_model-00082-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..86b9446d1f258cf83618c2084bc8ede50f554ffe
--- /dev/null
+++ b/pytorch_model-00082-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f1e16c5a9e372a18526371696818cc02597e3e85d2b873a0084c272d4d153426
+size 989877396
diff --git a/pytorch_model-00083-of-00098.bin b/pytorch_model-00083-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..838741203bb905df23bc53b35997d12f59700181
--- /dev/null
+++ b/pytorch_model-00083-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ceabee1a774db40411abe1df1e06f58b902be660e112e0de6cf1ac4683334b77
+size 973148446
diff --git a/pytorch_model-00084-of-00098.bin b/pytorch_model-00084-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..b07d29ca1bd9fd345edbc1200d0cfcaa0e6ffbba
--- /dev/null
+++ b/pytorch_model-00084-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:0d474dbf9f3e5c8a25e7a5265970f1196bcfc985128cbf8e7aaa143d2d9c7c22
+size 939527804
diff --git a/pytorch_model-00085-of-00098.bin b/pytorch_model-00085-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..aa7c27ee3962e710ba66b60ae7f3e2b9f9847e26
--- /dev/null
+++ b/pytorch_model-00085-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:58523be91af14e753855b4528ea2c07226e694129cf4668272a58746ffb02b8a
+size 989877396
diff --git a/pytorch_model-00086-of-00098.bin b/pytorch_model-00086-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..ab22a879bc148ffdaf187a7bcb02f84541387880
--- /dev/null
+++ b/pytorch_model-00086-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:c53c02ea92a31f5c1d724d9ceca7f34c2b9b1087eb960a87e6d2022f437bfa92
+size 973148446
diff --git a/pytorch_model-00087-of-00098.bin b/pytorch_model-00087-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..de7d5f923d4c758440b3c13ac222f0dafc082297
--- /dev/null
+++ b/pytorch_model-00087-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:278dae54efffd88aa44d99825ac63c263d0aeb1599da764b08270f5a0f905a1c
+size 939527804
diff --git a/pytorch_model-00088-of-00098.bin b/pytorch_model-00088-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..e05fb64e16b365a57cea8a55db95ac437c8c32ec
--- /dev/null
+++ b/pytorch_model-00088-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1318a0dd2aac79c7c96bd9d3809b133942058d2bbcc60ed2052aeef0e5b55b98
+size 989877396
diff --git a/pytorch_model-00089-of-00098.bin b/pytorch_model-00089-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..ff21d9d8e259ea423824142b2f35217cd5bb7105
--- /dev/null
+++ b/pytorch_model-00089-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:492aaf4f3fb8ac1c82f9b5ed43f5b0cfe9338313e63b3098e0a8644b6307d531
+size 973148446
diff --git a/pytorch_model-00090-of-00098.bin b/pytorch_model-00090-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..fa5af0d6ebdd8b917a0e4eb0f9d5ed4746a346ad
--- /dev/null
+++ b/pytorch_model-00090-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:8c5c65194b7744fd1a1e08bdb2bdc87c0d48aa3dc42b5289be4e1e0093ecc03b
+size 939527804
diff --git a/pytorch_model-00091-of-00098.bin b/pytorch_model-00091-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..26add5d5a9b45d7d53a60f1393f4708d8985aa74
--- /dev/null
+++ b/pytorch_model-00091-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6324f0e0d164548545e0a39572d4bb83d41858bf2a0d9f70eac0cb4224bd25cb
+size 989877396
diff --git a/pytorch_model-00092-of-00098.bin b/pytorch_model-00092-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..37853aa493a702580f2b33a919b1ff9d1ef5ed57
--- /dev/null
+++ b/pytorch_model-00092-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a910e06c09cca43df0b9269cb929ccc0d9387d7b03c2c1c259aae7b7d3219a60
+size 973148446
diff --git a/pytorch_model-00093-of-00098.bin b/pytorch_model-00093-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..b693d8a53aabc74fd26d7b8bb50e3568635f5984
--- /dev/null
+++ b/pytorch_model-00093-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:569de9da4b1a773fe3b64b79fa8f5d0bbc130acf72a0d7a6c5ef13e3294c09a6
+size 939527804
diff --git a/pytorch_model-00094-of-00098.bin b/pytorch_model-00094-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..8c0d040105a6fc1e84c083c463e618e0a98c70c9
--- /dev/null
+++ b/pytorch_model-00094-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:6bae0538ce01624d85078d19c28f7d0f8a8ba766859c6052a9e922e1ab09dec8
+size 989877396
diff --git a/pytorch_model-00095-of-00098.bin b/pytorch_model-00095-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..ebfd7ad9edc7840351e8a20235343d515dc3a553
--- /dev/null
+++ b/pytorch_model-00095-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:7ace8e3d172be7d61ffd21b142fde01feee9393e4832065139b7939c1ed5c1ef
+size 973148446
diff --git a/pytorch_model-00096-of-00098.bin b/pytorch_model-00096-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..32fa2bb731da4fa2d59526dddf235be2478984b6
--- /dev/null
+++ b/pytorch_model-00096-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1f11e5a16281e350cc83069644b3601920aa30ea7e2929d2ca8da82261680329
+size 939527804
diff --git a/pytorch_model-00097-of-00098.bin b/pytorch_model-00097-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..b156d2133171eb49fa283b0db5b253f9b6df8a48
--- /dev/null
+++ b/pytorch_model-00097-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b5052b824626959bff037d0e3c963adcc4adcdf632acdcfd382686585aebeb5a
+size 939553328
diff --git a/pytorch_model-00098-of-00098.bin b/pytorch_model-00098-of-00098.bin
new file mode 100644
index 0000000000000000000000000000000000000000..4870165bdda8d44885f89af51e558c4b61cc84c0
--- /dev/null
+++ b/pytorch_model-00098-of-00098.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f7ff4cd4e78fa2ab5c8a0a43aec5a6829a1387cd8035f6c9b5785e26700cb7a0
+size 262145413
diff --git a/pytorch_model.bin.index.json b/pytorch_model.bin.index.json
new file mode 100644
index 0000000000000000000000000000000000000000..f6c4ec91919bf2724fa78a6db4496deaa75c2620
--- /dev/null
+++ b/pytorch_model.bin.index.json
@@ -0,0 +1,1002 @@
+{
+  "metadata": {
+    "total_size": 93405585408
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00098-of-00098.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00002-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00002-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00002-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00002-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00002-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00002-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00002-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00002-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00003-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00003-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00003-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00003-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00003-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00003-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00003-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00003-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.0.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.0.block_sparse_moe.gate.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00005-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00005-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00005-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00005-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00005-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00005-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00005-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00005-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00006-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00006-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00006-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00006-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00006-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00006-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00006-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00006-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.1.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.1.block_sparse_moe.gate.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00004-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00033-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00033-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00033-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00033-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00033-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00033-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00033-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00033-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.block_sparse_moe.gate.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00032-of-00098.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00036-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00036-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00036-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00036-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00036-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00036-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00036-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00036-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.block_sparse_moe.gate.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00035-of-00098.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00034-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00039-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00039-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00039-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00039-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00039-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00039-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00039-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00039-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.block_sparse_moe.gate.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00038-of-00098.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00037-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00042-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00042-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00042-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00042-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00042-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00042-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00042-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00042-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.block_sparse_moe.gate.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00041-of-00098.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00040-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00045-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00045-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00045-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00045-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00045-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00045-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00045-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00045-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.block_sparse_moe.gate.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00044-of-00098.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00043-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00048-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00048-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00048-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00048-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00048-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00048-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00048-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00048-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.block_sparse_moe.gate.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00047-of-00098.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00046-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00051-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00051-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00051-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00051-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00051-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00051-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00051-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00051-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.block_sparse_moe.gate.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00050-of-00098.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00049-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00054-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00054-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00054-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00054-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00054-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00054-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00054-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00054-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.block_sparse_moe.gate.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00053-of-00098.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00052-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00057-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00057-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00057-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00057-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00057-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00057-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00057-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00057-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.block_sparse_moe.gate.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00056-of-00098.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00055-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00060-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00060-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00060-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00060-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00060-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00060-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00060-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00060-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.block_sparse_moe.gate.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00059-of-00098.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00058-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00008-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00008-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00008-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00008-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00008-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00008-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00008-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00008-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00009-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00009-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00009-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00009-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00009-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00009-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00009-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00009-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.2.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.2.block_sparse_moe.gate.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00007-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00063-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00063-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00063-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00063-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00063-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00063-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00063-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00063-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.block_sparse_moe.gate.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00062-of-00098.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00061-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00066-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00066-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00066-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00066-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00066-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00066-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00066-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00066-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.block_sparse_moe.gate.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00065-of-00098.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00064-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00069-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00069-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00069-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00069-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00069-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00069-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00069-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00069-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.block_sparse_moe.gate.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00068-of-00098.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00067-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00072-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00072-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00072-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00072-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00072-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00072-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00072-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00072-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.block_sparse_moe.gate.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00071-of-00098.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00070-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00075-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00075-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00075-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00075-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00075-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00075-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00075-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00075-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.block_sparse_moe.gate.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00074-of-00098.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00073-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00078-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00078-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00078-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00078-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00078-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00078-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00078-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00078-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.block_sparse_moe.gate.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00077-of-00098.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00076-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00081-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00081-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00081-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00081-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00081-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00081-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00081-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00081-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.block_sparse_moe.gate.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00080-of-00098.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00079-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00084-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00084-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00084-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00084-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00084-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00084-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00084-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00084-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.block_sparse_moe.gate.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00083-of-00098.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00082-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00087-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00087-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00087-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00087-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00087-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00087-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00087-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00087-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.block_sparse_moe.gate.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.input_layernorm.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.post_attention_layernorm.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.28.self_attn.k_proj.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.28.self_attn.o_proj.weight": "pytorch_model-00086-of-00098.bin",
+    "model.layers.28.self_attn.q_proj.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.28.self_attn.v_proj.weight": "pytorch_model-00085-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00090-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00090-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00090-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00090-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00090-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00090-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00090-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00090-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.block_sparse_moe.gate.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.input_layernorm.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.post_attention_layernorm.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.29.self_attn.k_proj.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.29.self_attn.o_proj.weight": "pytorch_model-00089-of-00098.bin",
+    "model.layers.29.self_attn.q_proj.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.29.self_attn.v_proj.weight": "pytorch_model-00088-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00011-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00011-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00011-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00011-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00011-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00011-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00011-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00011-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00012-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00012-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00012-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00012-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00012-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00012-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00012-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00012-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.3.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.3.block_sparse_moe.gate.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00010-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00093-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00093-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00093-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00093-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00093-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00093-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00093-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00093-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.block_sparse_moe.gate.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.input_layernorm.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.post_attention_layernorm.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.30.self_attn.k_proj.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.30.self_attn.o_proj.weight": "pytorch_model-00092-of-00098.bin",
+    "model.layers.30.self_attn.q_proj.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.30.self_attn.v_proj.weight": "pytorch_model-00091-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00096-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00096-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00096-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00096-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00096-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00096-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00096-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00096-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.block_sparse_moe.gate.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.input_layernorm.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.post_attention_layernorm.weight": "pytorch_model-00097-of-00098.bin",
+    "model.layers.31.self_attn.k_proj.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.31.self_attn.o_proj.weight": "pytorch_model-00095-of-00098.bin",
+    "model.layers.31.self_attn.q_proj.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.31.self_attn.v_proj.weight": "pytorch_model-00094-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00014-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00014-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00014-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00014-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00014-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00014-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00014-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00014-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00015-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00015-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00015-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00015-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00015-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00015-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00015-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00015-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.block_sparse_moe.gate.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00013-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00017-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00017-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00017-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00017-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00017-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00017-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00017-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00017-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00018-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00018-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00018-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00018-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00018-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00018-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00018-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00018-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.block_sparse_moe.gate.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00016-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00021-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00021-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00021-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00021-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00021-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00021-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00021-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00021-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.block_sparse_moe.gate.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00020-of-00098.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00019-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00024-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00024-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00024-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00024-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00024-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00024-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00024-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00024-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.block_sparse_moe.gate.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00023-of-00098.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00022-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00027-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00027-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00027-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00027-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00027-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00027-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00027-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00027-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.block_sparse_moe.gate.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00026-of-00098.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00025-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.0.w1.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.0.w2.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.0.w3.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.1.w1.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.1.w2.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.1.w3.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.2.w1.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.2.w2.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.2.w3.weight": "pytorch_model-00030-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.3.w1.weight": "pytorch_model-00030-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.3.w2.weight": "pytorch_model-00030-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.3.w3.weight": "pytorch_model-00030-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.4.w1.weight": "pytorch_model-00030-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.4.w2.weight": "pytorch_model-00030-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.4.w3.weight": "pytorch_model-00030-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.5.w1.weight": "pytorch_model-00030-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.5.w2.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.5.w3.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.6.w1.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.6.w2.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.6.w3.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.7.w1.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.7.w2.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.block_sparse_moe.experts.7.w3.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.block_sparse_moe.gate.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00031-of-00098.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00029-of-00098.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00028-of-00098.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00028-of-00098.bin",
+    "model.norm.weight": "pytorch_model-00097-of-00098.bin"
+  }
+}
diff --git a/special_tokens_map.json b/special_tokens_map.json
new file mode 100644
index 0000000000000000000000000000000000000000..451134b2ddc2e78555d1e857518c54b4bdc2e87d
--- /dev/null
+++ b/special_tokens_map.json
@@ -0,0 +1,23 @@
+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}
diff --git a/tokenizer.model b/tokenizer.model
new file mode 100644
index 0000000000000000000000000000000000000000..8b443ef19c2a19acc3ac64fb9c3db4a72921dff6
--- /dev/null
+++ b/tokenizer.model
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443
diff --git a/tokenizer_config.json b/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..e88fefc9f33587c369448b514b4dd315e725d52c
--- /dev/null
+++ b/tokenizer_config.json
@@ -0,0 +1,45 @@
+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ message['content'] + eos_token}}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}