SFconvertbot commited on 10 days ago

Commit

06aa328

•

1 Parent(s): acb6e1d

Adding `safetensors` variant of this model

This is an automated PR created with https://huggingface.co/spaces/safetensors/convert

This new file is equivalent to `pytorch_model.bin` but safe in the sense that
no arbitrary code can be put into it.

These files also happen to load much faster than their pytorch counterpart:
https://colab.research.google.com/github/huggingface/notebooks/blob/main/safetensors_doc/en/speed.ipynb

The widgets on your model page will run using this model even if this is not merged
making sure the file actually works.

If you find any issues: please report here: https://huggingface.co/spaces/safetensors/convert/discussions

Feel free to ignore this PR.

Files changed (48) hide show

.gitattributes +46 -0
model-00001-of-00046.safetensors +3 -0
model-00002-of-00046.safetensors +3 -0
model-00003-of-00046.safetensors +3 -0
model-00004-of-00046.safetensors +3 -0
model-00005-of-00046.safetensors +3 -0
model-00006-of-00046.safetensors +3 -0
model-00007-of-00046.safetensors +3 -0
model-00008-of-00046.safetensors +3 -0
model-00009-of-00046.safetensors +3 -0
model-00010-of-00046.safetensors +3 -0
model-00011-of-00046.safetensors +3 -0
model-00012-of-00046.safetensors +3 -0
model-00013-of-00046.safetensors +3 -0
model-00014-of-00046.safetensors +3 -0
model-00015-of-00046.safetensors +3 -0
model-00016-of-00046.safetensors +3 -0
model-00017-of-00046.safetensors +3 -0
model-00018-of-00046.safetensors +3 -0
model-00019-of-00046.safetensors +3 -0
model-00020-of-00046.safetensors +3 -0
model-00021-of-00046.safetensors +3 -0
model-00022-of-00046.safetensors +3 -0
model-00023-of-00046.safetensors +3 -0
model-00024-of-00046.safetensors +3 -0
model-00025-of-00046.safetensors +3 -0
model-00026-of-00046.safetensors +3 -0
model-00027-of-00046.safetensors +3 -0
model-00028-of-00046.safetensors +3 -0
model-00029-of-00046.safetensors +3 -0
model-00030-of-00046.safetensors +3 -0
model-00031-of-00046.safetensors +3 -0
model-00032-of-00046.safetensors +3 -0
model-00033-of-00046.safetensors +3 -0
model-00034-of-00046.safetensors +3 -0
model-00035-of-00046.safetensors +3 -0
model-00036-of-00046.safetensors +3 -0
model-00037-of-00046.safetensors +3 -0
model-00038-of-00046.safetensors +3 -0
model-00039-of-00046.safetensors +3 -0
model-00040-of-00046.safetensors +3 -0
model-00041-of-00046.safetensors +3 -0
model-00042-of-00046.safetensors +3 -0
model-00043-of-00046.safetensors +3 -0
model-00044-of-00046.safetensors +3 -0
model-00045-of-00046.safetensors +3 -0
model-00046-of-00046.safetensors +3 -0
model.safetensors.index.json +671 -0

.gitattributes CHANGED Viewed

@@ -29,3 +29,49 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+model-00029-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00012-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00032-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00030-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00016-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00003-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00018-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00004-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00023-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00043-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00034-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00046-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00002-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00039-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00006-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00041-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00005-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00028-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00036-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00033-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00044-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00009-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00019-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00007-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00008-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00010-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00026-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00042-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00027-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00017-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00020-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00022-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00035-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00031-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00011-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00045-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00037-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00014-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00013-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00025-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00001-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00015-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00038-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00040-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00024-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text
+model-00021-of-00046.safetensors filter=lfs diff=lfs merge=lfs -text

model-00001-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b0917683e02c9b6286b38cba26725ae1f0a775fe97580f2e8135def75cae26
+size 925992338

model-00002-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32968cbdfb292892462731a565eaea907255dbb931394d90c2308f8e82178ae7
+size 910325490

model-00003-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c88ef892695deb0147bfe52c686ede108fe4fab34b3ea414cfdbee0d93e292b1
+size 910325490

model-00004-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b40e886a6402fdd388f3cdfeba149d70b73e8ccfb5d4df397306d11a5ad7329
+size 910325490

model-00005-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7be1b19b4259fdd0d6f379988023cdc4564cdce46629596ef806d0dcf7ddd94
+size 910325490

model-00006-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab983633a5bbbfd237f3eeba51f391f5f7205bd7077f2f71ac66f1cd40f08449
+size 910325490

model-00007-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b949bfff722df8c3abeec26af3d2a5a1a352ac18ba9792a25c1aec2afbdd36f6
+size 910325490

model-00008-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cec997c28cbfe8ab1e86191f1ff26c81d53a512d5749e97da305b59ae20e56a8
+size 910325490

model-00009-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21fcbd7c61140f57a5cff084133cf76a1d447b369219a744dc28d10f801ea2f8
+size 910325490

model-00010-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:951f2f02741bb0f5abf595a7610b4dc57fcba9977ea1c2cb7a54687796e90b2e
+size 910325490

model-00011-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58a8b461095738fcc9496641db6236e429b68e634829072f53e4a453a1489788
+size 910325498

model-00012-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52e741baea9590e44bb34aa86fbca613c308529c9cddfcc1c90a44a7ff843795
+size 910325506

model-00013-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b92bea551ce2a13efb0285abd53b85bbdca45cd6173e7ca5c50a27e0a41acc4f
+size 910325506

model-00014-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07ad270f09b339664c1487e0a1e4ee839035bca39f7801bdf05fb3ef105f4b62
+size 910325506

model-00015-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32726bb8be7ade4c2ff4876e23389280774a21d596e6d0e03096fbc9501c1463
+size 910325506

model-00016-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5296bc7944c4634b0aa1cd83e7b5075385eaa04a8207e4cb5314c11395446938
+size 910325506

model-00017-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d7ac87240c2725e2d81c2dd8f0558ed3a233248810b13704d8652279de2a30a
+size 910325506

model-00018-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f055283fa418dbfdb9badfa4ca97e7b560115dcba3a1e1b3f3dd0ef47f9f1a2
+size 910325506

model-00019-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:405fcffaf41143b0907490864d85f0da0bf21de6b2b50bcac1ea14ebf0e08166
+size 910325506

model-00020-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:148a2e23d4a806a26e992e71afb1d723b8977aac42e3aff1301388cce24a3e5d
+size 910325506

model-00021-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c58ccf6d07cdb0b747068c0fc948dc7ccb8f43060fd77aa660c49b2fb649038b
+size 910325506

model-00022-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45992b479dbbe28d8e5926407f70bac3b4bb90e165a638552e77ff2695601db4
+size 910325506

model-00023-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86b6c8872e4efd37b327229c8c32179812c6276f5a7a529272c17d1cba13d489
+size 910325506

model-00024-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b1e293959ccaa7cc72706911b0015fabbd67507fb781c9316b00ac24fed7a9e
+size 910325506

model-00025-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e95eaa714adaf130621d1a434ca9293df32b4547ec83b98a80f8aceb6bebf75
+size 910325506

model-00026-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d07698bf7f70dd8ef95bb4d605821f233ae36fe4bac6b81df8105c5e5b3c3be
+size 910325506

model-00027-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0429596bc162dbdf38f6fbb3ccd1d919574ba7bc69f890094cf2304692ac9bc2
+size 910325506

model-00028-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:229d8b42527d084b724f6d08ab3994ce0cdb4af3ca0efb3628026109e31fc4e4
+size 910325506

model-00029-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3c4312b3eae245f8702b386d53df7785c37928ac5eee5721aded38c4cb46b48
+size 910325506

model-00030-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d3dd9d3ef50b354408fba5ceb920fa1ac4eb532d6f31e7b3818cfb1633bcfd2
+size 910325506

model-00031-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e7a38d4428bcb55619e8ff1cd9189e995cd9083e2c2deefffe4fbcd5e89d3fa
+size 910325506

model-00032-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c99eb7eadb91d1e450cd8223836d107bc31c3b30aec87cf11d785a7f23b71200
+size 910325506

model-00033-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74e7dc9663e21fc7be2f44b4d00a6e84b051f8249f88f7cb0cb7bf1b2ea59171
+size 910325506

model-00034-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80fccd5b924243a0d86ffeda0c7fa17c808f7cb5ee0bfe3cb11b31812a00f8fa
+size 910325506

model-00035-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:339fcc53452248f83fe9e2b4d753ce44bb81eea13cddf43790a76b45bec0a863
+size 910325506

model-00036-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b64f7efc8196433370e15fa72663ebf81a6c81d4567eea6bc652ca56552b074
+size 910325506

model-00037-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d46130c77be58c4808686fc8c36babcc80e5f44e4363496a8b70326b878fd94
+size 910325506

model-00038-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c10679a6b73c2d92f7fe305b662770a1e8fdeedc4f3290e0a5c4092be89d0b2a
+size 910325506

model-00039-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1dd6c5b04145a3ee9c25ad9d2ab51a496a82d50efe6826490af69cf871eb0d06
+size 910325506

model-00040-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d9e75eaff00f1e6367f0a2dcb6e5b23a72c74a3247c36f4949c9d0381663fcf
+size 910325506

model-00041-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d6c68eb80a0efed58f68af6a644e86cc4a99125c1e83e2fc8193d70d6c96f36
+size 910325506

model-00042-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8c1bfe20d98528c2939e7e1fb92b1bdeede4c10d21aec7a7cbf3b3ce33715b6
+size 910325506

model-00043-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43b21397544ea948d85daffb600383b69aec117c5bfbdc68f3066f00d28e9fb9
+size 910325506

model-00044-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd13a1365eed195b608090ce1e0bc76afb51944950297946b4811fe111985629
+size 910325506

model-00045-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95a806099cb2b2f5bde467887a8ad932e7e24f44f6b92b8b5ae6aabd1e7e8c00
+size 604066472

model-00046-of-00046.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea4042b0367567f7179f2c743ea8dd60b7b75a0c36d75d861a92b229c78085ef
+size 619708544

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,671 @@

+{
+    "metadata": {
+        "total_size": 41293685880
+    },
+    "weight_map": {
+        "embed_out.weight": "model-00046-of-00046.safetensors",
+        "gpt_neox.embed_in.weight": "model-00001-of-00046.safetensors",
+        "gpt_neox.final_layer_norm.bias": "model-00045-of-00046.safetensors",
+        "gpt_neox.final_layer_norm.weight": "model-00045-of-00046.safetensors",
+        "gpt_neox.layers.0.attention.bias": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.attention.dense.bias": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.attention.dense.weight": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.attention.masked_bias": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.attention.query_key_value.bias": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.attention.query_key_value.weight": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.attention.rotary_emb.inv_freq": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.input_layernorm.bias": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.input_layernorm.weight": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.mlp.dense_4h_to_h.bias": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.0.mlp.dense_4h_to_h.weight": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.0.mlp.dense_h_to_4h.bias": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.0.mlp.dense_h_to_4h.weight": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.0.post_attention_layernorm.bias": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.0.post_attention_layernorm.weight": "model-00001-of-00046.safetensors",
+        "gpt_neox.layers.1.attention.bias": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.attention.dense.bias": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.attention.dense.weight": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.attention.masked_bias": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.attention.query_key_value.bias": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.attention.query_key_value.weight": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.attention.rotary_emb.inv_freq": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.input_layernorm.bias": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.input_layernorm.weight": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.mlp.dense_4h_to_h.bias": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.1.mlp.dense_4h_to_h.weight": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.1.mlp.dense_h_to_4h.bias": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.1.mlp.dense_h_to_4h.weight": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.1.post_attention_layernorm.bias": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.1.post_attention_layernorm.weight": "model-00002-of-00046.safetensors",
+        "gpt_neox.layers.10.attention.bias": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.attention.dense.bias": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.attention.dense.weight": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.attention.masked_bias": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.attention.query_key_value.bias": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.attention.query_key_value.weight": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.attention.rotary_emb.inv_freq": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.input_layernorm.bias": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.input_layernorm.weight": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.mlp.dense_4h_to_h.bias": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.10.mlp.dense_4h_to_h.weight": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.10.mlp.dense_h_to_4h.bias": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.10.mlp.dense_h_to_4h.weight": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.10.post_attention_layernorm.bias": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.10.post_attention_layernorm.weight": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.11.attention.bias": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.attention.dense.bias": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.attention.dense.weight": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.attention.masked_bias": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.attention.query_key_value.bias": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.attention.query_key_value.weight": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.attention.rotary_emb.inv_freq": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.input_layernorm.bias": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.input_layernorm.weight": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.mlp.dense_4h_to_h.bias": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.11.mlp.dense_4h_to_h.weight": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.11.mlp.dense_h_to_4h.bias": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.11.mlp.dense_h_to_4h.weight": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.11.post_attention_layernorm.bias": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.11.post_attention_layernorm.weight": "model-00012-of-00046.safetensors",
+        "gpt_neox.layers.12.attention.bias": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.attention.dense.bias": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.attention.dense.weight": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.attention.masked_bias": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.attention.query_key_value.bias": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.attention.query_key_value.weight": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.attention.rotary_emb.inv_freq": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.input_layernorm.bias": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.input_layernorm.weight": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.mlp.dense_4h_to_h.bias": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.12.mlp.dense_4h_to_h.weight": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.12.mlp.dense_h_to_4h.bias": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.12.mlp.dense_h_to_4h.weight": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.12.post_attention_layernorm.bias": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.12.post_attention_layernorm.weight": "model-00013-of-00046.safetensors",
+        "gpt_neox.layers.13.attention.bias": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.attention.dense.bias": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.attention.dense.weight": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.attention.masked_bias": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.attention.query_key_value.bias": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.attention.query_key_value.weight": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.attention.rotary_emb.inv_freq": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.input_layernorm.bias": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.input_layernorm.weight": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.mlp.dense_4h_to_h.bias": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.13.mlp.dense_4h_to_h.weight": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.13.mlp.dense_h_to_4h.bias": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.13.mlp.dense_h_to_4h.weight": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.13.post_attention_layernorm.bias": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.13.post_attention_layernorm.weight": "model-00014-of-00046.safetensors",
+        "gpt_neox.layers.14.attention.bias": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.attention.dense.bias": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.attention.dense.weight": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.attention.masked_bias": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.attention.query_key_value.bias": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.attention.query_key_value.weight": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.attention.rotary_emb.inv_freq": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.input_layernorm.bias": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.input_layernorm.weight": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.mlp.dense_4h_to_h.bias": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.14.mlp.dense_4h_to_h.weight": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.14.mlp.dense_h_to_4h.bias": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.14.mlp.dense_h_to_4h.weight": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.14.post_attention_layernorm.bias": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.14.post_attention_layernorm.weight": "model-00015-of-00046.safetensors",
+        "gpt_neox.layers.15.attention.bias": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.attention.dense.bias": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.attention.dense.weight": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.attention.masked_bias": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.attention.query_key_value.bias": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.attention.query_key_value.weight": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.attention.rotary_emb.inv_freq": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.input_layernorm.bias": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.input_layernorm.weight": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.mlp.dense_4h_to_h.bias": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.15.mlp.dense_4h_to_h.weight": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.15.mlp.dense_h_to_4h.bias": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.15.mlp.dense_h_to_4h.weight": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.15.post_attention_layernorm.bias": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.15.post_attention_layernorm.weight": "model-00016-of-00046.safetensors",
+        "gpt_neox.layers.16.attention.bias": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.attention.dense.bias": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.attention.dense.weight": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.attention.masked_bias": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.attention.query_key_value.bias": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.attention.query_key_value.weight": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.attention.rotary_emb.inv_freq": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.input_layernorm.bias": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.input_layernorm.weight": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.mlp.dense_4h_to_h.bias": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.16.mlp.dense_4h_to_h.weight": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.16.mlp.dense_h_to_4h.bias": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.16.mlp.dense_h_to_4h.weight": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.16.post_attention_layernorm.bias": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.16.post_attention_layernorm.weight": "model-00017-of-00046.safetensors",
+        "gpt_neox.layers.17.attention.bias": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.attention.dense.bias": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.attention.dense.weight": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.attention.masked_bias": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.attention.query_key_value.bias": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.attention.query_key_value.weight": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.attention.rotary_emb.inv_freq": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.input_layernorm.bias": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.input_layernorm.weight": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.mlp.dense_4h_to_h.bias": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.17.mlp.dense_4h_to_h.weight": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.17.mlp.dense_h_to_4h.bias": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.17.mlp.dense_h_to_4h.weight": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.17.post_attention_layernorm.bias": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.17.post_attention_layernorm.weight": "model-00018-of-00046.safetensors",
+        "gpt_neox.layers.18.attention.bias": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.attention.dense.bias": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.attention.dense.weight": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.attention.masked_bias": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.attention.query_key_value.bias": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.attention.query_key_value.weight": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.attention.rotary_emb.inv_freq": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.input_layernorm.bias": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.input_layernorm.weight": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.mlp.dense_4h_to_h.bias": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.18.mlp.dense_4h_to_h.weight": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.18.mlp.dense_h_to_4h.bias": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.18.mlp.dense_h_to_4h.weight": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.18.post_attention_layernorm.bias": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.18.post_attention_layernorm.weight": "model-00019-of-00046.safetensors",
+        "gpt_neox.layers.19.attention.bias": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.attention.dense.bias": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.attention.dense.weight": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.attention.masked_bias": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.attention.query_key_value.bias": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.attention.query_key_value.weight": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.attention.rotary_emb.inv_freq": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.input_layernorm.bias": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.input_layernorm.weight": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.mlp.dense_4h_to_h.bias": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.19.mlp.dense_4h_to_h.weight": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.19.mlp.dense_h_to_4h.bias": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.19.mlp.dense_h_to_4h.weight": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.19.post_attention_layernorm.bias": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.19.post_attention_layernorm.weight": "model-00020-of-00046.safetensors",
+        "gpt_neox.layers.2.attention.bias": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.attention.dense.bias": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.attention.dense.weight": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.attention.masked_bias": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.attention.query_key_value.bias": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.attention.query_key_value.weight": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.attention.rotary_emb.inv_freq": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.input_layernorm.bias": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.input_layernorm.weight": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.mlp.dense_4h_to_h.bias": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.2.mlp.dense_4h_to_h.weight": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.2.mlp.dense_h_to_4h.bias": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.2.mlp.dense_h_to_4h.weight": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.2.post_attention_layernorm.bias": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.2.post_attention_layernorm.weight": "model-00003-of-00046.safetensors",
+        "gpt_neox.layers.20.attention.bias": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.attention.dense.bias": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.attention.dense.weight": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.attention.masked_bias": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.attention.query_key_value.bias": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.attention.query_key_value.weight": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.attention.rotary_emb.inv_freq": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.input_layernorm.bias": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.input_layernorm.weight": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.mlp.dense_4h_to_h.bias": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.20.mlp.dense_4h_to_h.weight": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.20.mlp.dense_h_to_4h.bias": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.20.mlp.dense_h_to_4h.weight": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.20.post_attention_layernorm.bias": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.20.post_attention_layernorm.weight": "model-00021-of-00046.safetensors",
+        "gpt_neox.layers.21.attention.bias": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.attention.dense.bias": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.attention.dense.weight": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.attention.masked_bias": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.attention.query_key_value.bias": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.attention.query_key_value.weight": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.attention.rotary_emb.inv_freq": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.input_layernorm.bias": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.input_layernorm.weight": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.mlp.dense_4h_to_h.bias": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.21.mlp.dense_4h_to_h.weight": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.21.mlp.dense_h_to_4h.bias": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.21.mlp.dense_h_to_4h.weight": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.21.post_attention_layernorm.bias": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.21.post_attention_layernorm.weight": "model-00022-of-00046.safetensors",
+        "gpt_neox.layers.22.attention.bias": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.attention.dense.bias": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.attention.dense.weight": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.attention.masked_bias": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.attention.query_key_value.bias": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.attention.query_key_value.weight": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.attention.rotary_emb.inv_freq": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.input_layernorm.bias": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.input_layernorm.weight": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.mlp.dense_4h_to_h.bias": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.22.mlp.dense_4h_to_h.weight": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.22.mlp.dense_h_to_4h.bias": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.22.mlp.dense_h_to_4h.weight": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.22.post_attention_layernorm.bias": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.22.post_attention_layernorm.weight": "model-00023-of-00046.safetensors",
+        "gpt_neox.layers.23.attention.bias": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.attention.dense.bias": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.attention.dense.weight": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.attention.masked_bias": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.attention.query_key_value.bias": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.attention.query_key_value.weight": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.attention.rotary_emb.inv_freq": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.input_layernorm.bias": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.input_layernorm.weight": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.mlp.dense_4h_to_h.bias": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.23.mlp.dense_4h_to_h.weight": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.23.mlp.dense_h_to_4h.bias": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.23.mlp.dense_h_to_4h.weight": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.23.post_attention_layernorm.bias": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.23.post_attention_layernorm.weight": "model-00024-of-00046.safetensors",
+        "gpt_neox.layers.24.attention.bias": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.attention.dense.bias": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.attention.dense.weight": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.attention.masked_bias": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.attention.query_key_value.bias": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.attention.query_key_value.weight": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.attention.rotary_emb.inv_freq": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.input_layernorm.bias": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.input_layernorm.weight": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.mlp.dense_4h_to_h.bias": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.24.mlp.dense_4h_to_h.weight": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.24.mlp.dense_h_to_4h.bias": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.24.mlp.dense_h_to_4h.weight": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.24.post_attention_layernorm.bias": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.24.post_attention_layernorm.weight": "model-00025-of-00046.safetensors",
+        "gpt_neox.layers.25.attention.bias": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.attention.dense.bias": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.attention.dense.weight": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.attention.masked_bias": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.attention.query_key_value.bias": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.attention.query_key_value.weight": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.attention.rotary_emb.inv_freq": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.input_layernorm.bias": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.input_layernorm.weight": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.mlp.dense_4h_to_h.bias": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.25.mlp.dense_4h_to_h.weight": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.25.mlp.dense_h_to_4h.bias": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.25.mlp.dense_h_to_4h.weight": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.25.post_attention_layernorm.bias": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.25.post_attention_layernorm.weight": "model-00026-of-00046.safetensors",
+        "gpt_neox.layers.26.attention.bias": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.attention.dense.bias": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.attention.dense.weight": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.attention.masked_bias": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.attention.query_key_value.bias": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.attention.query_key_value.weight": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.attention.rotary_emb.inv_freq": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.input_layernorm.bias": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.input_layernorm.weight": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.mlp.dense_4h_to_h.bias": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.26.mlp.dense_4h_to_h.weight": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.26.mlp.dense_h_to_4h.bias": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.26.mlp.dense_h_to_4h.weight": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.26.post_attention_layernorm.bias": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.26.post_attention_layernorm.weight": "model-00027-of-00046.safetensors",
+        "gpt_neox.layers.27.attention.bias": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.attention.dense.bias": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.attention.dense.weight": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.attention.masked_bias": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.attention.query_key_value.bias": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.attention.query_key_value.weight": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.attention.rotary_emb.inv_freq": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.input_layernorm.bias": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.input_layernorm.weight": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.mlp.dense_4h_to_h.bias": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.27.mlp.dense_4h_to_h.weight": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.27.mlp.dense_h_to_4h.bias": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.27.mlp.dense_h_to_4h.weight": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.27.post_attention_layernorm.bias": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.27.post_attention_layernorm.weight": "model-00028-of-00046.safetensors",
+        "gpt_neox.layers.28.attention.bias": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.attention.dense.bias": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.attention.dense.weight": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.attention.masked_bias": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.attention.query_key_value.bias": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.attention.query_key_value.weight": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.attention.rotary_emb.inv_freq": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.input_layernorm.bias": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.input_layernorm.weight": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.mlp.dense_4h_to_h.bias": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.28.mlp.dense_4h_to_h.weight": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.28.mlp.dense_h_to_4h.bias": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.28.mlp.dense_h_to_4h.weight": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.28.post_attention_layernorm.bias": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.28.post_attention_layernorm.weight": "model-00029-of-00046.safetensors",
+        "gpt_neox.layers.29.attention.bias": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.attention.dense.bias": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.attention.dense.weight": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.attention.masked_bias": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.attention.query_key_value.bias": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.attention.query_key_value.weight": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.attention.rotary_emb.inv_freq": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.input_layernorm.bias": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.input_layernorm.weight": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.mlp.dense_4h_to_h.bias": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.29.mlp.dense_4h_to_h.weight": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.29.mlp.dense_h_to_4h.bias": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.29.mlp.dense_h_to_4h.weight": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.29.post_attention_layernorm.bias": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.29.post_attention_layernorm.weight": "model-00030-of-00046.safetensors",
+        "gpt_neox.layers.3.attention.bias": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.attention.dense.bias": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.attention.dense.weight": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.attention.masked_bias": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.attention.query_key_value.bias": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.attention.query_key_value.weight": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.attention.rotary_emb.inv_freq": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.input_layernorm.bias": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.input_layernorm.weight": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.mlp.dense_4h_to_h.bias": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.3.mlp.dense_4h_to_h.weight": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.3.mlp.dense_h_to_4h.bias": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.3.mlp.dense_h_to_4h.weight": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.3.post_attention_layernorm.bias": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.3.post_attention_layernorm.weight": "model-00004-of-00046.safetensors",
+        "gpt_neox.layers.30.attention.bias": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.attention.dense.bias": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.attention.dense.weight": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.attention.masked_bias": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.attention.query_key_value.bias": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.attention.query_key_value.weight": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.attention.rotary_emb.inv_freq": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.input_layernorm.bias": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.input_layernorm.weight": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.mlp.dense_4h_to_h.bias": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.30.mlp.dense_4h_to_h.weight": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.30.mlp.dense_h_to_4h.bias": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.30.mlp.dense_h_to_4h.weight": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.30.post_attention_layernorm.bias": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.30.post_attention_layernorm.weight": "model-00031-of-00046.safetensors",
+        "gpt_neox.layers.31.attention.bias": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.attention.dense.bias": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.attention.dense.weight": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.attention.masked_bias": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.attention.query_key_value.bias": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.attention.query_key_value.weight": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.attention.rotary_emb.inv_freq": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.input_layernorm.bias": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.input_layernorm.weight": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.mlp.dense_4h_to_h.bias": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.31.mlp.dense_4h_to_h.weight": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.31.mlp.dense_h_to_4h.bias": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.31.mlp.dense_h_to_4h.weight": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.31.post_attention_layernorm.bias": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.31.post_attention_layernorm.weight": "model-00032-of-00046.safetensors",
+        "gpt_neox.layers.32.attention.bias": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.attention.dense.bias": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.attention.dense.weight": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.attention.masked_bias": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.attention.query_key_value.bias": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.attention.query_key_value.weight": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.attention.rotary_emb.inv_freq": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.input_layernorm.bias": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.input_layernorm.weight": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.mlp.dense_4h_to_h.bias": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.32.mlp.dense_4h_to_h.weight": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.32.mlp.dense_h_to_4h.bias": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.32.mlp.dense_h_to_4h.weight": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.32.post_attention_layernorm.bias": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.32.post_attention_layernorm.weight": "model-00033-of-00046.safetensors",
+        "gpt_neox.layers.33.attention.bias": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.attention.dense.bias": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.attention.dense.weight": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.attention.masked_bias": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.attention.query_key_value.bias": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.attention.query_key_value.weight": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.attention.rotary_emb.inv_freq": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.input_layernorm.bias": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.input_layernorm.weight": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.mlp.dense_4h_to_h.bias": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.33.mlp.dense_4h_to_h.weight": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.33.mlp.dense_h_to_4h.bias": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.33.mlp.dense_h_to_4h.weight": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.33.post_attention_layernorm.bias": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.33.post_attention_layernorm.weight": "model-00034-of-00046.safetensors",
+        "gpt_neox.layers.34.attention.bias": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.attention.dense.bias": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.attention.dense.weight": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.attention.masked_bias": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.attention.query_key_value.bias": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.attention.query_key_value.weight": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.attention.rotary_emb.inv_freq": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.input_layernorm.bias": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.input_layernorm.weight": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.mlp.dense_4h_to_h.bias": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.34.mlp.dense_4h_to_h.weight": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.34.mlp.dense_h_to_4h.bias": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.34.mlp.dense_h_to_4h.weight": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.34.post_attention_layernorm.bias": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.34.post_attention_layernorm.weight": "model-00035-of-00046.safetensors",
+        "gpt_neox.layers.35.attention.bias": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.attention.dense.bias": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.attention.dense.weight": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.attention.masked_bias": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.attention.query_key_value.bias": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.attention.query_key_value.weight": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.attention.rotary_emb.inv_freq": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.input_layernorm.bias": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.input_layernorm.weight": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.mlp.dense_4h_to_h.bias": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.35.mlp.dense_4h_to_h.weight": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.35.mlp.dense_h_to_4h.bias": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.35.mlp.dense_h_to_4h.weight": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.35.post_attention_layernorm.bias": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.35.post_attention_layernorm.weight": "model-00036-of-00046.safetensors",
+        "gpt_neox.layers.36.attention.bias": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.attention.dense.bias": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.attention.dense.weight": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.attention.masked_bias": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.attention.query_key_value.bias": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.attention.query_key_value.weight": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.attention.rotary_emb.inv_freq": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.input_layernorm.bias": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.input_layernorm.weight": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.mlp.dense_4h_to_h.bias": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.36.mlp.dense_4h_to_h.weight": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.36.mlp.dense_h_to_4h.bias": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.36.mlp.dense_h_to_4h.weight": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.36.post_attention_layernorm.bias": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.36.post_attention_layernorm.weight": "model-00037-of-00046.safetensors",
+        "gpt_neox.layers.37.attention.bias": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.attention.dense.bias": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.attention.dense.weight": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.attention.masked_bias": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.attention.query_key_value.bias": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.attention.query_key_value.weight": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.attention.rotary_emb.inv_freq": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.input_layernorm.bias": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.input_layernorm.weight": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.mlp.dense_4h_to_h.bias": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.37.mlp.dense_4h_to_h.weight": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.37.mlp.dense_h_to_4h.bias": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.37.mlp.dense_h_to_4h.weight": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.37.post_attention_layernorm.bias": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.37.post_attention_layernorm.weight": "model-00038-of-00046.safetensors",
+        "gpt_neox.layers.38.attention.bias": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.attention.dense.bias": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.attention.dense.weight": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.attention.masked_bias": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.attention.query_key_value.bias": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.attention.query_key_value.weight": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.attention.rotary_emb.inv_freq": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.input_layernorm.bias": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.input_layernorm.weight": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.mlp.dense_4h_to_h.bias": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.38.mlp.dense_4h_to_h.weight": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.38.mlp.dense_h_to_4h.bias": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.38.mlp.dense_h_to_4h.weight": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.38.post_attention_layernorm.bias": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.38.post_attention_layernorm.weight": "model-00039-of-00046.safetensors",
+        "gpt_neox.layers.39.attention.bias": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.attention.dense.bias": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.attention.dense.weight": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.attention.masked_bias": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.attention.query_key_value.bias": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.attention.query_key_value.weight": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.attention.rotary_emb.inv_freq": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.input_layernorm.bias": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.input_layernorm.weight": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.mlp.dense_4h_to_h.bias": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.39.mlp.dense_4h_to_h.weight": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.39.mlp.dense_h_to_4h.bias": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.39.mlp.dense_h_to_4h.weight": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.39.post_attention_layernorm.bias": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.39.post_attention_layernorm.weight": "model-00040-of-00046.safetensors",
+        "gpt_neox.layers.4.attention.bias": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.attention.dense.bias": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.attention.dense.weight": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.attention.masked_bias": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.attention.query_key_value.bias": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.attention.query_key_value.weight": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.attention.rotary_emb.inv_freq": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.input_layernorm.bias": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.input_layernorm.weight": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.mlp.dense_4h_to_h.bias": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.4.mlp.dense_4h_to_h.weight": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.4.mlp.dense_h_to_4h.bias": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.4.mlp.dense_h_to_4h.weight": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.4.post_attention_layernorm.bias": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.4.post_attention_layernorm.weight": "model-00005-of-00046.safetensors",
+        "gpt_neox.layers.40.attention.bias": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.attention.dense.bias": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.attention.dense.weight": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.attention.masked_bias": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.attention.query_key_value.bias": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.attention.query_key_value.weight": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.attention.rotary_emb.inv_freq": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.input_layernorm.bias": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.input_layernorm.weight": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.mlp.dense_4h_to_h.bias": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.40.mlp.dense_4h_to_h.weight": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.40.mlp.dense_h_to_4h.bias": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.40.mlp.dense_h_to_4h.weight": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.40.post_attention_layernorm.bias": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.40.post_attention_layernorm.weight": "model-00041-of-00046.safetensors",
+        "gpt_neox.layers.41.attention.bias": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.attention.dense.bias": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.attention.dense.weight": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.attention.masked_bias": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.attention.query_key_value.bias": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.attention.query_key_value.weight": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.attention.rotary_emb.inv_freq": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.input_layernorm.bias": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.input_layernorm.weight": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.mlp.dense_4h_to_h.bias": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.41.mlp.dense_4h_to_h.weight": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.41.mlp.dense_h_to_4h.bias": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.41.mlp.dense_h_to_4h.weight": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.41.post_attention_layernorm.bias": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.41.post_attention_layernorm.weight": "model-00042-of-00046.safetensors",
+        "gpt_neox.layers.42.attention.bias": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.attention.dense.bias": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.attention.dense.weight": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.attention.masked_bias": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.attention.query_key_value.bias": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.attention.query_key_value.weight": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.attention.rotary_emb.inv_freq": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.input_layernorm.bias": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.input_layernorm.weight": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.mlp.dense_4h_to_h.bias": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.42.mlp.dense_4h_to_h.weight": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.42.mlp.dense_h_to_4h.bias": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.42.mlp.dense_h_to_4h.weight": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.42.post_attention_layernorm.bias": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.42.post_attention_layernorm.weight": "model-00043-of-00046.safetensors",
+        "gpt_neox.layers.43.attention.bias": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.attention.dense.bias": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.attention.dense.weight": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.attention.masked_bias": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.attention.query_key_value.bias": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.attention.query_key_value.weight": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.attention.rotary_emb.inv_freq": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.input_layernorm.bias": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.input_layernorm.weight": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.mlp.dense_4h_to_h.bias": "model-00045-of-00046.safetensors",
+        "gpt_neox.layers.43.mlp.dense_4h_to_h.weight": "model-00045-of-00046.safetensors",
+        "gpt_neox.layers.43.mlp.dense_h_to_4h.bias": "model-00045-of-00046.safetensors",
+        "gpt_neox.layers.43.mlp.dense_h_to_4h.weight": "model-00045-of-00046.safetensors",
+        "gpt_neox.layers.43.post_attention_layernorm.bias": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.43.post_attention_layernorm.weight": "model-00044-of-00046.safetensors",
+        "gpt_neox.layers.5.attention.bias": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.attention.dense.bias": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.attention.dense.weight": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.attention.masked_bias": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.attention.query_key_value.bias": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.attention.query_key_value.weight": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.attention.rotary_emb.inv_freq": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.input_layernorm.bias": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.input_layernorm.weight": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.mlp.dense_4h_to_h.bias": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.5.mlp.dense_4h_to_h.weight": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.5.mlp.dense_h_to_4h.bias": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.5.mlp.dense_h_to_4h.weight": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.5.post_attention_layernorm.bias": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.5.post_attention_layernorm.weight": "model-00006-of-00046.safetensors",
+        "gpt_neox.layers.6.attention.bias": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.attention.dense.bias": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.attention.dense.weight": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.attention.masked_bias": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.attention.query_key_value.bias": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.attention.query_key_value.weight": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.attention.rotary_emb.inv_freq": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.input_layernorm.bias": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.input_layernorm.weight": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.mlp.dense_4h_to_h.bias": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.6.mlp.dense_4h_to_h.weight": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.6.mlp.dense_h_to_4h.bias": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.6.mlp.dense_h_to_4h.weight": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.6.post_attention_layernorm.bias": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.6.post_attention_layernorm.weight": "model-00007-of-00046.safetensors",
+        "gpt_neox.layers.7.attention.bias": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.attention.dense.bias": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.attention.dense.weight": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.attention.masked_bias": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.attention.query_key_value.bias": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.attention.query_key_value.weight": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.attention.rotary_emb.inv_freq": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.input_layernorm.bias": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.input_layernorm.weight": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.mlp.dense_4h_to_h.bias": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.7.mlp.dense_4h_to_h.weight": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.7.mlp.dense_h_to_4h.bias": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.7.mlp.dense_h_to_4h.weight": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.7.post_attention_layernorm.bias": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.7.post_attention_layernorm.weight": "model-00008-of-00046.safetensors",
+        "gpt_neox.layers.8.attention.bias": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.attention.dense.bias": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.attention.dense.weight": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.attention.masked_bias": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.attention.query_key_value.bias": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.attention.query_key_value.weight": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.attention.rotary_emb.inv_freq": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.input_layernorm.bias": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.input_layernorm.weight": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.mlp.dense_4h_to_h.bias": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.8.mlp.dense_4h_to_h.weight": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.8.mlp.dense_h_to_4h.bias": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.8.mlp.dense_h_to_4h.weight": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.8.post_attention_layernorm.bias": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.8.post_attention_layernorm.weight": "model-00009-of-00046.safetensors",
+        "gpt_neox.layers.9.attention.bias": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.attention.dense.bias": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.attention.dense.weight": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.attention.masked_bias": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.attention.query_key_value.bias": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.attention.query_key_value.weight": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.attention.rotary_emb.inv_freq": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.input_layernorm.bias": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.input_layernorm.weight": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.mlp.dense_4h_to_h.bias": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.9.mlp.dense_4h_to_h.weight": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.9.mlp.dense_h_to_4h.bias": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.9.mlp.dense_h_to_4h.weight": "model-00011-of-00046.safetensors",
+        "gpt_neox.layers.9.post_attention_layernorm.bias": "model-00010-of-00046.safetensors",
+        "gpt_neox.layers.9.post_attention_layernorm.weight": "model-00010-of-00046.safetensors"
+    }
+}