Abhaykoul commited on Apr 5, 2024

Commit

b8b6f0c

verified ·

1 Parent(s): 5648e40

Adding `safetensors` variant of this model

This is an automated PR created with https://huggingface.co/spaces/safetensors/convert

This new file is equivalent to `pytorch_model.bin` but safe in the sense that
no arbitrary code can be put into it.

These files also happen to load much faster than their pytorch counterpart:
https://colab.research.google.com/github/huggingface/notebooks/blob/main/safetensors_doc/en/speed.ipynb

The widgets on your model page will run using this model even if this is not merged
making sure the file actually works.

If you find any issues: please report here: https://huggingface.co/spaces/safetensors/convert/discussions

Feel free to ignore this PR.

Files changed (37) hide show

model-00001-of-00036.safetensors +3 -0
model-00002-of-00036.safetensors +3 -0
model-00003-of-00036.safetensors +3 -0
model-00004-of-00036.safetensors +3 -0
model-00005-of-00036.safetensors +3 -0
model-00006-of-00036.safetensors +3 -0
model-00007-of-00036.safetensors +3 -0
model-00008-of-00036.safetensors +3 -0
model-00009-of-00036.safetensors +3 -0
model-00010-of-00036.safetensors +3 -0
model-00011-of-00036.safetensors +3 -0
model-00012-of-00036.safetensors +3 -0
model-00013-of-00036.safetensors +3 -0
model-00014-of-00036.safetensors +3 -0
model-00015-of-00036.safetensors +3 -0
model-00016-of-00036.safetensors +3 -0
model-00017-of-00036.safetensors +3 -0
model-00018-of-00036.safetensors +3 -0
model-00019-of-00036.safetensors +3 -0
model-00020-of-00036.safetensors +3 -0
model-00021-of-00036.safetensors +3 -0
model-00022-of-00036.safetensors +3 -0
model-00023-of-00036.safetensors +3 -0
model-00024-of-00036.safetensors +3 -0
model-00025-of-00036.safetensors +3 -0
model-00026-of-00036.safetensors +3 -0
model-00027-of-00036.safetensors +3 -0
model-00028-of-00036.safetensors +3 -0
model-00029-of-00036.safetensors +3 -0
model-00030-of-00036.safetensors +3 -0
model-00031-of-00036.safetensors +3 -0
model-00032-of-00036.safetensors +3 -0
model-00033-of-00036.safetensors +3 -0
model-00034-of-00036.safetensors +3 -0
model-00035-of-00036.safetensors +3 -0
model-00036-of-00036.safetensors +3 -0
model.safetensors.index.json +853 -0

model-00001-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2455465b58e3f24f6ecdfc66bb49ecf9a56bdf01ac937b852b80b543390fd220
+size 8837686632

model-00002-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:239ab187103244c25de267faa29fb259c317686b1897b18d11fcb7ed1bd351e7
+size 9865751376

model-00003-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55c0b509f71906d374f332b7d406dfbf9e24cf1f69db981d9c811e81383ac677
+size 9865751376

model-00004-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9292a1f62e7331e48e28eb1e9ac1381081090e7f73ee23ce15d05753cdd3e95b
+size 9865751376

model-00005-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93441f2f08506f1d076e9c05821859cc051a56bf6bdca7452b441be9f45a954c
+size 9865751376

model-00006-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d52d9d7abf0d8235e76c792f1cdef9d06576d511e35064c99d401a910926a363
+size 9865751344

model-00007-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d8a6d0a9c201b1e633b04aecac6c153e02cacf3e87b0d3ce313c7bedacbe79c
+size 9865751400

model-00008-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae80e7ed4506b754bc2893258286c0a4357bb502a8653e1ec619c6998279cbe9
+size 9865751400

model-00009-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48472948f7cc9eff7fb9e382e1c56c7f11ab6103ad844bf584052dd635663304
+size 9865751400

model-00010-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4585236d9f4f71204616a02d2b98b171167b644a03dd739b81ffb9e78d2411a
+size 9865751400

model-00011-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90196a8ce8a0525d7318193485bf56bfea2a992bc8c43d52a4358a250754174d
+size 9865751400

model-00012-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd7653741d97a1a0db2e489a930ced1060150d60025fdb34e1b9196b8586da8f
+size 9865751400

model-00013-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9b5adeded400dce90e2474d9711cc92233f22dc05fddb2c6d7797015e889d43
+size 9865751400

model-00014-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:325f893af03af162e950faf831d7142352933f473a97a5a9751e15b05ab9b764
+size 9865751400

model-00015-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:252d5eee92bf0b7ba34b3bb51d84cbfc76db51420ab16e057e04d45f2f3d228f
+size 9865751400

model-00016-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bb5b4e8623d0b0762a170a6bf5f89e8d5736cef0f84c0b4284837aa0851519a
+size 9865751400

model-00017-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e44dd88135bc5ed6c9df61b6ef1ae23b5eacebca6c039c93d9b7952e26272b99
+size 9865751400

model-00018-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1856728dbbb11d8b0d6e6fefe13a4f63468c5c1ad9e2cf63e8c39631caacef1a
+size 9865751400

model-00019-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0008f2ea6b769462c36db593605ffe9d6c85c7f977e4d309e92e3d4b79d4190d
+size 9865751400

model-00020-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2162b7ccc9dde070f826078b12141d2622a0277327d4017063911a57f6a99a81
+size 9865751400

model-00021-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1650be49bb562c42914942f14d6fe17d7d8dbc6269ab07d639cd5c86686aff94
+size 9865751400

model-00022-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa2dd7a6f9ddc9bc1662a197ea6babe7883e55dcf1b5468344bcd2c051423fc0
+size 9865751400

model-00023-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4342dc0787bbebb741cc70739e1b93ce92031752c6f5912d664eebb35f1458c4
+size 9865751400

model-00024-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a92295ba8142f2436d5867ec468ca9c3b5c10b5d1856a20b0bf7e006adc69b4
+size 9865751400

model-00025-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3a3a890fedb3e43cf8e47220c2fd104e03e7af369acafa1a6d1f226819cebe61
+size 9865751400

model-00026-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2490faf22fb9848c2bce69b1ce5ac024645a9df03dfac2df025fbd7eb7a87c9c
+size 9865751400

model-00027-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:725db406d91c0aed58aec40bb867b9cf8239ae9978d1a6d8933ed869f88da681
+size 9865751400

model-00028-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e09cb37eefd067ced3da97741cc46ee5f7d7f4bcd985a5f0d74d0571bfdac6d
+size 9865751400

model-00029-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35f4fc9fe72d1eab06b22017dbe5f51f1a68fdccc5acf97c92512f7c29135c73
+size 9865751400

model-00030-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:830aa7d1ef87cd9654f8fc548cb5b05358c97d90c19aafca03bd78e523330420
+size 9865751400

model-00031-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:260c027a3a69eee87c893c79a260b1bcecc7b27108a267e65d002ead29b7233f
+size 9865751400

model-00032-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82646eefb12babce514bf4bc69813cd974264e014ecf6a44603dbfa9a1184edc
+size 9865751400

model-00033-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a869cfe90bea8917b02e6ea5d0b7e96e0dfbc283952095d4b0c83ce69b3d8737
+size 9865751400

model-00034-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9978d5e1e777da0c43de75a16aa9736b666d912c58296e16c3828973c5903047
+size 9865751400

model-00035-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fda1d07960a57cac48f4bf93ef891a9e7e5136ef3d04832a37828cd436d2ecd7
+size 9865751400

model-00036-of-00036.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18b2fa8025ca38b1128e529e941a23da6c873a56c9bb21f14a9df8aa493c173f
+size 8221411416

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,853 @@

+{
+    "metadata": {
+        "total_size": 352494542848
+    },
+    "weight_map": {
+        "lm_head.weight": "model-00001-of-00036.safetensors",
+        "transformer.h.0.input_layernorm.bias": "model-00001-of-00036.safetensors",
+        "transformer.h.0.input_layernorm.weight": "model-00001-of-00036.safetensors",
+        "transformer.h.0.mlp.dense_4h_to_h.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.0.mlp.dense_4h_to_h.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.0.mlp.dense_h_to_4h.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.0.mlp.dense_h_to_4h.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.0.post_attention_layernorm.bias": "model-00001-of-00036.safetensors",
+        "transformer.h.0.post_attention_layernorm.weight": "model-00001-of-00036.safetensors",
+        "transformer.h.0.self_attention.dense.bias": "model-00001-of-00036.safetensors",
+        "transformer.h.0.self_attention.dense.weight": "model-00001-of-00036.safetensors",
+        "transformer.h.0.self_attention.query_key_value.bias": "model-00001-of-00036.safetensors",
+        "transformer.h.0.self_attention.query_key_value.weight": "model-00001-of-00036.safetensors",
+        "transformer.h.1.input_layernorm.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.1.input_layernorm.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.1.mlp.dense_4h_to_h.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.1.mlp.dense_4h_to_h.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.1.mlp.dense_h_to_4h.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.1.mlp.dense_h_to_4h.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.1.post_attention_layernorm.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.1.post_attention_layernorm.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.1.self_attention.dense.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.1.self_attention.dense.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.1.self_attention.query_key_value.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.1.self_attention.query_key_value.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.10.input_layernorm.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.10.input_layernorm.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.10.mlp.dense_4h_to_h.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.10.mlp.dense_4h_to_h.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.10.mlp.dense_h_to_4h.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.10.mlp.dense_h_to_4h.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.10.post_attention_layernorm.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.10.post_attention_layernorm.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.10.self_attention.dense.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.10.self_attention.dense.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.10.self_attention.query_key_value.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.10.self_attention.query_key_value.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.11.input_layernorm.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.11.input_layernorm.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.11.mlp.dense_4h_to_h.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.11.mlp.dense_4h_to_h.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.11.mlp.dense_h_to_4h.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.11.mlp.dense_h_to_4h.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.11.post_attention_layernorm.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.11.post_attention_layernorm.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.11.self_attention.dense.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.11.self_attention.dense.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.11.self_attention.query_key_value.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.11.self_attention.query_key_value.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.12.input_layernorm.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.12.input_layernorm.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.12.mlp.dense_4h_to_h.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.12.mlp.dense_4h_to_h.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.12.mlp.dense_h_to_4h.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.12.mlp.dense_h_to_4h.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.12.post_attention_layernorm.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.12.post_attention_layernorm.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.12.self_attention.dense.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.12.self_attention.dense.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.12.self_attention.query_key_value.bias": "model-00007-of-00036.safetensors",
+        "transformer.h.12.self_attention.query_key_value.weight": "model-00007-of-00036.safetensors",
+        "transformer.h.13.input_layernorm.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.13.input_layernorm.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.13.mlp.dense_4h_to_h.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.13.mlp.dense_4h_to_h.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.13.mlp.dense_h_to_4h.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.13.mlp.dense_h_to_4h.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.13.post_attention_layernorm.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.13.post_attention_layernorm.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.13.self_attention.dense.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.13.self_attention.dense.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.13.self_attention.query_key_value.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.13.self_attention.query_key_value.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.14.input_layernorm.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.14.input_layernorm.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.14.mlp.dense_4h_to_h.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.14.mlp.dense_4h_to_h.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.14.mlp.dense_h_to_4h.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.14.mlp.dense_h_to_4h.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.14.post_attention_layernorm.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.14.post_attention_layernorm.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.14.self_attention.dense.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.14.self_attention.dense.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.14.self_attention.query_key_value.bias": "model-00008-of-00036.safetensors",
+        "transformer.h.14.self_attention.query_key_value.weight": "model-00008-of-00036.safetensors",
+        "transformer.h.15.input_layernorm.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.15.input_layernorm.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.15.mlp.dense_4h_to_h.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.15.mlp.dense_4h_to_h.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.15.mlp.dense_h_to_4h.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.15.mlp.dense_h_to_4h.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.15.post_attention_layernorm.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.15.post_attention_layernorm.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.15.self_attention.dense.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.15.self_attention.dense.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.15.self_attention.query_key_value.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.15.self_attention.query_key_value.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.16.input_layernorm.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.16.input_layernorm.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.16.mlp.dense_4h_to_h.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.16.mlp.dense_4h_to_h.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.16.mlp.dense_h_to_4h.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.16.mlp.dense_h_to_4h.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.16.post_attention_layernorm.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.16.post_attention_layernorm.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.16.self_attention.dense.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.16.self_attention.dense.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.16.self_attention.query_key_value.bias": "model-00009-of-00036.safetensors",
+        "transformer.h.16.self_attention.query_key_value.weight": "model-00009-of-00036.safetensors",
+        "transformer.h.17.input_layernorm.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.17.input_layernorm.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.17.mlp.dense_4h_to_h.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.17.mlp.dense_4h_to_h.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.17.mlp.dense_h_to_4h.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.17.mlp.dense_h_to_4h.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.17.post_attention_layernorm.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.17.post_attention_layernorm.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.17.self_attention.dense.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.17.self_attention.dense.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.17.self_attention.query_key_value.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.17.self_attention.query_key_value.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.18.input_layernorm.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.18.input_layernorm.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.18.mlp.dense_4h_to_h.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.18.mlp.dense_4h_to_h.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.18.mlp.dense_h_to_4h.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.18.mlp.dense_h_to_4h.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.18.post_attention_layernorm.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.18.post_attention_layernorm.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.18.self_attention.dense.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.18.self_attention.dense.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.18.self_attention.query_key_value.bias": "model-00010-of-00036.safetensors",
+        "transformer.h.18.self_attention.query_key_value.weight": "model-00010-of-00036.safetensors",
+        "transformer.h.19.input_layernorm.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.19.input_layernorm.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.19.mlp.dense_4h_to_h.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.19.mlp.dense_4h_to_h.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.19.mlp.dense_h_to_4h.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.19.mlp.dense_h_to_4h.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.19.post_attention_layernorm.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.19.post_attention_layernorm.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.19.self_attention.dense.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.19.self_attention.dense.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.19.self_attention.query_key_value.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.19.self_attention.query_key_value.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.2.input_layernorm.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.2.input_layernorm.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.2.mlp.dense_4h_to_h.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.2.mlp.dense_4h_to_h.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.2.mlp.dense_h_to_4h.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.2.mlp.dense_h_to_4h.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.2.post_attention_layernorm.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.2.post_attention_layernorm.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.2.self_attention.dense.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.2.self_attention.dense.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.2.self_attention.query_key_value.bias": "model-00002-of-00036.safetensors",
+        "transformer.h.2.self_attention.query_key_value.weight": "model-00002-of-00036.safetensors",
+        "transformer.h.20.input_layernorm.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.20.input_layernorm.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.20.mlp.dense_4h_to_h.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.20.mlp.dense_4h_to_h.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.20.mlp.dense_h_to_4h.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.20.mlp.dense_h_to_4h.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.20.post_attention_layernorm.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.20.post_attention_layernorm.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.20.self_attention.dense.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.20.self_attention.dense.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.20.self_attention.query_key_value.bias": "model-00011-of-00036.safetensors",
+        "transformer.h.20.self_attention.query_key_value.weight": "model-00011-of-00036.safetensors",
+        "transformer.h.21.input_layernorm.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.21.input_layernorm.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.21.mlp.dense_4h_to_h.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.21.mlp.dense_4h_to_h.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.21.mlp.dense_h_to_4h.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.21.mlp.dense_h_to_4h.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.21.post_attention_layernorm.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.21.post_attention_layernorm.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.21.self_attention.dense.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.21.self_attention.dense.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.21.self_attention.query_key_value.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.21.self_attention.query_key_value.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.22.input_layernorm.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.22.input_layernorm.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.22.mlp.dense_4h_to_h.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.22.mlp.dense_4h_to_h.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.22.mlp.dense_h_to_4h.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.22.mlp.dense_h_to_4h.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.22.post_attention_layernorm.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.22.post_attention_layernorm.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.22.self_attention.dense.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.22.self_attention.dense.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.22.self_attention.query_key_value.bias": "model-00012-of-00036.safetensors",
+        "transformer.h.22.self_attention.query_key_value.weight": "model-00012-of-00036.safetensors",
+        "transformer.h.23.input_layernorm.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.23.input_layernorm.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.23.mlp.dense_4h_to_h.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.23.mlp.dense_4h_to_h.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.23.mlp.dense_h_to_4h.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.23.mlp.dense_h_to_4h.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.23.post_attention_layernorm.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.23.post_attention_layernorm.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.23.self_attention.dense.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.23.self_attention.dense.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.23.self_attention.query_key_value.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.23.self_attention.query_key_value.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.24.input_layernorm.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.24.input_layernorm.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.24.mlp.dense_4h_to_h.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.24.mlp.dense_4h_to_h.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.24.mlp.dense_h_to_4h.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.24.mlp.dense_h_to_4h.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.24.post_attention_layernorm.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.24.post_attention_layernorm.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.24.self_attention.dense.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.24.self_attention.dense.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.24.self_attention.query_key_value.bias": "model-00013-of-00036.safetensors",
+        "transformer.h.24.self_attention.query_key_value.weight": "model-00013-of-00036.safetensors",
+        "transformer.h.25.input_layernorm.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.25.input_layernorm.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.25.mlp.dense_4h_to_h.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.25.mlp.dense_4h_to_h.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.25.mlp.dense_h_to_4h.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.25.mlp.dense_h_to_4h.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.25.post_attention_layernorm.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.25.post_attention_layernorm.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.25.self_attention.dense.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.25.self_attention.dense.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.25.self_attention.query_key_value.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.25.self_attention.query_key_value.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.26.input_layernorm.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.26.input_layernorm.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.26.mlp.dense_4h_to_h.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.26.mlp.dense_4h_to_h.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.26.mlp.dense_h_to_4h.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.26.mlp.dense_h_to_4h.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.26.post_attention_layernorm.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.26.post_attention_layernorm.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.26.self_attention.dense.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.26.self_attention.dense.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.26.self_attention.query_key_value.bias": "model-00014-of-00036.safetensors",
+        "transformer.h.26.self_attention.query_key_value.weight": "model-00014-of-00036.safetensors",
+        "transformer.h.27.input_layernorm.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.27.input_layernorm.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.27.mlp.dense_4h_to_h.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.27.mlp.dense_4h_to_h.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.27.mlp.dense_h_to_4h.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.27.mlp.dense_h_to_4h.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.27.post_attention_layernorm.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.27.post_attention_layernorm.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.27.self_attention.dense.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.27.self_attention.dense.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.27.self_attention.query_key_value.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.27.self_attention.query_key_value.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.28.input_layernorm.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.28.input_layernorm.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.28.mlp.dense_4h_to_h.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.28.mlp.dense_4h_to_h.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.28.mlp.dense_h_to_4h.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.28.mlp.dense_h_to_4h.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.28.post_attention_layernorm.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.28.post_attention_layernorm.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.28.self_attention.dense.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.28.self_attention.dense.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.28.self_attention.query_key_value.bias": "model-00015-of-00036.safetensors",
+        "transformer.h.28.self_attention.query_key_value.weight": "model-00015-of-00036.safetensors",
+        "transformer.h.29.input_layernorm.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.29.input_layernorm.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.29.mlp.dense_4h_to_h.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.29.mlp.dense_4h_to_h.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.29.mlp.dense_h_to_4h.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.29.mlp.dense_h_to_4h.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.29.post_attention_layernorm.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.29.post_attention_layernorm.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.29.self_attention.dense.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.29.self_attention.dense.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.29.self_attention.query_key_value.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.29.self_attention.query_key_value.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.3.input_layernorm.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.3.input_layernorm.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.3.mlp.dense_4h_to_h.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.3.mlp.dense_4h_to_h.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.3.mlp.dense_h_to_4h.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.3.mlp.dense_h_to_4h.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.3.post_attention_layernorm.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.3.post_attention_layernorm.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.3.self_attention.dense.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.3.self_attention.dense.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.3.self_attention.query_key_value.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.3.self_attention.query_key_value.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.30.input_layernorm.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.30.input_layernorm.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.30.mlp.dense_4h_to_h.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.30.mlp.dense_4h_to_h.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.30.mlp.dense_h_to_4h.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.30.mlp.dense_h_to_4h.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.30.post_attention_layernorm.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.30.post_attention_layernorm.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.30.self_attention.dense.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.30.self_attention.dense.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.30.self_attention.query_key_value.bias": "model-00016-of-00036.safetensors",
+        "transformer.h.30.self_attention.query_key_value.weight": "model-00016-of-00036.safetensors",
+        "transformer.h.31.input_layernorm.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.31.input_layernorm.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.31.mlp.dense_4h_to_h.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.31.mlp.dense_4h_to_h.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.31.mlp.dense_h_to_4h.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.31.mlp.dense_h_to_4h.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.31.post_attention_layernorm.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.31.post_attention_layernorm.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.31.self_attention.dense.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.31.self_attention.dense.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.31.self_attention.query_key_value.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.31.self_attention.query_key_value.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.32.input_layernorm.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.32.input_layernorm.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.32.mlp.dense_4h_to_h.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.32.mlp.dense_4h_to_h.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.32.mlp.dense_h_to_4h.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.32.mlp.dense_h_to_4h.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.32.post_attention_layernorm.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.32.post_attention_layernorm.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.32.self_attention.dense.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.32.self_attention.dense.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.32.self_attention.query_key_value.bias": "model-00017-of-00036.safetensors",
+        "transformer.h.32.self_attention.query_key_value.weight": "model-00017-of-00036.safetensors",
+        "transformer.h.33.input_layernorm.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.33.input_layernorm.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.33.mlp.dense_4h_to_h.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.33.mlp.dense_4h_to_h.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.33.mlp.dense_h_to_4h.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.33.mlp.dense_h_to_4h.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.33.post_attention_layernorm.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.33.post_attention_layernorm.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.33.self_attention.dense.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.33.self_attention.dense.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.33.self_attention.query_key_value.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.33.self_attention.query_key_value.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.34.input_layernorm.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.34.input_layernorm.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.34.mlp.dense_4h_to_h.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.34.mlp.dense_4h_to_h.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.34.mlp.dense_h_to_4h.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.34.mlp.dense_h_to_4h.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.34.post_attention_layernorm.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.34.post_attention_layernorm.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.34.self_attention.dense.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.34.self_attention.dense.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.34.self_attention.query_key_value.bias": "model-00018-of-00036.safetensors",
+        "transformer.h.34.self_attention.query_key_value.weight": "model-00018-of-00036.safetensors",
+        "transformer.h.35.input_layernorm.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.35.input_layernorm.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.35.mlp.dense_4h_to_h.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.35.mlp.dense_4h_to_h.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.35.mlp.dense_h_to_4h.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.35.mlp.dense_h_to_4h.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.35.post_attention_layernorm.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.35.post_attention_layernorm.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.35.self_attention.dense.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.35.self_attention.dense.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.35.self_attention.query_key_value.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.35.self_attention.query_key_value.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.36.input_layernorm.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.36.input_layernorm.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.36.mlp.dense_4h_to_h.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.36.mlp.dense_4h_to_h.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.36.mlp.dense_h_to_4h.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.36.mlp.dense_h_to_4h.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.36.post_attention_layernorm.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.36.post_attention_layernorm.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.36.self_attention.dense.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.36.self_attention.dense.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.36.self_attention.query_key_value.bias": "model-00019-of-00036.safetensors",
+        "transformer.h.36.self_attention.query_key_value.weight": "model-00019-of-00036.safetensors",
+        "transformer.h.37.input_layernorm.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.37.input_layernorm.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.37.mlp.dense_4h_to_h.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.37.mlp.dense_4h_to_h.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.37.mlp.dense_h_to_4h.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.37.mlp.dense_h_to_4h.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.37.post_attention_layernorm.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.37.post_attention_layernorm.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.37.self_attention.dense.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.37.self_attention.dense.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.37.self_attention.query_key_value.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.37.self_attention.query_key_value.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.38.input_layernorm.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.38.input_layernorm.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.38.mlp.dense_4h_to_h.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.38.mlp.dense_4h_to_h.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.38.mlp.dense_h_to_4h.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.38.mlp.dense_h_to_4h.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.38.post_attention_layernorm.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.38.post_attention_layernorm.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.38.self_attention.dense.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.38.self_attention.dense.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.38.self_attention.query_key_value.bias": "model-00020-of-00036.safetensors",
+        "transformer.h.38.self_attention.query_key_value.weight": "model-00020-of-00036.safetensors",
+        "transformer.h.39.input_layernorm.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.39.input_layernorm.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.39.mlp.dense_4h_to_h.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.39.mlp.dense_4h_to_h.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.39.mlp.dense_h_to_4h.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.39.mlp.dense_h_to_4h.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.39.post_attention_layernorm.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.39.post_attention_layernorm.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.39.self_attention.dense.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.39.self_attention.dense.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.39.self_attention.query_key_value.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.39.self_attention.query_key_value.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.4.input_layernorm.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.4.input_layernorm.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.4.mlp.dense_4h_to_h.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.4.mlp.dense_4h_to_h.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.4.mlp.dense_h_to_4h.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.4.mlp.dense_h_to_4h.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.4.post_attention_layernorm.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.4.post_attention_layernorm.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.4.self_attention.dense.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.4.self_attention.dense.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.4.self_attention.query_key_value.bias": "model-00003-of-00036.safetensors",
+        "transformer.h.4.self_attention.query_key_value.weight": "model-00003-of-00036.safetensors",
+        "transformer.h.40.input_layernorm.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.40.input_layernorm.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.40.mlp.dense_4h_to_h.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.40.mlp.dense_4h_to_h.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.40.mlp.dense_h_to_4h.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.40.mlp.dense_h_to_4h.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.40.post_attention_layernorm.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.40.post_attention_layernorm.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.40.self_attention.dense.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.40.self_attention.dense.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.40.self_attention.query_key_value.bias": "model-00021-of-00036.safetensors",
+        "transformer.h.40.self_attention.query_key_value.weight": "model-00021-of-00036.safetensors",
+        "transformer.h.41.input_layernorm.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.41.input_layernorm.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.41.mlp.dense_4h_to_h.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.41.mlp.dense_4h_to_h.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.41.mlp.dense_h_to_4h.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.41.mlp.dense_h_to_4h.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.41.post_attention_layernorm.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.41.post_attention_layernorm.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.41.self_attention.dense.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.41.self_attention.dense.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.41.self_attention.query_key_value.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.41.self_attention.query_key_value.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.42.input_layernorm.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.42.input_layernorm.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.42.mlp.dense_4h_to_h.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.42.mlp.dense_4h_to_h.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.42.mlp.dense_h_to_4h.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.42.mlp.dense_h_to_4h.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.42.post_attention_layernorm.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.42.post_attention_layernorm.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.42.self_attention.dense.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.42.self_attention.dense.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.42.self_attention.query_key_value.bias": "model-00022-of-00036.safetensors",
+        "transformer.h.42.self_attention.query_key_value.weight": "model-00022-of-00036.safetensors",
+        "transformer.h.43.input_layernorm.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.43.input_layernorm.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.43.mlp.dense_4h_to_h.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.43.mlp.dense_4h_to_h.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.43.mlp.dense_h_to_4h.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.43.mlp.dense_h_to_4h.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.43.post_attention_layernorm.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.43.post_attention_layernorm.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.43.self_attention.dense.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.43.self_attention.dense.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.43.self_attention.query_key_value.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.43.self_attention.query_key_value.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.44.input_layernorm.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.44.input_layernorm.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.44.mlp.dense_4h_to_h.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.44.mlp.dense_4h_to_h.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.44.mlp.dense_h_to_4h.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.44.mlp.dense_h_to_4h.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.44.post_attention_layernorm.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.44.post_attention_layernorm.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.44.self_attention.dense.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.44.self_attention.dense.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.44.self_attention.query_key_value.bias": "model-00023-of-00036.safetensors",
+        "transformer.h.44.self_attention.query_key_value.weight": "model-00023-of-00036.safetensors",
+        "transformer.h.45.input_layernorm.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.45.input_layernorm.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.45.mlp.dense_4h_to_h.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.45.mlp.dense_4h_to_h.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.45.mlp.dense_h_to_4h.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.45.mlp.dense_h_to_4h.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.45.post_attention_layernorm.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.45.post_attention_layernorm.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.45.self_attention.dense.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.45.self_attention.dense.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.45.self_attention.query_key_value.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.45.self_attention.query_key_value.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.46.input_layernorm.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.46.input_layernorm.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.46.mlp.dense_4h_to_h.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.46.mlp.dense_4h_to_h.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.46.mlp.dense_h_to_4h.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.46.mlp.dense_h_to_4h.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.46.post_attention_layernorm.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.46.post_attention_layernorm.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.46.self_attention.dense.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.46.self_attention.dense.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.46.self_attention.query_key_value.bias": "model-00024-of-00036.safetensors",
+        "transformer.h.46.self_attention.query_key_value.weight": "model-00024-of-00036.safetensors",
+        "transformer.h.47.input_layernorm.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.47.input_layernorm.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.47.mlp.dense_4h_to_h.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.47.mlp.dense_4h_to_h.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.47.mlp.dense_h_to_4h.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.47.mlp.dense_h_to_4h.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.47.post_attention_layernorm.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.47.post_attention_layernorm.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.47.self_attention.dense.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.47.self_attention.dense.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.47.self_attention.query_key_value.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.47.self_attention.query_key_value.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.48.input_layernorm.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.48.input_layernorm.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.48.mlp.dense_4h_to_h.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.48.mlp.dense_4h_to_h.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.48.mlp.dense_h_to_4h.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.48.mlp.dense_h_to_4h.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.48.post_attention_layernorm.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.48.post_attention_layernorm.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.48.self_attention.dense.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.48.self_attention.dense.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.48.self_attention.query_key_value.bias": "model-00025-of-00036.safetensors",
+        "transformer.h.48.self_attention.query_key_value.weight": "model-00025-of-00036.safetensors",
+        "transformer.h.49.input_layernorm.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.49.input_layernorm.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.49.mlp.dense_4h_to_h.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.49.mlp.dense_4h_to_h.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.49.mlp.dense_h_to_4h.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.49.mlp.dense_h_to_4h.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.49.post_attention_layernorm.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.49.post_attention_layernorm.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.49.self_attention.dense.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.49.self_attention.dense.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.49.self_attention.query_key_value.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.49.self_attention.query_key_value.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.5.input_layernorm.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.5.input_layernorm.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.5.mlp.dense_4h_to_h.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.5.mlp.dense_4h_to_h.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.5.mlp.dense_h_to_4h.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.5.mlp.dense_h_to_4h.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.5.post_attention_layernorm.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.5.post_attention_layernorm.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.5.self_attention.dense.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.5.self_attention.dense.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.5.self_attention.query_key_value.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.5.self_attention.query_key_value.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.50.input_layernorm.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.50.input_layernorm.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.50.mlp.dense_4h_to_h.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.50.mlp.dense_4h_to_h.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.50.mlp.dense_h_to_4h.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.50.mlp.dense_h_to_4h.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.50.post_attention_layernorm.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.50.post_attention_layernorm.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.50.self_attention.dense.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.50.self_attention.dense.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.50.self_attention.query_key_value.bias": "model-00026-of-00036.safetensors",
+        "transformer.h.50.self_attention.query_key_value.weight": "model-00026-of-00036.safetensors",
+        "transformer.h.51.input_layernorm.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.51.input_layernorm.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.51.mlp.dense_4h_to_h.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.51.mlp.dense_4h_to_h.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.51.mlp.dense_h_to_4h.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.51.mlp.dense_h_to_4h.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.51.post_attention_layernorm.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.51.post_attention_layernorm.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.51.self_attention.dense.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.51.self_attention.dense.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.51.self_attention.query_key_value.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.51.self_attention.query_key_value.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.52.input_layernorm.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.52.input_layernorm.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.52.mlp.dense_4h_to_h.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.52.mlp.dense_4h_to_h.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.52.mlp.dense_h_to_4h.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.52.mlp.dense_h_to_4h.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.52.post_attention_layernorm.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.52.post_attention_layernorm.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.52.self_attention.dense.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.52.self_attention.dense.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.52.self_attention.query_key_value.bias": "model-00027-of-00036.safetensors",
+        "transformer.h.52.self_attention.query_key_value.weight": "model-00027-of-00036.safetensors",
+        "transformer.h.53.input_layernorm.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.53.input_layernorm.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.53.mlp.dense_4h_to_h.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.53.mlp.dense_4h_to_h.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.53.mlp.dense_h_to_4h.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.53.mlp.dense_h_to_4h.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.53.post_attention_layernorm.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.53.post_attention_layernorm.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.53.self_attention.dense.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.53.self_attention.dense.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.53.self_attention.query_key_value.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.53.self_attention.query_key_value.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.54.input_layernorm.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.54.input_layernorm.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.54.mlp.dense_4h_to_h.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.54.mlp.dense_4h_to_h.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.54.mlp.dense_h_to_4h.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.54.mlp.dense_h_to_4h.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.54.post_attention_layernorm.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.54.post_attention_layernorm.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.54.self_attention.dense.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.54.self_attention.dense.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.54.self_attention.query_key_value.bias": "model-00028-of-00036.safetensors",
+        "transformer.h.54.self_attention.query_key_value.weight": "model-00028-of-00036.safetensors",
+        "transformer.h.55.input_layernorm.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.55.input_layernorm.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.55.mlp.dense_4h_to_h.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.55.mlp.dense_4h_to_h.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.55.mlp.dense_h_to_4h.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.55.mlp.dense_h_to_4h.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.55.post_attention_layernorm.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.55.post_attention_layernorm.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.55.self_attention.dense.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.55.self_attention.dense.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.55.self_attention.query_key_value.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.55.self_attention.query_key_value.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.56.input_layernorm.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.56.input_layernorm.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.56.mlp.dense_4h_to_h.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.56.mlp.dense_4h_to_h.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.56.mlp.dense_h_to_4h.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.56.mlp.dense_h_to_4h.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.56.post_attention_layernorm.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.56.post_attention_layernorm.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.56.self_attention.dense.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.56.self_attention.dense.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.56.self_attention.query_key_value.bias": "model-00029-of-00036.safetensors",
+        "transformer.h.56.self_attention.query_key_value.weight": "model-00029-of-00036.safetensors",
+        "transformer.h.57.input_layernorm.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.57.input_layernorm.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.57.mlp.dense_4h_to_h.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.57.mlp.dense_4h_to_h.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.57.mlp.dense_h_to_4h.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.57.mlp.dense_h_to_4h.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.57.post_attention_layernorm.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.57.post_attention_layernorm.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.57.self_attention.dense.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.57.self_attention.dense.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.57.self_attention.query_key_value.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.57.self_attention.query_key_value.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.58.input_layernorm.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.58.input_layernorm.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.58.mlp.dense_4h_to_h.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.58.mlp.dense_4h_to_h.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.58.mlp.dense_h_to_4h.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.58.mlp.dense_h_to_4h.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.58.post_attention_layernorm.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.58.post_attention_layernorm.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.58.self_attention.dense.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.58.self_attention.dense.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.58.self_attention.query_key_value.bias": "model-00030-of-00036.safetensors",
+        "transformer.h.58.self_attention.query_key_value.weight": "model-00030-of-00036.safetensors",
+        "transformer.h.59.input_layernorm.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.59.input_layernorm.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.59.mlp.dense_4h_to_h.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.59.mlp.dense_4h_to_h.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.59.mlp.dense_h_to_4h.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.59.mlp.dense_h_to_4h.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.59.post_attention_layernorm.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.59.post_attention_layernorm.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.59.self_attention.dense.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.59.self_attention.dense.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.59.self_attention.query_key_value.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.59.self_attention.query_key_value.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.6.input_layernorm.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.6.input_layernorm.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.6.mlp.dense_4h_to_h.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.6.mlp.dense_4h_to_h.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.6.mlp.dense_h_to_4h.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.6.mlp.dense_h_to_4h.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.6.post_attention_layernorm.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.6.post_attention_layernorm.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.6.self_attention.dense.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.6.self_attention.dense.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.6.self_attention.query_key_value.bias": "model-00004-of-00036.safetensors",
+        "transformer.h.6.self_attention.query_key_value.weight": "model-00004-of-00036.safetensors",
+        "transformer.h.60.input_layernorm.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.60.input_layernorm.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.60.mlp.dense_4h_to_h.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.60.mlp.dense_4h_to_h.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.60.mlp.dense_h_to_4h.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.60.mlp.dense_h_to_4h.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.60.post_attention_layernorm.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.60.post_attention_layernorm.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.60.self_attention.dense.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.60.self_attention.dense.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.60.self_attention.query_key_value.bias": "model-00031-of-00036.safetensors",
+        "transformer.h.60.self_attention.query_key_value.weight": "model-00031-of-00036.safetensors",
+        "transformer.h.61.input_layernorm.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.61.input_layernorm.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.61.mlp.dense_4h_to_h.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.61.mlp.dense_4h_to_h.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.61.mlp.dense_h_to_4h.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.61.mlp.dense_h_to_4h.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.61.post_attention_layernorm.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.61.post_attention_layernorm.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.61.self_attention.dense.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.61.self_attention.dense.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.61.self_attention.query_key_value.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.61.self_attention.query_key_value.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.62.input_layernorm.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.62.input_layernorm.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.62.mlp.dense_4h_to_h.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.62.mlp.dense_4h_to_h.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.62.mlp.dense_h_to_4h.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.62.mlp.dense_h_to_4h.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.62.post_attention_layernorm.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.62.post_attention_layernorm.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.62.self_attention.dense.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.62.self_attention.dense.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.62.self_attention.query_key_value.bias": "model-00032-of-00036.safetensors",
+        "transformer.h.62.self_attention.query_key_value.weight": "model-00032-of-00036.safetensors",
+        "transformer.h.63.input_layernorm.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.63.input_layernorm.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.63.mlp.dense_4h_to_h.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.63.mlp.dense_4h_to_h.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.63.mlp.dense_h_to_4h.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.63.mlp.dense_h_to_4h.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.63.post_attention_layernorm.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.63.post_attention_layernorm.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.63.self_attention.dense.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.63.self_attention.dense.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.63.self_attention.query_key_value.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.63.self_attention.query_key_value.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.64.input_layernorm.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.64.input_layernorm.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.64.mlp.dense_4h_to_h.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.64.mlp.dense_4h_to_h.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.64.mlp.dense_h_to_4h.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.64.mlp.dense_h_to_4h.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.64.post_attention_layernorm.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.64.post_attention_layernorm.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.64.self_attention.dense.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.64.self_attention.dense.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.64.self_attention.query_key_value.bias": "model-00033-of-00036.safetensors",
+        "transformer.h.64.self_attention.query_key_value.weight": "model-00033-of-00036.safetensors",
+        "transformer.h.65.input_layernorm.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.65.input_layernorm.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.65.mlp.dense_4h_to_h.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.65.mlp.dense_4h_to_h.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.65.mlp.dense_h_to_4h.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.65.mlp.dense_h_to_4h.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.65.post_attention_layernorm.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.65.post_attention_layernorm.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.65.self_attention.dense.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.65.self_attention.dense.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.65.self_attention.query_key_value.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.65.self_attention.query_key_value.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.66.input_layernorm.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.66.input_layernorm.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.66.mlp.dense_4h_to_h.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.66.mlp.dense_4h_to_h.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.66.mlp.dense_h_to_4h.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.66.mlp.dense_h_to_4h.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.66.post_attention_layernorm.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.66.post_attention_layernorm.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.66.self_attention.dense.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.66.self_attention.dense.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.66.self_attention.query_key_value.bias": "model-00034-of-00036.safetensors",
+        "transformer.h.66.self_attention.query_key_value.weight": "model-00034-of-00036.safetensors",
+        "transformer.h.67.input_layernorm.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.67.input_layernorm.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.67.mlp.dense_4h_to_h.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.67.mlp.dense_4h_to_h.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.67.mlp.dense_h_to_4h.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.67.mlp.dense_h_to_4h.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.67.post_attention_layernorm.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.67.post_attention_layernorm.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.67.self_attention.dense.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.67.self_attention.dense.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.67.self_attention.query_key_value.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.67.self_attention.query_key_value.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.68.input_layernorm.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.68.input_layernorm.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.68.mlp.dense_4h_to_h.bias": "model-00036-of-00036.safetensors",
+        "transformer.h.68.mlp.dense_4h_to_h.weight": "model-00036-of-00036.safetensors",
+        "transformer.h.68.mlp.dense_h_to_4h.bias": "model-00036-of-00036.safetensors",
+        "transformer.h.68.mlp.dense_h_to_4h.weight": "model-00036-of-00036.safetensors",
+        "transformer.h.68.post_attention_layernorm.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.68.post_attention_layernorm.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.68.self_attention.dense.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.68.self_attention.dense.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.68.self_attention.query_key_value.bias": "model-00035-of-00036.safetensors",
+        "transformer.h.68.self_attention.query_key_value.weight": "model-00035-of-00036.safetensors",
+        "transformer.h.69.input_layernorm.bias": "model-00036-of-00036.safetensors",
+        "transformer.h.69.input_layernorm.weight": "model-00036-of-00036.safetensors",
+        "transformer.h.69.mlp.dense_4h_to_h.bias": "model-00036-of-00036.safetensors",
+        "transformer.h.69.mlp.dense_4h_to_h.weight": "model-00036-of-00036.safetensors",
+        "transformer.h.69.mlp.dense_h_to_4h.bias": "model-00036-of-00036.safetensors",
+        "transformer.h.69.mlp.dense_h_to_4h.weight": "model-00036-of-00036.safetensors",
+        "transformer.h.69.post_attention_layernorm.bias": "model-00036-of-00036.safetensors",
+        "transformer.h.69.post_attention_layernorm.weight": "model-00036-of-00036.safetensors",
+        "transformer.h.69.self_attention.dense.bias": "model-00036-of-00036.safetensors",
+        "transformer.h.69.self_attention.dense.weight": "model-00036-of-00036.safetensors",
+        "transformer.h.69.self_attention.query_key_value.bias": "model-00036-of-00036.safetensors",
+        "transformer.h.69.self_attention.query_key_value.weight": "model-00036-of-00036.safetensors",
+        "transformer.h.7.input_layernorm.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.7.input_layernorm.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.7.mlp.dense_4h_to_h.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.7.mlp.dense_4h_to_h.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.7.mlp.dense_h_to_4h.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.7.mlp.dense_h_to_4h.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.7.post_attention_layernorm.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.7.post_attention_layernorm.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.7.self_attention.dense.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.7.self_attention.dense.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.7.self_attention.query_key_value.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.7.self_attention.query_key_value.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.8.input_layernorm.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.8.input_layernorm.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.8.mlp.dense_4h_to_h.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.8.mlp.dense_4h_to_h.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.8.mlp.dense_h_to_4h.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.8.mlp.dense_h_to_4h.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.8.post_attention_layernorm.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.8.post_attention_layernorm.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.8.self_attention.dense.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.8.self_attention.dense.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.8.self_attention.query_key_value.bias": "model-00005-of-00036.safetensors",
+        "transformer.h.8.self_attention.query_key_value.weight": "model-00005-of-00036.safetensors",
+        "transformer.h.9.input_layernorm.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.9.input_layernorm.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.9.mlp.dense_4h_to_h.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.9.mlp.dense_4h_to_h.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.9.mlp.dense_h_to_4h.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.9.mlp.dense_h_to_4h.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.9.post_attention_layernorm.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.9.post_attention_layernorm.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.9.self_attention.dense.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.9.self_attention.dense.weight": "model-00006-of-00036.safetensors",
+        "transformer.h.9.self_attention.query_key_value.bias": "model-00006-of-00036.safetensors",
+        "transformer.h.9.self_attention.query_key_value.weight": "model-00006-of-00036.safetensors",
+        "transformer.ln_f.bias": "model-00036-of-00036.safetensors",
+        "transformer.ln_f.weight": "model-00036-of-00036.safetensors",
+        "transformer.word_embeddings.weight": "model-00001-of-00036.safetensors",
+        "transformer.word_embeddings_layernorm.bias": "model-00001-of-00036.safetensors",
+        "transformer.word_embeddings_layernorm.weight": "model-00001-of-00036.safetensors"
+    }
+}