Upload InternVLForConditionalGeneration

Browse files

Files changed (5) hide show

config.json +1 -0
model-00001-of-00016.safetensors +2 -2
model-00002-of-00016.safetensors +2 -2
model-00003-of-00016.safetensors +2 -2
model.safetensors.index.json +1 -46

config.json CHANGED Viewed

@@ -37,6 +37,7 @@
     "use_sliding_window": false,
     "vocab_size": 151674
   },
   "transformers_version": "4.52.0.dev0",
   "vision_config": {
     "architectures": [

     "use_sliding_window": false,
     "vocab_size": 151674
   },
+  "torch_dtype": "bfloat16",
   "transformers_version": "4.52.0.dev0",
   "vision_config": {
     "architectures": [

model-00001-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a77dfda0aafb9258be7fc631b56049d57b5f953ebd35196a6aa5b70061bdc510
-size 4988693808

 version https://git-lfs.github.com/spec/v1
+oid sha256:c15466cb27d9e0f4b8cbe985e743cc30a648694ed904c965565f17ec82b14045
+size 4988563328

model-00002-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e55689b5e2a76724462140ab0c96b4b1e29f20940b56b36a4f3e590c9c5e0008
-size 4937410320

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7840a85f648d99c34a38a7a0f94e093e6cb4fdc62901be146a5518000560ab2
+size 4937273312

model-00003-of-00016.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:906dc1df4cf30022138b2cabb2cf371a58aae3eda040ff4b725ca06309036779
-size 4960249904

 version https://git-lfs.github.com/spec/v1
+oid sha256:90a83f8196f754901bb00a50a29deb2279cfe49db8a0d601468d1cf5bc18994a
+size 4960223800

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 76776617984
   },
   "weight_map": {
     "language_model.lm_head.weight": "model-00016-of-00016.safetensors",
@@ -784,7 +784,6 @@
     "vision_tower.embeddings.patch_embeddings.projection.bias": "model-00001-of-00016.safetensors",
     "vision_tower.embeddings.patch_embeddings.projection.weight": "model-00001-of-00016.safetensors",
     "vision_tower.embeddings.position_embeddings": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.0.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -800,7 +799,6 @@
     "vision_tower.encoder.layer.0.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.1.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -816,7 +814,6 @@
     "vision_tower.encoder.layer.1.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.10.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -832,7 +829,6 @@
     "vision_tower.encoder.layer.10.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.11.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -848,7 +844,6 @@
     "vision_tower.encoder.layer.11.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.12.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -864,7 +859,6 @@
     "vision_tower.encoder.layer.12.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.13.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -880,7 +874,6 @@
     "vision_tower.encoder.layer.13.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.14.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -896,7 +889,6 @@
     "vision_tower.encoder.layer.14.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.15.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -912,7 +904,6 @@
     "vision_tower.encoder.layer.15.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.16.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -928,7 +919,6 @@
     "vision_tower.encoder.layer.16.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.17.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -944,7 +934,6 @@
     "vision_tower.encoder.layer.17.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.18.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -960,7 +949,6 @@
     "vision_tower.encoder.layer.18.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.19.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -976,7 +964,6 @@
     "vision_tower.encoder.layer.19.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.2.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -992,7 +979,6 @@
     "vision_tower.encoder.layer.2.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.20.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.20.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.20.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.20.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1008,7 +994,6 @@
     "vision_tower.encoder.layer.20.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.21.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1024,7 +1009,6 @@
     "vision_tower.encoder.layer.21.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.22.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1040,7 +1024,6 @@
     "vision_tower.encoder.layer.22.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.23.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1056,7 +1039,6 @@
     "vision_tower.encoder.layer.23.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.24.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1072,7 +1054,6 @@
     "vision_tower.encoder.layer.24.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.25.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1088,7 +1069,6 @@
     "vision_tower.encoder.layer.25.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.26.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1104,7 +1084,6 @@
     "vision_tower.encoder.layer.26.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.27.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1120,7 +1099,6 @@
     "vision_tower.encoder.layer.27.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.28.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1136,7 +1114,6 @@
     "vision_tower.encoder.layer.28.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.29.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1152,7 +1129,6 @@
     "vision_tower.encoder.layer.29.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.3.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -1168,7 +1144,6 @@
     "vision_tower.encoder.layer.3.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.30.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1184,7 +1159,6 @@
     "vision_tower.encoder.layer.30.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.31.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1200,7 +1174,6 @@
     "vision_tower.encoder.layer.31.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.32.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1216,7 +1189,6 @@
     "vision_tower.encoder.layer.32.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.33.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1232,7 +1204,6 @@
     "vision_tower.encoder.layer.33.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.34.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1248,7 +1219,6 @@
     "vision_tower.encoder.layer.34.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.35.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1264,7 +1234,6 @@
     "vision_tower.encoder.layer.35.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.36.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1280,7 +1249,6 @@
     "vision_tower.encoder.layer.36.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.37.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1296,7 +1264,6 @@
     "vision_tower.encoder.layer.37.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.38.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1312,7 +1279,6 @@
     "vision_tower.encoder.layer.38.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.39.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1328,7 +1294,6 @@
     "vision_tower.encoder.layer.39.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.mlp.fc2.weight": "model-00002-of-00016.safetensors",
-    "vision_tower.encoder.layer.4.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -1344,7 +1309,6 @@
     "vision_tower.encoder.layer.4.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.40.attention.k_norm.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.40.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.40.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.40.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
@@ -1360,7 +1324,6 @@
     "vision_tower.encoder.layer.40.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.40.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.40.mlp.fc2.weight": "model-00003-of-00016.safetensors",
-    "vision_tower.encoder.layer.41.attention.k_norm.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.attention.k_norm.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.attention.k_proj.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.attention.projection_layer.bias": "model-00003-of-00016.safetensors",
@@ -1376,7 +1339,6 @@
     "vision_tower.encoder.layer.41.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.mlp.fc2.weight": "model-00003-of-00016.safetensors",
-    "vision_tower.encoder.layer.42.attention.k_norm.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.attention.k_norm.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.attention.k_proj.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.attention.projection_layer.bias": "model-00003-of-00016.safetensors",
@@ -1392,7 +1354,6 @@
     "vision_tower.encoder.layer.42.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.mlp.fc2.weight": "model-00003-of-00016.safetensors",
-    "vision_tower.encoder.layer.43.attention.k_norm.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.attention.k_norm.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.attention.k_proj.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.attention.projection_layer.bias": "model-00003-of-00016.safetensors",
@@ -1408,7 +1369,6 @@
     "vision_tower.encoder.layer.43.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.mlp.fc2.weight": "model-00003-of-00016.safetensors",
-    "vision_tower.encoder.layer.44.attention.k_norm.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.attention.k_norm.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.attention.k_proj.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.attention.projection_layer.bias": "model-00003-of-00016.safetensors",
@@ -1424,7 +1384,6 @@
     "vision_tower.encoder.layer.44.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.mlp.fc2.weight": "model-00003-of-00016.safetensors",
-    "vision_tower.encoder.layer.5.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -1440,7 +1399,6 @@
     "vision_tower.encoder.layer.5.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.6.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -1456,7 +1414,6 @@
     "vision_tower.encoder.layer.6.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.7.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -1472,7 +1429,6 @@
     "vision_tower.encoder.layer.7.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.8.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
@@ -1488,7 +1444,6 @@
     "vision_tower.encoder.layer.8.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc2.weight": "model-00001-of-00016.safetensors",
-    "vision_tower.encoder.layer.9.attention.k_norm.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.9.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.9.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.9.attention.projection_layer.bias": "model-00001-of-00016.safetensors",

 {
   "metadata": {
+    "total_size": 76776329984
   },
   "weight_map": {
     "language_model.lm_head.weight": "model-00016-of-00016.safetensors",
     "vision_tower.embeddings.patch_embeddings.projection.bias": "model-00001-of-00016.safetensors",
     "vision_tower.embeddings.patch_embeddings.projection.weight": "model-00001-of-00016.safetensors",
     "vision_tower.embeddings.position_embeddings": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.0.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.1.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.10.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.11.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.12.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.13.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.14.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.15.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.16.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.17.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.18.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.19.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.2.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.20.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.20.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.20.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.20.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.21.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.22.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.23.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.24.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.25.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.26.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.27.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.28.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.29.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.3.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.3.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.30.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.30.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.31.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.32.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.33.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.34.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.35.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.36.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.37.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.38.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.mlp.fc1.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.mlp.fc2.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.39.mlp.fc2.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.4.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.4.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.40.attention.k_norm.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.40.attention.k_proj.weight": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.40.attention.projection_layer.bias": "model-00002-of-00016.safetensors",
     "vision_tower.encoder.layer.40.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.40.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.40.mlp.fc2.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.attention.k_norm.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.attention.k_proj.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.attention.projection_layer.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.41.mlp.fc2.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.attention.k_norm.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.attention.k_proj.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.attention.projection_layer.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.42.mlp.fc2.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.attention.k_norm.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.attention.k_proj.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.attention.projection_layer.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.43.mlp.fc2.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.attention.k_norm.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.attention.k_proj.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.attention.projection_layer.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.mlp.fc1.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.mlp.fc2.bias": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.44.mlp.fc2.weight": "model-00003-of-00016.safetensors",
     "vision_tower.encoder.layer.5.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.5.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.6.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.7.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.attention.projection_layer.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc1.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc2.bias": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.8.mlp.fc2.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.9.attention.k_norm.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.9.attention.k_proj.weight": "model-00001-of-00016.safetensors",
     "vision_tower.encoder.layer.9.attention.projection_layer.bias": "model-00001-of-00016.safetensors",