Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

README.md +1 -1
config.json +60 -23
model.safetensors +2 -2
model.safetensors.index.json +1 -3
tokenizer_config.json +1 -0

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ tags:
 ---
 # mlx-community/Molmo-7B-D-0924-3bit
-This model was converted to MLX format from [`allenai/Molmo-7B-D-0924`]() using mlx-vlm version **0.1.0**.
 Refer to the [original model card](https://huggingface.co/allenai/Molmo-7B-D-0924) for more details on the model.
 ## Use with mlx

 ---
 # mlx-community/Molmo-7B-D-0924-3bit
+This model was converted to MLX format from [`allenai/Molmo-7B-D-0924`]() using mlx-vlm version **0.1.6**.
 Refer to the [original model card](https://huggingface.co/allenai/Molmo-7B-D-0924) for more details on the model.
 ## Use with mlx

config.json CHANGED Viewed

@@ -2,38 +2,75 @@
     "architectures": [
         "MolmoForCausalLM"
     ],
-    "attention_layer_norm": false,
     "auto_map": {
         "AutoConfig": "config_molmo.MolmoConfig",
         "AutoModelForCausalLM": "modeling_molmo.MolmoForCausalLM"
     },
-    "clip_qkv": null,
-    "embedding_size": 152064,
-    "hidden_size": 3584,
-    "initializer_range": 0.02,
-    "intermediate_size": 37888,
-    "layer_norm_eps": 1e-06,
-    "layer_norm_type": "rms",
-    "max_position_embeddings": 4096,
     "model_type": "molmo",
-    "norm_after": false,
-    "num_attention_heads": 28,
-    "num_hidden_layers": 28,
-    "num_key_value_heads": 4,
-    "qkv_bias": true,
     "quantization": {
         "group_size": 64,
         "bits": 3
     },
-    "rope_theta": 1000000.0,
-    "tie_word_embeddings": false,
-    "torch_dtype": "float32",
-    "transformers_version": "4.43.3",
-    "use_cache": true,
-    "use_position_ids": true,
     "vision_config": {
-        "intermediate_size": 640
     },
-    "vocab_size": 152064,
-    "weight_tying": false
 }

     "architectures": [
         "MolmoForCausalLM"
     ],
     "auto_map": {
         "AutoConfig": "config_molmo.MolmoConfig",
         "AutoModelForCausalLM": "modeling_molmo.MolmoForCausalLM"
     },
     "model_type": "molmo",
     "quantization": {
         "group_size": 64,
         "bits": 3
     },
+    "text_config": {
+        "model_type": "molmo",
+        "max_position_embeddings": 4096,
+        "d_model": 3584,
+        "n_heads": 28,
+        "n_kv_heads": 4,
+        "n_layers": 28,
+        "mlp_ratio": 4,
+        "max_sequence_length": 1024,
+        "act_output_multiplier": 0.5,
+        "mlp_hidden_size": 37888,
+        "vocab_size": 152064,
+        "embedding_size": 152064,
+        "additional_vocab_size": 128,
+        "attention_dropout": 0.1,
+        "residual_dropout": 0.1,
+        "embedding_dropout": 0.1,
+        "layer_norm_eps": 1e-05,
+        "initializer_range": 0.02,
+        "pad_token_id": -1,
+        "rope": true,
+        "rope_theta": 1000000.0,
+        "weight_tying": false,
+        "rope_full_precision": true,
+        "rope_impl": "interleave"
+    },
     "vision_config": {
+        "model_type": "molmo",
+        "num_channels": 3,
+        "image_default_input_size": [
+            336,
+            336
+        ],
+        "image_patch_size": 14,
+        "image_pos_patch_size": 14,
+        "hidden_size": 18944,
+        "image_emb_dim": 1024,
+        "image_num_heads": 16,
+        "image_num_key_value_heads": 16,
+        "image_num_layers": 23,
+        "image_head_dim": 64,
+        "image_mlp_dim": 4096,
+        "image_mlp_activations": "gelu",
+        "image_dropout_rate": 0.0,
+        "image_num_pos": 577,
+        "image_norm_eps": 1e-05,
+        "attention_dropout": 0.0,
+        "residual_dropout": 0.0,
+        "initializer_range": 0.02,
+        "d_model": 3584,
+        "image_pooling_h": 2,
+        "image_pooling_w": 2,
+        "vit_layers": [
+            -2,
+            -9
+        ],
+        "image_pooling_2d": "attention-meanq",
+        "image_padding_embed": "pad_and_partial_pad",
+        "intermediate_size": 588,
+        "skip_vision_non_divisible": true
     },
+    "vocab_size": 152064
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73ca1fa395fae184cc58402e30921ccdd7a501df37ebe7ac5b96977ee53ab31d
-size 4363622716

 version https://git-lfs.github.com/spec/v1
+oid sha256:0574f80e4b56192739ecdd2913ac1493e670def9bc06944f02d14e9c87e94ead
+size 4364499163

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
     "metadata": {
-        "total_size": 4363478016
     },
     "weight_map": {
         "language_model.model.blocks.0.att_proj.bias": "model.safetensors",
@@ -455,8 +455,6 @@
         "vision_tower.image_projector.w3.scales": "model.safetensors",
         "vision_tower.image_projector.w3.weight": "model.safetensors",
         "vision_tower.image_vit.class_embedding": "model.safetensors",
-        "vision_tower.image_vit.patch_embedding.biases": "model.safetensors",
-        "vision_tower.image_vit.patch_embedding.scales": "model.safetensors",
         "vision_tower.image_vit.patch_embedding.weight": "model.safetensors",
         "vision_tower.image_vit.positional_embedding": "model.safetensors",
         "vision_tower.image_vit.pre_ln.bias": "model.safetensors",

 {
     "metadata": {
+        "total_size": 4364354560
     },
     "weight_map": {
         "language_model.model.blocks.0.att_proj.bias": "model.safetensors",
         "vision_tower.image_projector.w3.scales": "model.safetensors",
         "vision_tower.image_projector.w3.weight": "model.safetensors",
         "vision_tower.image_vit.class_embedding": "model.safetensors",
         "vision_tower.image_vit.patch_embedding.weight": "model.safetensors",
         "vision_tower.image_vit.positional_embedding": "model.safetensors",
         "vision_tower.image_vit.pre_ln.bias": "model.safetensors",

tokenizer_config.json CHANGED Viewed

@@ -3843,6 +3843,7 @@
   "clean_up_tokenization_spaces": false,
   "eos_token": "<|endoftext|>",
   "errors": "replace",
   "model_max_length": 32768,
   "pad_token": "<|endoftext|>",
   "processor_class": "MolmoProcessor",

   "clean_up_tokenization_spaces": false,
   "eos_token": "<|endoftext|>",
   "errors": "replace",
+  "extra_special_tokens": {},
   "model_max_length": 32768,
   "pad_token": "<|endoftext|>",
   "processor_class": "MolmoProcessor",