reyvan
/

Qwen-7B-8bit

Text Generation

4-bit precision

Model card Files Files and versions Community

reyvan commited on Feb 22, 2024

Commit

48ae118

·

verified ·

1 Parent(s): 30e7196

Upload config.json

Files changed (1) hide show

config.json +16 -22

config.json CHANGED Viewed

@@ -1,23 +1,22 @@
 {
-  "_name_or_path": "Qwen/Qwen-7B",
   "architectures": [
     "QWenLMHeadModel"
   ],
-  "attn_dropout_prob": 0.0,
   "auto_map": {
-    "AutoConfig": "Qwen/Qwen-7B--configuration_qwen.QWenConfig",
-    "AutoModelForCausalLM": "Qwen/Qwen-7B--modeling_qwen.QWenLMHeadModel"
   },
-  "bf16": true,
   "emb_dropout_prob": 0.0,
-  "fp16": false,
   "fp32": false,
   "hidden_size": 4096,
-  "initializer_range": 0.02,
   "intermediate_size": 22016,
   "kv_channels": 128,
   "layer_norm_epsilon": 1e-06,
-  "max_position_embeddings": 32768,
   "model_type": "qwen",
   "no_bias": true,
   "num_attention_heads": 32,
@@ -25,31 +24,26 @@
   "onnx_safe": null,
   "quantization_config": {
     "bits": 4,
     "damp_percent": 0.01,
     "desc_act": false,
-    "group_size": 128,
-    "is_marlin_format": false,
-    "model_file_base_name": "gptq_model-4bit-128g",
-    "model_name_or_path": "Qwen-7B-125m-4bit-128g",
-    "quant_method": "gptq",
     "static_groups": false,
     "sym": true,
-    "true_sequential": true
   },
   "rotary_emb_base": 10000,
   "rotary_pct": 1.0,
   "scale_attn_weights": true,
-  "seq_length": 8192,
-  "softmax_in_fp32": false,
   "tie_word_embeddings": false,
   "tokenizer_class": "QWenTokenizer",
-  "torch_dtype": "float16",
-  "transformers_version": "4.37.2",
   "use_cache": true,
-  "use_cache_kernel": false,
-  "use_cache_quantization": false,
   "use_dynamic_ntk": true,
-  "use_flash_attn": true,
   "use_logn_attn": true,
   "vocab_size": 151936
-}

 {
   "architectures": [
     "QWenLMHeadModel"
   ],
   "auto_map": {
+    "AutoConfig": "configuration_qwen.QWenConfig",
+    "AutoModelForCausalLM": "modeling_qwen.QWenLMHeadModel"
   },
+  "attn_dropout_prob": 0.0,
+  "bf16": false,
   "emb_dropout_prob": 0.0,
+  "fp16": true,
   "fp32": false,
   "hidden_size": 4096,
   "intermediate_size": 22016,
+  "initializer_range": 0.02,
   "kv_channels": 128,
   "layer_norm_epsilon": 1e-06,
+  "max_position_embeddings": 8192,
   "model_type": "qwen",
   "no_bias": true,
   "num_attention_heads": 32,
   "onnx_safe": null,
   "quantization_config": {
     "bits": 4,
+    "group_size": 128,
     "damp_percent": 0.01,
     "desc_act": false,
     "static_groups": false,
     "sym": true,
+    "true_sequential": true,
+    "model_name_or_path": null,
+    "model_file_base_name": "model",
+    "quant_method": "gptq"
   },
   "rotary_emb_base": 10000,
   "rotary_pct": 1.0,
   "scale_attn_weights": true,
+  "seq_length": 2048,
   "tie_word_embeddings": false,
   "tokenizer_class": "QWenTokenizer",
+  "transformers_version": "4.32.0",
   "use_cache": true,
   "use_dynamic_ntk": true,
+  "use_flash_attn": "auto",
   "use_logn_attn": true,
   "vocab_size": 151936
+}