Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

README.md +25 -0
assets/tokenizer/merges.txt +0 -0
assets/tokenizer/vocabulary.json +0 -0
config.json +22 -0
metadata.json +9 -0
model.weights.json +261 -0
model_00000.weights.h5 +3 -0
model_00001.weights.h5 +3 -0
model_00002.weights.h5 +3 -0
preprocessor.json +65 -0
task.json +95 -0
tokenizer.json +44 -0

README.md ADDED Viewed

	@@ -0,0 +1,25 @@

+---
+library_name: keras-hub
+pipeline_tag: text-generation
+---
+This is a [`Qwen` model](https://keras.io/api/keras_hub/models/qwen) uploaded using the KerasHub library and can be used with JAX, TensorFlow, and PyTorch backends.
+This model is related to a `CausalLM` task.
+Model config:
+* **name:** qwen_backbone
+* **trainable:** True
+* **vocabulary_size:** 152064
+* **num_layers:** 28
+* **num_query_heads:** 28
+* **hidden_dim:** 3584
+* **intermediate_dim:** 18944
+* **rope_max_wavelength:** 1000000.0
+* **rope_scaling_factor:** 1.0
+* **num_key_value_heads:** 4
+* **layer_norm_epsilon:** 1e-06
+* **dropout:** 0
+* **tie_word_embeddings:** False
+* **use_sliding_window_attention:** False
+* **sliding_window_size:** 131072
+This model card has been generated automatically and should be completed by the model author. See [Model Cards documentation](https://huggingface.co/docs/hub/model-cards) for more information.

assets/tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

assets/tokenizer/vocabulary.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "module": "keras_hub.src.models.qwen.qwen_backbone",
+    "class_name": "QwenBackbone",
+    "config": {
+        "name": "qwen_backbone",
+        "trainable": true,
+        "vocabulary_size": 152064,
+        "num_layers": 28,
+        "num_query_heads": 28,
+        "hidden_dim": 3584,
+        "intermediate_dim": 18944,
+        "rope_max_wavelength": 1000000.0,
+        "rope_scaling_factor": 1.0,
+        "num_key_value_heads": 4,
+        "layer_norm_epsilon": 1e-06,
+        "dropout": 0,
+        "tie_word_embeddings": false,
+        "use_sliding_window_attention": false,
+        "sliding_window_size": 131072
+    },
+    "registered_name": "keras_hub>QwenBackbone"
+}

metadata.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "keras_version": "3.10.0.dev2025051003",
+    "keras_hub_version": "0.21.0.dev202505090407",
+    "parameter_count": 7615616512,
+    "date_saved": "2025-05-11@00:34:37",
+    "tasks": [
+        "CausalLM"
+    ]
+}

model.weights.json ADDED Viewed

	@@ -0,0 +1,261 @@

+{
+    "metadata": {
+        "total_size": 30462466048.0
+    },
+    "weight_map": {
+        "/layers/reversible_embedding/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_1/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_2/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_3/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_4/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_5/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_6/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_7/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_8/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_9/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_10/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_11/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_12/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_13/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_14/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_15/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_16/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_17/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_18/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_19/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_20/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_21/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_22/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_23/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_24/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_25/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_26/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_feedforward_gate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_feedforward_intermediate_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_feedforward_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_feedforward_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_self_attention_layer/_key_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_self_attention_layer/_output_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_self_attention_layer/_query_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_self_attention_layer/_value_dense/vars": "model_00002.weights.h5",
+        "/layers/qwen_transformer_decoder_27/_self_attention_layernorm/vars": "model_00002.weights.h5",
+        "/layers/qwen_layer_norm/vars": "model_00002.weights.h5"
+    }
+}

model_00000.weights.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4784f9dc08e787ef9f984ba473d6b3f1fffcf62df773b05704e67b4c96357eec
+size 10496772680

model_00001.weights.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d38d74febdddb60c132abfc89bcdb39b2a40c9c4c594b8971b825149b246d3d
+size 10644013712

model_00002.weights.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e1213db4fd7d43addda5ef61c1ca1e15814781d1afe429c274b44af660a4aed
+size 9322680800

preprocessor.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+    "module": "keras_hub.src.models.qwen.qwen_causal_lm_preprocessor",
+    "class_name": "QwenCausalLMPreprocessor",
+    "config": {
+        "name": "qwen_causal_lm_preprocessor_2",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "float32"
+            },
+            "registered_name": null
+        },
+        "tokenizer": {
+            "module": "keras_hub.src.models.qwen.qwen_tokenizer",
+            "class_name": "QwenTokenizer",
+            "config": {
+                "name": "qwen_tokenizer",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "int32"
+                    },
+                    "registered_name": null
+                },
+                "config_file": "tokenizer.json",
+                "sequence_length": null,
+                "add_prefix_space": false,
+                "unsplittable_tokens": [
+                    "<|object_ref_end|>",
+                    "<|repo_name|>",
+                    "<|fim_suffix|>",
+                    "<|fim_prefix|>",
+                    "<|im_start|>",
+                    "<|vision_end|>",
+                    "</tool_call>",
+                    "<tool_call>",
+                    "<|im_end|>",
+                    "<|box_start|>",
+                    "<|image_pad|>",
+                    "<|file_sep|>",
+                    "<|quad_end|>",
+                    "<|video_pad|>",
+                    "<|vision_start|>",
+                    "<|fim_middle|>",
+                    "<|object_ref_start|>",
+                    "<|endoftext|>",
+                    "<|box_end|>",
+                    "<|fim_pad|>",
+                    "<|vision_pad|>",
+                    "<|quad_start|>"
+                ]
+            },
+            "registered_name": "keras_hub>QwenTokenizer"
+        },
+        "config_file": "preprocessor.json",
+        "sequence_length": 1024,
+        "add_start_token": true,
+        "add_end_token": true
+    },
+    "registered_name": "keras_hub>QwenCausalLMPreprocessor"
+}

task.json ADDED Viewed

	@@ -0,0 +1,95 @@

+{
+    "module": "keras_hub.src.models.qwen.qwen_causal_lm",
+    "class_name": "QwenCausalLM",
+    "config": {
+        "backbone": {
+            "module": "keras_hub.src.models.qwen.qwen_backbone",
+            "class_name": "QwenBackbone",
+            "config": {
+                "name": "qwen_backbone",
+                "trainable": true,
+                "vocabulary_size": 152064,
+                "num_layers": 28,
+                "num_query_heads": 28,
+                "hidden_dim": 3584,
+                "intermediate_dim": 18944,
+                "rope_max_wavelength": 1000000.0,
+                "rope_scaling_factor": 1.0,
+                "num_key_value_heads": 4,
+                "layer_norm_epsilon": 1e-06,
+                "dropout": 0,
+                "tie_word_embeddings": false,
+                "use_sliding_window_attention": false,
+                "sliding_window_size": 131072
+            },
+            "registered_name": "keras_hub>QwenBackbone"
+        },
+        "preprocessor": {
+            "module": "keras_hub.src.models.qwen.qwen_causal_lm_preprocessor",
+            "class_name": "QwenCausalLMPreprocessor",
+            "config": {
+                "name": "qwen_causal_lm_preprocessor_2",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "float32"
+                    },
+                    "registered_name": null
+                },
+                "tokenizer": {
+                    "module": "keras_hub.src.models.qwen.qwen_tokenizer",
+                    "class_name": "QwenTokenizer",
+                    "config": {
+                        "name": "qwen_tokenizer",
+                        "trainable": true,
+                        "dtype": {
+                            "module": "keras",
+                            "class_name": "DTypePolicy",
+                            "config": {
+                                "name": "int32"
+                            },
+                            "registered_name": null
+                        },
+                        "config_file": "tokenizer.json",
+                        "sequence_length": null,
+                        "add_prefix_space": false,
+                        "unsplittable_tokens": [
+                            "<|object_ref_end|>",
+                            "<|repo_name|>",
+                            "<|fim_suffix|>",
+                            "<|fim_prefix|>",
+                            "<|im_start|>",
+                            "<|vision_end|>",
+                            "</tool_call>",
+                            "<tool_call>",
+                            "<|im_end|>",
+                            "<|box_start|>",
+                            "<|image_pad|>",
+                            "<|file_sep|>",
+                            "<|quad_end|>",
+                            "<|video_pad|>",
+                            "<|vision_start|>",
+                            "<|fim_middle|>",
+                            "<|object_ref_start|>",
+                            "<|endoftext|>",
+                            "<|box_end|>",
+                            "<|fim_pad|>",
+                            "<|vision_pad|>",
+                            "<|quad_start|>"
+                        ]
+                    },
+                    "registered_name": "keras_hub>QwenTokenizer"
+                },
+                "config_file": "preprocessor.json",
+                "sequence_length": 1024,
+                "add_start_token": true,
+                "add_end_token": true
+            },
+            "registered_name": "keras_hub>QwenCausalLMPreprocessor"
+        },
+        "name": "qwen_causal_lm"
+    },
+    "registered_name": "keras_hub>QwenCausalLM"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+    "module": "keras_hub.src.models.qwen.qwen_tokenizer",
+    "class_name": "QwenTokenizer",
+    "config": {
+        "name": "qwen_tokenizer",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "int32"
+            },
+            "registered_name": null
+        },
+        "config_file": "tokenizer.json",
+        "sequence_length": null,
+        "add_prefix_space": false,
+        "unsplittable_tokens": [
+            "<|object_ref_end|>",
+            "<|repo_name|>",
+            "<|fim_suffix|>",
+            "<|fim_prefix|>",
+            "<|im_start|>",
+            "<|vision_end|>",
+            "</tool_call>",
+            "<tool_call>",
+            "<|im_end|>",
+            "<|box_start|>",
+            "<|image_pad|>",
+            "<|file_sep|>",
+            "<|quad_end|>",
+            "<|video_pad|>",
+            "<|vision_start|>",
+            "<|fim_middle|>",
+            "<|object_ref_start|>",
+            "<|endoftext|>",
+            "<|box_end|>",
+            "<|fim_pad|>",
+            "<|vision_pad|>",
+            "<|quad_start|>"
+        ]
+    },
+    "registered_name": "keras_hub>QwenTokenizer"
+}