Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

config.json +5 -1
metadata.json +3 -3
model.weights.json +297 -0
model_00000.weights.h5 +3 -0
model_00001.weights.h5 +3 -0
preprocessor.json +48 -0
task.json +79 -0

config.json CHANGED Viewed

@@ -10,7 +10,11 @@
         "hidden_dim": 4096,
         "intermediate_dim": 14336,
         "rope_max_wavelength": 500000.0,
-        "rope_scaling_factor": 1.0,
         "num_key_value_heads": 8,
         "layer_norm_epsilon": 1e-05,
         "dropout": 0

         "hidden_dim": 4096,
         "intermediate_dim": 14336,
         "rope_max_wavelength": 500000.0,
+        "rope_position_scaling_factor": 1.0,
+        "rope_frequency_adjustment_factor": null,
+        "rope_low_freq_factor": null,
+        "rope_high_freq_factor": null,
+        "rope_pretraining_sequence_length": null,
         "num_key_value_heads": 8,
         "layer_norm_epsilon": 1e-05,
         "dropout": 0

metadata.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "keras_version": "3.7.0",
-    "keras_hub_version": "0.19.0",
     "parameter_count": 8030261248,
-    "date_saved": "2024-12-21@18:57:14",
     "tasks": [
         "LlamaCausalLM"
     ]

 {
+    "keras_version": "3.10.0",
+    "keras_hub_version": "0.21.0.dev0",
     "parameter_count": 8030261248,
+    "date_saved": "2025-05-21@20:41:52",
     "tasks": [
         "LlamaCausalLM"
     ]

model.weights.json ADDED Viewed

	@@ -0,0 +1,297 @@

+{
+    "metadata": {
+        "total_size": 16060522496.0
+    },
+    "weight_map": {
+        "/layers/reversible_embedding/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_1/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_2/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_3/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_4/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_5/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_6/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_7/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_8/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_9/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_10/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_11/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_12/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_13/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_14/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_15/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_16/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_17/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_feedforward_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_self_attention_layer/_key_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_self_attention_layer/_output_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_self_attention_layer/_query_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_self_attention_layer/_value_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_18/_self_attention_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_19/_feedforward_gate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_19/_feedforward_intermediate_dense/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_19/_feedforward_layernorm/vars": "model_00000.weights.h5",
+        "/layers/llama_transformer_decoder_19/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_19/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_19/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_19/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_19/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_19/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_20/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_21/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_22/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_23/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_24/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_25/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_26/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_27/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_28/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_29/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_30/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_feedforward_gate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_feedforward_intermediate_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_feedforward_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_feedforward_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_self_attention_layer/_key_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_self_attention_layer/_output_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_self_attention_layer/_query_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_self_attention_layer/_value_dense/vars": "model_00001.weights.h5",
+        "/layers/llama_transformer_decoder_31/_self_attention_layernorm/vars": "model_00001.weights.h5",
+        "/layers/llama_layer_norm/vars": "model_00001.weights.h5"
+    }
+}

model_00000.weights.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ad68fa83b25607727fad8f18da1b2679e46d3853b48f9ddc52677370255638c
+size 10625162328

model_00001.weights.h5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e93d83d68f60877240ce509eff8a7badf3fd5b6a8869aecba88ab41a917a609
+size 5436473240

preprocessor.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+    "module": "keras_hub.src.models.llama3.llama3_causal_lm_preprocessor",
+    "class_name": "Llama3CausalLMPreprocessor",
+    "config": {
+        "name": "llama3_causal_lm_preprocessor",
+        "trainable": true,
+        "dtype": {
+            "module": "keras",
+            "class_name": "DTypePolicy",
+            "config": {
+                "name": "bfloat16"
+            },
+            "registered_name": null
+        },
+        "tokenizer": {
+            "module": "keras_hub.src.models.llama3.llama3_tokenizer",
+            "class_name": "Llama3Tokenizer",
+            "config": {
+                "name": "llama3_tokenizer",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "int32"
+                    },
+                    "registered_name": null
+                },
+                "config_file": "tokenizer.json",
+                "sequence_length": null,
+                "add_prefix_space": false,
+                "unsplittable_tokens": [
+                    "<|begin_of_text|>",
+                    "<|start_header_id|>",
+                    "<|eot_id|>",
+                    "<|end_header_id|>",
+                    "<|end_of_text|>"
+                ]
+            },
+            "registered_name": "keras_hub>Llama3Tokenizer"
+        },
+        "config_file": "preprocessor.json",
+        "sequence_length": 1024,
+        "add_start_token": true,
+        "add_end_token": true
+    },
+    "registered_name": "keras_hub>Llama3CausalLMPreprocessor"
+}

task.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+    "module": "keras_hub.src.models.llama3.llama3_causal_lm",
+    "class_name": "Llama3CausalLM",
+    "config": {
+        "backbone": {
+            "module": "keras_hub.src.models.llama3.llama3_backbone",
+            "class_name": "Llama3Backbone",
+            "config": {
+                "name": "llama_backbone",
+                "trainable": true,
+                "vocabulary_size": 128256,
+                "num_layers": 32,
+                "num_query_heads": 32,
+                "hidden_dim": 4096,
+                "intermediate_dim": 14336,
+                "rope_max_wavelength": 500000.0,
+                "rope_position_scaling_factor": 1.0,
+                "rope_frequency_adjustment_factor": null,
+                "rope_low_freq_factor": null,
+                "rope_high_freq_factor": null,
+                "rope_pretraining_sequence_length": null,
+                "num_key_value_heads": 8,
+                "layer_norm_epsilon": 1e-05,
+                "dropout": 0
+            },
+            "registered_name": "keras_hub>Llama3Backbone"
+        },
+        "preprocessor": {
+            "module": "keras_hub.src.models.llama3.llama3_causal_lm_preprocessor",
+            "class_name": "Llama3CausalLMPreprocessor",
+            "config": {
+                "name": "llama3_causal_lm_preprocessor",
+                "trainable": true,
+                "dtype": {
+                    "module": "keras",
+                    "class_name": "DTypePolicy",
+                    "config": {
+                        "name": "bfloat16"
+                    },
+                    "registered_name": null
+                },
+                "tokenizer": {
+                    "module": "keras_hub.src.models.llama3.llama3_tokenizer",
+                    "class_name": "Llama3Tokenizer",
+                    "config": {
+                        "name": "llama3_tokenizer",
+                        "trainable": true,
+                        "dtype": {
+                            "module": "keras",
+                            "class_name": "DTypePolicy",
+                            "config": {
+                                "name": "int32"
+                            },
+                            "registered_name": null
+                        },
+                        "config_file": "tokenizer.json",
+                        "sequence_length": null,
+                        "add_prefix_space": false,
+                        "unsplittable_tokens": [
+                            "<|begin_of_text|>",
+                            "<|start_header_id|>",
+                            "<|eot_id|>",
+                            "<|end_header_id|>",
+                            "<|end_of_text|>"
+                        ]
+                    },
+                    "registered_name": "keras_hub>Llama3Tokenizer"
+                },
+                "config_file": "preprocessor.json",
+                "sequence_length": 1024,
+                "add_start_token": true,
+                "add_end_token": true
+            },
+            "registered_name": "keras_hub>Llama3CausalLMPreprocessor"
+        },
+        "name": "llama3_causal_lm"
+    },
+    "registered_name": "keras_hub>Llama3CausalLM"
+}