79aeca2c297a66d5fe4a620f3f51155579cd84352e14aa96d80adb8a776d652c

Browse files

Files changed (12) hide show

README.md +271 -0
added_tokens.json +5 -0
config.json +39 -0
generation_config.json +11 -0
huggingface-metadata.txt +22 -0
merges.txt +0 -0
model.safetensors.index.json +1042 -0
output-00008-of-00008.safetensors +3 -0
special_tokens_map.json +20 -0
tokenizer.json +0 -0
tokenizer_config.json +43 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,271 @@

+---
+license: mit
+model-index:
+- name: RYS-XLarge
+  results:
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: IFEval (0-Shot)
+      type: HuggingFaceH4/ifeval
+      args:
+        num_few_shot: 0
+    metrics:
+    - type: inst_level_strict_acc and prompt_level_strict_acc
+      value: 79.96
+      name: strict accuracy
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dnhkng/RYS-XLarge
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: BBH (3-Shot)
+      type: BBH
+      args:
+        num_few_shot: 3
+    metrics:
+    - type: acc_norm
+      value: 58.77
+      name: normalized accuracy
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dnhkng/RYS-XLarge
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: MATH Lvl 5 (4-Shot)
+      type: hendrycks/competition_math
+      args:
+        num_few_shot: 4
+    metrics:
+    - type: exact_match
+      value: 38.97
+      name: exact match
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dnhkng/RYS-XLarge
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: GPQA (0-shot)
+      type: Idavidrein/gpqa
+      args:
+        num_few_shot: 0
+    metrics:
+    - type: acc_norm
+      value: 17.9
+      name: acc_norm
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dnhkng/RYS-XLarge
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: MuSR (0-shot)
+      type: TAUR-Lab/MuSR
+      args:
+        num_few_shot: 0
+    metrics:
+    - type: acc_norm
+      value: 23.72
+      name: acc_norm
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dnhkng/RYS-XLarge
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: MMLU-PRO (5-shot)
+      type: TIGER-Lab/MMLU-Pro
+      config: main
+      split: test
+      args:
+        num_few_shot: 5
+    metrics:
+    - type: acc
+      value: 49.2
+      name: accuracy
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=dnhkng/RYS-XLarge
+      name: Open LLM Leaderboard
+---
+This is a new kind of model optimization.
+This model is based on MaziyarPanahi/calme-2.1-qwen2-72b, which was tuned from Qwen2-72B.
+A paper is currently being written on the technique.  Special thanks to my wife, for putting up with me coding in the basement for too many evenings and weekends for months!
+## Quickstart
+Here provides a code snippet with `apply_chat_template` to show you how to load the tokenizer and model and how to generate contents.
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+device = "cuda" # the device to load the model onto
+model = AutoModelForCausalLM.from_pretrained(
+    "dnhkng/RYS-XLarge",
+    torch_dtype="auto",
+    device_map="auto"
+)
+tokenizer = AutoTokenizer.from_pretrained("dnhkng/RYS-XLarge")
+prompt = "Give me a short introduction to large language model."
+messages = [
+    {"role": "system", "content": "You are a helpful assistant."},
+    {"role": "user", "content": prompt}
+]
+text = tokenizer.apply_chat_template(
+    messages,
+    tokenize=False,
+    add_generation_prompt=True
+)
+model_inputs = tokenizer([text], return_tensors="pt").to(device)
+generated_ids = model.generate(
+    model_inputs.input_ids,
+    max_new_tokens=512
+)
+generated_ids = [
+    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
+]
+response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
+```
+# [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
+Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/details_dnhkng__RYS-XLarge)
+|      Metric       |Value|
+|-------------------|----:|
+|Avg.               |44.75|
+|IFEval (0-Shot)    |79.96|
+|BBH (3-Shot)       |58.77|
+|MATH Lvl 5 (4-Shot)|38.97|
+|GPQA (0-shot)      |17.90|
+|MuSR (0-shot)      |23.72|
+|MMLU-PRO (5-shot)  |49.20|
+___________________________________
+# *ADVERTISING BREAK*
+I’m on the hunt for new challenges and a chance to dive into some exciting research opportunities. Oh, and did I mention I just snagged a top spot on the Open LLM leaderboard? 🎉
+## CV - Dr David Noel Ng
+#### Profile
+Innovation enthusiast, AI-strategist, and interdisciplinary-tech nerd – that's me in a nutshell. With over a decade of experience in research and project management, my professional journey has been largely shaped by my passion for artificial intelligence and its potential to transform various industries. With a solid background in artificial intelligence and machine learning, coupled with a knack for innovation and problem-solving (and a healthy dose of curiosity), I'm excited to bring my skills to a new team.
+Originally from Australia, where I earned my degrees in Organic Chemistry and Biochemistry, I moved to Germany in 2004. My academic pursuit continued with a Ph.D. in Chemistry at the Max Planck Institute of Biochemistry. Today, I leverage my robust educational background and diverse industry experience to drive AI innovations in a wide range of applications. Hobbies? Lots: I've also built the world's most powerful espresso machine and am working to bring [GLaDOS to life](https://github.com/dnhkng/GlaDOS).
+___________________________________
+### PROFESSIONAL EXPERIENCE
+####  SENIOR GLOBAL INNOVATION STRATEGIST - ARTIFICIAL INTELLIGENCE
+#### Munich Re | Munich | 05/2023 - Now
+As a Senior Global Innovation Strategist at Munich Re, my passion is in steering AI/ML strategies, maximizing project impact, and advancing the use of cutting-edge technology.  I built the AI Accelerator, which drives the rapid and structured development of AI use-case Implementations.
+#### AI CONSULTANT - LEAD AI ENGINEER
+#### appliedAI UTUM | Munich | 04/2019 - 04/2023
+In my tenure at appliedAI, I held a leadership role where I spearheaded the successful development and execution of various AI/ML proof-of-concept (POC) and minimum viable product (MVP) projects. I utilized a hands-on approach to drive ideation, planning, and delivery of these solutions for our clients.
+ - AI-Controlled Imaging: Directed a PoC of an AI-Controlled Electron Microscope using Reinforcement Learning for a premier imaging company.
+ - Anomaly Detection: Oversaw development of security systems utilizing anomaly detection, integrating diverse technologies to boost client security at the Munich Security Conference..
+ - Project Optimization: Implemented AlphaZero-based Graph Optimization for project management in the Nuclear Energy sector.
+ - Food Safety: Delivered a PoC for industrial food safety equipment, significantly improving detection sensitivity.
+ - NLP Consulting: Consulted on automated document analysis and risk assessment for the European Central Bank, leveraging NLP technologies.
+ - Aerospace Anomaly Detection: Developed a PoC for Aerospace manufacturing, using generative diffusion models to create synthetic data for training anomaly detection models.
+ - Retail Automation: Applied Vision and Skeletal Tracking for supermarket automation, modernizing retail operations.
+ - Public Speaking and Training: Regularly presented talks and training sessions on topics such as KI-Transfer Plus for the Bayerischen Staatsministeriums für Digitales, and KI in Biotech for the BioEntrepreneurship Summit, spreading AI knowledge and fostering digital transformation in the Health/Pharma sector..
+#### PROJECT LEAD - INNOVATIVE TECHNOLOGIES
+#### Nanotemper Technologies GmbH | Munich | 5/2016 - 3/2019
+Project Lead in the Future Technologies Department, Scientist Bioanalytics and all-rounder in bioanalytics/data/optoelectronics. Contributions and successes:
+ - Created and applied Deep Learning models for interpreting biophysical data for pharmaceutical stability in antibody development
+ - Designed, built, and programmed prototype optoelectronic apparatus for the rapid analysis of biosimilar pharmaceutical molecules
+ - Introduced FPGA technology for high-speed data collection and analysis, now used in the key products at Nanotemper
+#### RESEARCH SCIENTIST
+#### Max Planck Institute Of Neurobiology | Martinsried | 02/2016 - 04/2019
+Driven by an interest in Biotech, I found a role in research working on biosensors, particularly on optical probes of neural activity (Optogenetics). Contribution and success:
+ - Designed, built and utilized a robotic screening platform for the high-throughput engineering of biosensors.
+ - Utilised image-processing and machine-learning techniques to collect and analyse biosensor data.
+ - Automated the development of large molecules by FACS-based directed protein evolution.
+ - Patented new CRISPR/Cas9 technology for high-throughput protein engineering.
+#### CONSULTANT FOR THE NETFLIX SERIES 'BIOHACKERS'
+#### Netflix | Munich | 01/2019 - 12/2019
+In this role, I advised on the scientific concepts, storylines and film set for this popular Netflix series. Contribution and success:
+ - Helped design and build the Laboratory and ‘Biohacking’ labs
+ - Modified the scripts to keep scientific accuracy
+ - Location scouting and liaison with the LMU to organise research labs for filming
+#### Doctoral Candidate
+#### Max Planck Institute for Biochemistry
+My PhD thesis was all about Optical brain-computer interfaces, and synthesizing molecular sensors for optically imaging brain activity. I devised a new biomolecular targeting technique and developed compounds for high-speed optical analysis of neuron activity.
+ - Molecular Sensor Development: Designed, synthesized, and tested molecular sensors to optically image brain activity, advancing neuroimaging capabilities.
+ - Biomolecular Targeting Technique: Developed a novel technique for labelling live cells with organic dye, utilizing pro-drug techniques used in pharmaceutical development, enhancing the precision of cell tracking and analysis.
+ - Neuronal Activity Analysis: Designed a high-speed optical analysis setup for cultured neurons and developed specialized compounds for this purpose, improving our understanding of neuron activity.
+## SKILLS
+ - Strong interest in customer experience and Machine Learning transformations (e.g. expectation management, stakeholder alignment, team reorganization etc.)
+ - Ability to work autonomously in the completion of deliverables
+ - Ability to provide technical and analytic direction, guidance and roadmaps for ML projects
+ - Excellent communication and presentation skills: able to explain Analytics in non-technical terms to business users (C-level, investors, public presentations etc.)
+ - Deep technical expertise and strong problem-solving and data-analysis skills
+## AWARDS
+#### The United Nations COVID-19 Detect & Protect Challenge
+ - The United Nations Development Programme Centre for Technology, Innovation and Sustainable Development · Aug 2020
+#### AI at the Edge Challenge with NVIDIA - Artificial Intelligence of Things (AIoT)
+ - Issued by Nvidia · Mar 2020
+#### Create Intelligence at the Edge - Artificial Intelligence on FPGA
+ - Avnet and Xilinx · Dec 2018
+#### PATENTS
+ - WO2018020050A1 - Targeted in situ protein diversification by site-directed DNA cleavage and repair
+## EDUCATION
+#### PhD in Organic Chemistry
+ - Max Planck Institute of Biochemistry
+#### Honours Degree - Biochemistry
+- Monash University Melbourne
+#### Bachelor of Science - Double Major -
+ - Chemistry / Molecular Biology
+ - University of Tasmania
+#### Nanodegree - Deep Reinforcement Learning
+ - Udacity Online
+#### Nanodegree - Deep Learning
+ - Udacity Online
+___________________________________
+I'm based out of Munich, Germany, but I would be interested in working remotely for a team with more compute than my 2x 4090s 🚀
+#### Reach out via [LinkedIn](https://www.linkedin.com/in/dnhkng)

added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+    "_name_or_path": "Qwen/Qwen2-72B-Instruct",
+    "architectures": [
+        "Qwen2ForCausalLM"
+    ],
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "eos_token_id": 151645,
+    "hidden_act": "silu",
+    "hidden_size": 8192,
+    "initializer_range": 0.02,
+    "intermediate_size": 29568,
+    "max_position_embeddings": 32768,
+    "max_window_layers": 80,
+    "model_type": "qwen2",
+    "num_attention_heads": 64,
+    "num_hidden_layers": 86,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_theta": 1000000.0,
+    "sliding_window": 131072,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.41.0",
+    "use_cache": true,
+    "use_sliding_window": false,
+    "vocab_size": 151646,
+    "quantization_config": {
+        "quant_method": "exl2",
+        "version": "0.1.8",
+        "bits": 6.0,
+        "head_bits": 6,
+        "calibration": {
+            "rows": 115,
+            "length": 2048,
+            "dataset": "(default)"
+        }
+    }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": 151645,
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.41.0"
+}

huggingface-metadata.txt ADDED Viewed

	@@ -0,0 +1,22 @@

+url: https://huggingface.co/dnhkng/RYS-XLarge
+branch: main
+download date: 2024-08-07 03:20:52
+sha256sum:
+    7378924216101627f0f72ef3ee0193bed21a971cf296d94b5351ba9bccc1c187 model-00001-of-00018.safetensors
+    ad41e9524962bb7714c7fd2003db946a0f589b16d131868dcea28b8caec70181 model-00002-of-00018.safetensors
+    dca052fa730fa6090a0bfa940b5bf0d0adea69ff8982d35d7f5f0b31a9713bcc model-00003-of-00018.safetensors
+    82de046be64b4eb1823db50135374f53af7d76695a3de6303251a9e1cc1994f4 model-00004-of-00018.safetensors
+    e363e5588da122516e6b6414dc3245c6b6ecda3a4d225da2a5401a8439b9598e model-00005-of-00018.safetensors
+    95aa0840f60dfb60c330e5dffdb581d421925b5913578782214167ce56204ded model-00006-of-00018.safetensors
+    23393d5adf5db589452a09c8be1577f3371ccf2a72ef594730d45e9141d37c1f model-00007-of-00018.safetensors
+    0586e5043a501aae89bf5919d6ea80797b2980614b1e70d0b61023b84ca99537 model-00008-of-00018.safetensors
+    be7fab3e4feeb0e0dd286764134f1f4761a1fed4f68529d61a33612e224efffa model-00009-of-00018.safetensors
+    2841a820dcf32c176eac0baf77a0b26b2712247c3c2cdb7f99947760d5482e98 model-00010-of-00018.safetensors
+    036da171cda513926755523f2c65a3a137298383eebac2aa3786baeda6c34a84 model-00011-of-00018.safetensors
+    4a02f4af6c63dd2f98595176a9b7403c4dd8ed62aef091a739019f44359175c7 model-00012-of-00018.safetensors
+    153728fdeddb223a2671f94f84576fadd7a597c6b3df08acb3ca0d86b0923678 model-00013-of-00018.safetensors
+    fceedec3f634206be2d9768fda14afcbf9c7f92242e5ade3edd8dc77cb4d9731 model-00014-of-00018.safetensors
+    a15fa30f3210bf8c27303b917780dbbbe913ec666c5229cdc7f62e2e7bac992a model-00015-of-00018.safetensors
+    da7b7f6517ca2e8663ac548b546d29b9aae27c2e3786741a6777a65ed233562f model-00016-of-00018.safetensors
+    29a0838eab6c1edb3317088ad90d8b97248e8c86d44874e0fa2d6789b614d4af model-00017-of-00018.safetensors
+    7b4cb032dbb21a84c35a9991e011db2628ea318ecf8eaf09e95f747ea274bc27 model-00018-of-00018.safetensors

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,1042 @@

+{
+  "weight_map": {
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00018.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00018.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00018.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00018.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00003-of-00018.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00003-of-00018.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00004-of-00018.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00004-of-00018.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00005-of-00018.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00005-of-00018.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00006-of-00018.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00006-of-00018.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00007-of-00018.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00007-of-00018.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.self_attn.k_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.self_attn.q_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.36.self_attn.v_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.self_attn.k_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.self_attn.q_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.37.self_attn.v_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.self_attn.k_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.self_attn.q_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.38.self_attn.v_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.self_attn.k_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.self_attn.q_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.39.self_attn.v_proj.bias": "model-00008-of-00018.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00008-of-00018.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.40.self_attn.k_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.40.self_attn.q_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.40.self_attn.v_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.self_attn.k_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.self_attn.q_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.41.self_attn.v_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.self_attn.k_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.self_attn.q_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.42.self_attn.v_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.self_attn.k_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.self_attn.q_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.43.self_attn.v_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.self_attn.k_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.self_attn.q_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.44.self_attn.v_proj.bias": "model-00009-of-00018.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00009-of-00018.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.45.self_attn.k_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.45.self_attn.q_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.45.self_attn.v_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.self_attn.k_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.self_attn.q_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.46.self_attn.v_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.self_attn.k_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.self_attn.q_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.47.self_attn.v_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.input_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.mlp.gate_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.post_attention_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.self_attn.k_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.self_attn.q_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.48.self_attn.v_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.input_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.mlp.gate_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.post_attention_layernorm.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.self_attn.k_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.self_attn.q_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.49.self_attn.v_proj.bias": "model-00010-of-00018.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00010-of-00018.safetensors",
+    "model.layers.50.input_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.50.mlp.gate_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.50.post_attention_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.50.self_attn.k_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.50.self_attn.q_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.50.self_attn.v_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.input_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.mlp.gate_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.post_attention_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.self_attn.k_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.self_attn.q_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.51.self_attn.v_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.input_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.mlp.gate_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.post_attention_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.self_attn.k_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.self_attn.q_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.52.self_attn.v_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.input_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.mlp.gate_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.post_attention_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.self_attn.k_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.self_attn.q_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.53.self_attn.v_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.input_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.mlp.gate_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.post_attention_layernorm.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.self_attn.k_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.self_attn.q_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.54.self_attn.v_proj.bias": "model-00011-of-00018.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00011-of-00018.safetensors",
+    "model.layers.55.input_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.55.mlp.gate_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.55.post_attention_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.55.self_attn.k_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.55.self_attn.q_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.55.self_attn.v_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.mlp.gate_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.post_attention_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.self_attn.k_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.self_attn.q_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.56.self_attn.v_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.mlp.gate_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.post_attention_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.self_attn.k_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.self_attn.q_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.57.self_attn.v_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.mlp.gate_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.post_attention_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.self_attn.k_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.self_attn.q_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.58.self_attn.v_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.self_attn.k_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.self_attn.q_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.59.self_attn.v_proj.bias": "model-00012-of-00018.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00012-of-00018.safetensors",
+    "model.layers.60.input_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.60.mlp.down_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.60.mlp.gate_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.60.mlp.up_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.60.post_attention_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.60.self_attn.k_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.60.self_attn.k_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.60.self_attn.o_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.60.self_attn.q_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.60.self_attn.q_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.60.self_attn.v_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.60.self_attn.v_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.input_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.mlp.down_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.mlp.gate_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.mlp.up_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.post_attention_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.self_attn.k_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.61.self_attn.k_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.self_attn.o_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.self_attn.q_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.61.self_attn.q_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.61.self_attn.v_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.61.self_attn.v_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.input_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.mlp.down_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.mlp.gate_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.mlp.up_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.post_attention_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.self_attn.k_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.62.self_attn.k_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.self_attn.o_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.self_attn.q_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.62.self_attn.q_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.62.self_attn.v_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.62.self_attn.v_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.input_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.mlp.down_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.mlp.gate_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.mlp.up_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.post_attention_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.self_attn.k_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.63.self_attn.k_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.self_attn.o_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.self_attn.q_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.63.self_attn.q_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.63.self_attn.v_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.63.self_attn.v_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.input_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.mlp.down_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.mlp.gate_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.mlp.up_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.post_attention_layernorm.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.self_attn.k_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.64.self_attn.k_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.self_attn.o_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.self_attn.q_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.64.self_attn.q_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.64.self_attn.v_proj.bias": "model-00013-of-00018.safetensors",
+    "model.layers.64.self_attn.v_proj.weight": "model-00013-of-00018.safetensors",
+    "model.layers.65.input_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.65.mlp.down_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.65.mlp.gate_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.65.mlp.up_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.65.post_attention_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.65.self_attn.k_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.65.self_attn.k_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.65.self_attn.o_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.65.self_attn.q_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.65.self_attn.q_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.65.self_attn.v_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.65.self_attn.v_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.input_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.mlp.down_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.mlp.gate_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.mlp.up_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.post_attention_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.self_attn.k_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.66.self_attn.k_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.self_attn.o_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.self_attn.q_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.66.self_attn.q_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.66.self_attn.v_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.66.self_attn.v_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.input_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.mlp.down_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.mlp.gate_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.mlp.up_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.post_attention_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.self_attn.k_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.67.self_attn.k_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.self_attn.o_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.self_attn.q_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.67.self_attn.q_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.67.self_attn.v_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.67.self_attn.v_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.input_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.mlp.down_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.mlp.gate_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.mlp.up_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.post_attention_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.self_attn.k_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.68.self_attn.k_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.self_attn.o_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.self_attn.q_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.68.self_attn.q_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.68.self_attn.v_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.68.self_attn.v_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.input_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.mlp.down_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.mlp.gate_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.mlp.up_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.post_attention_layernorm.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.self_attn.k_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.69.self_attn.k_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.self_attn.o_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.self_attn.q_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.69.self_attn.q_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.69.self_attn.v_proj.bias": "model-00014-of-00018.safetensors",
+    "model.layers.69.self_attn.v_proj.weight": "model-00014-of-00018.safetensors",
+    "model.layers.70.input_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.70.mlp.down_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.70.mlp.gate_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.70.mlp.up_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.70.post_attention_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.70.self_attn.k_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.70.self_attn.k_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.70.self_attn.o_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.70.self_attn.q_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.70.self_attn.q_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.70.self_attn.v_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.70.self_attn.v_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.input_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.mlp.down_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.mlp.gate_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.mlp.up_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.post_attention_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.self_attn.k_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.71.self_attn.k_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.self_attn.o_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.self_attn.q_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.71.self_attn.q_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.71.self_attn.v_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.71.self_attn.v_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.input_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.mlp.down_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.mlp.gate_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.mlp.up_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.post_attention_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.self_attn.k_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.72.self_attn.k_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.self_attn.o_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.self_attn.q_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.72.self_attn.q_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.72.self_attn.v_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.72.self_attn.v_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.input_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.mlp.down_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.mlp.gate_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.mlp.up_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.post_attention_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.self_attn.k_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.73.self_attn.k_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.self_attn.o_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.self_attn.q_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.73.self_attn.q_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.73.self_attn.v_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.73.self_attn.v_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.input_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.mlp.down_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.mlp.gate_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.mlp.up_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.post_attention_layernorm.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.self_attn.k_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.74.self_attn.k_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.self_attn.o_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.self_attn.q_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.74.self_attn.q_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.74.self_attn.v_proj.bias": "model-00015-of-00018.safetensors",
+    "model.layers.74.self_attn.v_proj.weight": "model-00015-of-00018.safetensors",
+    "model.layers.75.input_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.75.mlp.down_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.75.mlp.gate_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.75.mlp.up_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.75.post_attention_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.75.self_attn.k_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.75.self_attn.k_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.75.self_attn.o_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.75.self_attn.q_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.75.self_attn.q_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.75.self_attn.v_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.75.self_attn.v_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.input_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.mlp.down_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.mlp.gate_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.mlp.up_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.post_attention_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.self_attn.k_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.76.self_attn.k_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.self_attn.o_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.self_attn.q_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.76.self_attn.q_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.76.self_attn.v_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.76.self_attn.v_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.input_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.mlp.down_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.mlp.gate_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.mlp.up_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.post_attention_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.self_attn.k_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.77.self_attn.k_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.self_attn.o_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.self_attn.q_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.77.self_attn.q_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.77.self_attn.v_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.77.self_attn.v_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.input_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.mlp.down_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.mlp.gate_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.mlp.up_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.post_attention_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.self_attn.k_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.78.self_attn.k_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.self_attn.o_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.self_attn.q_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.78.self_attn.q_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.78.self_attn.v_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.78.self_attn.v_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.input_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.mlp.down_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.mlp.gate_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.mlp.up_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.post_attention_layernorm.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.self_attn.k_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.79.self_attn.k_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.self_attn.o_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.self_attn.q_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.79.self_attn.q_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.79.self_attn.v_proj.bias": "model-00016-of-00018.safetensors",
+    "model.layers.79.self_attn.v_proj.weight": "model-00016-of-00018.safetensors",
+    "model.layers.80.input_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.80.mlp.down_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.80.mlp.gate_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.80.mlp.up_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.80.post_attention_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.80.self_attn.k_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.80.self_attn.k_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.80.self_attn.o_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.80.self_attn.q_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.80.self_attn.q_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.80.self_attn.v_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.80.self_attn.v_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.input_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.mlp.down_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.mlp.gate_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.mlp.up_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.post_attention_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.self_attn.k_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.81.self_attn.k_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.self_attn.o_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.self_attn.q_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.81.self_attn.q_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.81.self_attn.v_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.81.self_attn.v_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.input_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.mlp.down_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.mlp.gate_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.mlp.up_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.post_attention_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.self_attn.k_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.82.self_attn.k_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.self_attn.o_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.self_attn.q_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.82.self_attn.q_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.82.self_attn.v_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.82.self_attn.v_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.input_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.mlp.down_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.mlp.gate_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.mlp.up_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.post_attention_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.self_attn.k_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.83.self_attn.k_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.self_attn.o_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.self_attn.q_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.83.self_attn.q_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.83.self_attn.v_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.83.self_attn.v_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.input_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.mlp.down_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.mlp.gate_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.mlp.up_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.post_attention_layernorm.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.self_attn.k_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.84.self_attn.k_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.self_attn.o_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.self_attn.q_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.84.self_attn.q_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.84.self_attn.v_proj.bias": "model-00017-of-00018.safetensors",
+    "model.layers.84.self_attn.v_proj.weight": "model-00017-of-00018.safetensors",
+    "model.layers.85.input_layernorm.weight": "model-00018-of-00018.safetensors",
+    "model.layers.85.mlp.down_proj.weight": "model-00018-of-00018.safetensors",
+    "model.layers.85.mlp.gate_proj.weight": "model-00018-of-00018.safetensors",
+    "model.layers.85.mlp.up_proj.weight": "model-00018-of-00018.safetensors",
+    "model.layers.85.post_attention_layernorm.weight": "model-00018-of-00018.safetensors",
+    "model.layers.85.self_attn.k_proj.bias": "model-00018-of-00018.safetensors",
+    "model.layers.85.self_attn.k_proj.weight": "model-00018-of-00018.safetensors",
+    "model.layers.85.self_attn.o_proj.weight": "model-00018-of-00018.safetensors",
+    "model.layers.85.self_attn.q_proj.bias": "model-00018-of-00018.safetensors",
+    "model.layers.85.self_attn.q_proj.weight": "model-00018-of-00018.safetensors",
+    "model.layers.85.self_attn.v_proj.bias": "model-00018-of-00018.safetensors",
+    "model.layers.85.self_attn.v_proj.weight": "model-00018-of-00018.safetensors",
+    "lm_head.weight": "model-00018-of-00018.safetensors",
+    "model.embed_tokens.weight": "model-00018-of-00018.safetensors",
+    "model.norm.weight": "model-00018-of-00018.safetensors"
+  },
+  "metadata": {
+    "total_size": 145398710272
+  }
+}

output-00008-of-00008.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:061e1a703e7f3ebb439c0df50322281b8b3901c63b1c362ee9b01c03e41f3098
+size 980252768

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff