modularai/llama-3.3-20L · Hugging Face

This is a modified version of meta-llama/Llama-3.3-70B-Instruct that only has 20 layers. The original model has 80 layers; the last 60 layers have been dropped.

script for truncation:

import torch
import transformers

def main():

    llama_ver = 3.3
    llama_size = 70
    n_layers_out = 20
    pipeline = transformers.pipeline("text-generation",
                                     model=f"meta-llama/Llama-{llama_ver}-{llama_size}B-Instruct",
                                     model_kwargs={"torch_dtype": torch.bfloat16},
                                     device_map="auto")

    pipeline.model.config.num_hidden_layers = n_layers_out
    pipeline.model.model.layers = pipeline.model.model.layers[0:n_layers_out]
    print(pipeline.model)
    pipeline.save_pretrained(f"llama-{llama_ver}-{n_layers_out}L",safe_serialization=True)

if __name__ == '__main__': main()