import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

# Cấu hình BitsAndBytes để tải mô hình 4-bit
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_compute_dtype="float16",
    bnb_4bit_use_double_quant=False,
)

# Thiết lập mô hình và tokenizer
def load_model():
    model = AutoModelForCausalLM.from_pretrained(
        "anhvv200053/Vinallama-2-7B-updated1-instruction-v2",
        quantization_config=bnb_config,
        device_map={"": 0},
        use_auth_token=True
    )
    model.config.pretraining_tp = 1

    tokenizer = AutoTokenizer.from_pretrained('anhvv200053/Vinallama-2-7B-updated1-instruction-v2', trust_remote_code=True, use_fast=True)
    tokenizer.pad_token = tokenizer.eos_token

    return model, tokenizer