import os from transformers import AutoTokenizer, AutoModelForCausalLM import torch from transformers import BitsAndBytesConfig # Завантажуємо токен автентифікації з змінної середовища hf_token = os.getenv("HF_API_TOKEN") # Ідентифікатор моделі model_id = "meta-llama/Llama-2-7b-hf" # Налаштування для BitsAndBytes bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_use_double_quant=True, bnb_4bit_quant_type="nf4", bnb_4bit_compute_dtype=torch.bfloat16 ) # Завантажуємо токенізатор з Hugging Face tokenizer = AutoTokenizer.from_pretrained(model_id, use_auth_token=hf_token) tokenizer.pad_token = tokenizer.eos_token # Завантажуємо модель на CPU з використанням автентифікації model = AutoModelForCausalLM.from_pretrained( model_id, device_map="cpu", # Завантажуємо модель на CPU use_auth_token=hf_token ) # Тепер ви можете використовувати модель для генерації тексту, наприклад: input_text = "Hello, how are you?" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(inputs["input_ids"]) # Перетворюємо вихідний тензор в текст generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) print(generated_text)