|
de transformadores importe GPT2LMHeadModel, GPT2Tokenizer, TextDataset, DataCollatorForLanguageModeling |
|
de transformadores importan Entrenador, TrainingArguments |
|
|
|
tokenizador = GPT2Tokenizer.from_pretrained('gpt2') |
|
modelo = GPT2LMHeadModel.from_pretrained('gpt2') |
|
|
|
train_data = [" Texto de ejemplo 1. ", " Texto de ejemplo 2. ", " Texto de ejemplo 3. "] |
|
|
|
train_encodings = tokenizer(train_data, truncamiento=Verdadero, relleno=Verdadero) |
|
train_dataset = TextDataset(train_encodings) |
|
|
|
Training_args = Argumentos de entrenamiento( |
|
output_dir='./AdemGPT_model', |
|
overwrite_output_dir=Verdadero, |
|
num_train_epochs=3, |
|
per_device_train_batch_size=4, |
|
guardar_pasos = 500, |
|
save_total_limit=2 |
|
) |
|
|
|
entrenador = entrenador ( |
|
modelo = modelo, |
|
args=args_entrenamiento, |
|
data_collator=DataCollatorForLanguageModeling(tokenizer=tokenizador), |
|
train_dataset=entren_dataset |
|
) |
|
entrenador.entren() |