File size: 1,150 Bytes
7393bba
 
b235521
7393bba
 
b235521
7393bba
b235521
7393bba
b235521
 
7393bba
 
 
b235521
 
7393bba
b235521
 
 
7393bba
 
 
 
 
b235521
7393bba
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
de transformadores importe GPT2LMHeadModel, GPT2Tokenizer, TextDataset, DataCollatorForLanguageModeling
de transformadores importan Entrenador, TrainingArguments
# Cargar el tokenizador y el modelo
tokenizador = GPT2Tokenizer.from_pretrained('gpt2')
modelo = GPT2LMHeadModel.from_pretrained('gpt2')
# Ejemplo de datos de entrenamiento (necesitarás un conjunto de datos mucho más grande)
train_data = [" Texto de ejemplo 1. ", " Texto de ejemplo 2. ", " Texto de ejemplo 3. "]
# Preparar el conjunto de datos
train_encodings = tokenizer(train_data, truncamiento=Verdadero, relleno=Verdadero)
train_dataset = TextDataset(train_encodings)
# Configuración de entrenamiento
Training_args = Argumentos de entrenamiento(
    output_dir='./AdemGPT_model', # directorio de salida
    overwrite_output_dir=Verdadero,
    num_train_epochs=3,
    per_device_train_batch_size=4,
    guardar_pasos = 500,
    save_total_limit=2
)
# Entrenamiento del modelo
entrenador = entrenador (
    modelo = modelo,
    args=args_entrenamiento,
    data_collator=DataCollatorForLanguageModeling(tokenizer=tokenizador),
    train_dataset=entren_dataset
)
entrenador.entren()