Trat80 commited on
Commit
7393bba
1 Parent(s): d0a1213

Update adem.python

Browse files
Files changed (1) hide show
  1. adem.python +16 -23
adem.python CHANGED
@@ -1,34 +1,27 @@
1
- donde pongo este codigo? "from transformers import GPT2LMHeadModel, GPT2Tokenizer, TextDataset, DataCollatorForLanguageModeling
2
- from transformers import Trainer, TrainingArguments
3
-
4
  # Cargar el tokenizador y el modelo
5
- tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
6
- model = GPT2LMHeadModel.from_pretrained('gpt2')
7
-
8
  # Ejemplo de datos de entrenamiento (necesitar谩s un conjunto de datos mucho m谩s grande)
9
- train_data = ["Texto de ejemplo 1.", "Texto de ejemplo 2.", "Texto de ejemplo 3."]
10
-
11
  # Preparar el conjunto de datos
12
- train_encodings = tokenizer(train_data, truncation=True, padding=True)
13
  train_dataset = TextDataset(train_encodings)
14
-
15
  # Configuraci贸n de entrenamiento
16
- training_args = TrainingArguments(
17
- output_dir='./AdemGPT_model', # directorio de salida
18
- overwrite_output_dir=True,
19
  num_train_epochs=3,
20
  per_device_train_batch_size=4,
21
- save_steps=500,
22
  save_total_limit=2
23
  )
24
-
25
  # Entrenamiento del modelo
26
- trainer = Trainer(
27
- model=model,
28
- args=training_args,
29
- data_collator=DataCollatorForLanguageModeling(tokenizer=tokenizer),
30
- train_dataset=train_dataset
31
  )
32
-
33
- trainer.train()
34
- "
 
1
+ de transformadores importe GPT2LMHeadModel, GPT2Tokenizer, TextDataset, DataCollatorForLanguageModeling
2
+ de transformadores importan Entrenador, TrainingArguments
 
3
  # Cargar el tokenizador y el modelo
4
+ tokenizador = GPT2Tokenizer.from_pretrained('gpt2')
5
+ modelo = GPT2LMHeadModel.from_pretrained('gpt2')
 
6
  # Ejemplo de datos de entrenamiento (necesitar谩s un conjunto de datos mucho m谩s grande)
7
+ train_data = [" Texto de ejemplo 1. ", " Texto de ejemplo 2. ", " Texto de ejemplo 3. "]
 
8
  # Preparar el conjunto de datos
9
+ train_encodings = tokenizer(train_data, truncamiento=Verdadero, relleno=Verdadero)
10
  train_dataset = TextDataset(train_encodings)
 
11
  # Configuraci贸n de entrenamiento
12
+ Training_args = Argumentos de entrenamiento(
13
+ output_dir='./AdemGPT_model', # directorio de salida
14
+ overwrite_output_dir=Verdadero,
15
  num_train_epochs=3,
16
  per_device_train_batch_size=4,
17
+ guardar_pasos = 500,
18
  save_total_limit=2
19
  )
 
20
  # Entrenamiento del modelo
21
+ entrenador = entrenador (
22
+ modelo = modelo,
23
+ args=args_entrenamiento,
24
+ data_collator=DataCollatorForLanguageModeling(tokenizer=tokenizador),
25
+ train_dataset=entren_dataset
26
  )
27
+ entrenador.entren()