tangledgroup
/

tangled-llama-i-128k-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 2 days ago

Commit

3981027

•

1 Parent(s): 0ef92af

sophia_opt.SophiaG

Files changed (1) hide show

scripts/pretrain-model.yaml +6 -3

scripts/pretrain-model.yaml CHANGED Viewed

@@ -65,10 +65,12 @@ train:
   log_interval: 1
   # Number of samples between optimizer steps across data-parallel ranks (type: int, default: 512)
-  global_batch_size: 512
   # Number of samples per data-parallel rank (type: int, default: 4)
-  micro_batch_size: 2
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000
@@ -100,7 +102,8 @@ train:
 # Evaluation-related arguments. See ``litgpt.args.EvalArgs`` for details
 eval:
   # Number of optimizer steps between evaluation calls (type: int, default: 1000)
-  interval: 100
   # Number of tokens to generate (type: Optional[int], default: null)
   max_new_tokens:

   log_interval: 1
   # Number of samples between optimizer steps across data-parallel ranks (type: int, default: 512)
+  # global_batch_size: 512
+  global_batch_size: 256
   # Number of samples per data-parallel rank (type: int, default: 4)
+  # micro_batch_size: 2
+  micro_batch_size: 6
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000
 # Evaluation-related arguments. See ``litgpt.args.EvalArgs`` for details
 eval:
   # Number of optimizer steps between evaluation calls (type: int, default: 1000)
+  # interval: 100
+  interval: 20
   # Number of tokens to generate (type: Optional[int], default: null)
   max_new_tokens: