tangledgroup
/

tangled-llama-i-128k-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 2 days ago

Commit

11df753

•

1 Parent(s): d15ab91

sophia_opt.SophiaG

Files changed (1) hide show

scripts/pretrain-model.yaml +1 -1

scripts/pretrain-model.yaml CHANGED Viewed

@@ -70,7 +70,7 @@ train:
   # Number of samples per data-parallel rank (type: int, default: 4)
   # micro_batch_size: 2
-  micro_batch_size: 5
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000

   # Number of samples per data-parallel rank (type: int, default: 4)
   # micro_batch_size: 2
+  micro_batch_size: 4
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000