tangledgroup
/

tangled-llama-i-128k-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 2 days ago

Commit

e66e4fa

•

1 Parent(s): b579b9b

pretrain model

Files changed (1) hide show

scripts/pretrain-model.yaml +1 -1

scripts/pretrain-model.yaml CHANGED Viewed

@@ -68,7 +68,7 @@ train:
   global_batch_size: 512
   # Number of samples per data-parallel rank (type: int, default: 4)
-  micro_batch_size: 2
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000

   global_batch_size: 512
   # Number of samples per data-parallel rank (type: int, default: 4)
+  micro_batch_size: 1
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000