leafspark
/

wikichat-v2

Text Generation

Inference Endpoints

Model card Files Files and versions Community

leafspark commited on Apr 25

Commit

1e63462

•

1 Parent(s): c527fdb

Update README.md

Files changed (1) hide show

README.md +4 -4

README.md CHANGED Viewed

@@ -20,11 +20,11 @@ The GGUFs uploaded are full FP32 precision.
 Using OpenOrca GPT-4 data + cosmopedia for some extra data + dolly15k for instruct
 ## Model Details:
-- 71.7M parameters (71,775,700)
 - 8 attention heads
-- 32 layers (34 layers on final model)
 - 384 embeddings size
-- 2048/8192/16384 context (please use 4x RoPE scaling, may train a 16k finetuned version later)
 - Batch size 16
 - llama.cpp (train-text-from-scratch)
@@ -43,7 +43,7 @@ Please structure your prompts in an instruct format for maximum performance.
 - 96gb RAM
 - 10 iterations
 - Loss Target = 2.5 to 3.0
-- Approx 30 samples (>0.0001 epoches)
 - Training data = Refer to OpenOrca page
 ## Notes:

 Using OpenOrca GPT-4 data + cosmopedia for some extra data + dolly15k for instruct
 ## Model Details:
+- 83.59M parameters (83591800)
 - 8 attention heads
+- 40 layers
 - 384 embeddings size
+- 4096/8192/16384 context (please use 2/4x RoPE scaling, may train a 16k finetuned version later)
 - Batch size 16
 - llama.cpp (train-text-from-scratch)
 - 96gb RAM
 - 10 iterations
 - Loss Target = 2.5 to 3.0
+- Approx 480 samples/1M train tokens (>0.0001 epoches)
 - Training data = Refer to OpenOrca page
 ## Notes: