BEE-spoke-data
/

smol_llama-220M-GQA-fineweb_edu

Text Generation

continual pretraining

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

smol_llama-220M-GQA-fineweb_edu / all_results.json

pszemraj's picture

End of training

83c5d1d verified 5 months ago

539 Bytes

	{
	"epoch": 0.9999939379610938,
	"eval_accuracy": 0.4560332193453835,
	"eval_loss": 2.741572141647339,
	"eval_runtime": 5.7613,
	"eval_samples": 300,
	"eval_samples_per_second": 52.072,
	"eval_steps_per_second": 6.596,
	"num_input_tokens_seen": 10810818560,
	"perplexity": 15.511351979678839,
	"total_flos": 1.199767969182253e+19,
	"train_loss": 2.7848671950609445,
	"train_runtime": 243040.2706,
	"train_samples": 5278746,
	"train_samples_per_second": 21.72,
	"train_steps_per_second": 0.085
	}