giprime
/

OOM-13B_01

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

OOM-13B_01 / README.md

giprime's picture

Update README.md

171ab54 verified 9 months ago

|

736 Bytes

	---
	license: cc-by-nc-sa-4.0
	language:
	- en
	- ko
	library_name: transformers
	---



	Model Architecture

	OOM-13B_01 is an language model that uses an optimized transformer architecture based on Llama-2.


	## Model description

	Based on "beomi/llama-2-koen-13b"

	## Intended uses & limitations

	T.B.D.

	## Training and evaluation data

	T.B.D.

	## Training procedure

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 2e-04
	- train_batch_size: 2
	- eval_batch_size: 8
	- seed: 24
	- gradient_accumulation_steps: 1
	- total_train_batch_size:
	- num_epochs: 2.0

	### Training results



	### Framework versions

	- Transformers 4.37.2
	- Pytorch 2.2.0+cu118
	- Datasets 2.16.1
	- Tokenizers 0.15.1