giprime
/

OOM-13B_02

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Edit model card

Model Architecture

OOM-13B_02 is an language model that uses an optimized transformer architecture based on Llama-2.

Model description

Based on "beomi/llama-2-koen-13b"

Intended uses & limitations

T.B.D.

Training and evaluation data

T.B.D.

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 3e-05
train_batch_size: 2
eval_batch_size: 8
seed: 24
gradient_accumulation_steps: 1
total_train_batch_size:
num_epochs: 2.0

Training results

Framework versions

Transformers 4.37.2
Pytorch 2.2.0+cu118
Datasets 2.16.1
Tokenizers 0.15.1

Downloads last month: 1,736

Safetensors

Model size

13.2B params

Tensor type

FP16

·

Inference Examples

Text Generation

This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for giprime/OOM-13B_02

Quantizations