mgoin
/

Minitron-4B-Base-FP8

Text Generation

Inference Endpoints

Model card Files Files and versions Community

Minitron-4B-Base-FP8 / README.md

mgoin's picture

Update README.md

e2f62cf verified 5 months ago

|

history blame contribute delete

924 Bytes

	---
	license: other
	license_name: nvidia-open-model-license
	license_link: >-
	https://developer.download.nvidia.com/licenses/nvidia-open-model-license-agreement-june-2024.pdf
	tags:
	- fp8
	- vllm
	base_model: nvidia/Minitron-4B-Base
	---

	# Minitron-4B-Base-FP8

	FP8 quantized checkpoint of [nvidia/Minitron-4B-Base](https://huggingface.co/nvidia/Minitron-4B-Base) for use with vLLM.


	```
	lm_eval --model vllm --model_args pretrained=mgoin/Minitron-4B-Base-FP8 --tasks gsm8k --num_fewshot 5 --batch_size auto

	vllm (pretrained=mgoin/Minitron-4B-Base-FP8), gen_kwargs: (None), limit: None, num_fewshot: 5, batch_size: auto
	\|Tasks\|Version\| Filter \|n-shot\| Metric \| \|Value \| \|Stderr\|
	\|-----\|------:\|----------------\|-----:\|-----------\|---\|-----:\|---\|-----:\|
	\|gsm8k\| 3\|flexible-extract\| 5\|exact_match\|↑ \|0.2305\|± \|0.0116\|
	\| \| \|strict-match \| 5\|exact_match\|↑ \|0.2282\|± \|0.0116\|
	```