minyichen
/

Llama-3-Taiwan-70B-Instruct-fp8

Text Generation

text-generation-inference

Model card Files Files and versions

minyichen commited on Aug 1, 2024

Commit

cde0124

·

verified ·

1 Parent(s): d852af8

Update README.md

Files changed (1) hide show

README.md +39 -3

README.md CHANGED Viewed

@@ -1,3 +1,39 @@
----
-license: llama3
----

+---
+base_model: yentinglin/Llama-3-Taiwan-70B-Instruct
+language:
+- zh
+- en
+license: llama3
+model_creator: yentinglin
+model_name: Llama-3-Taiwan-70B-Instruct
+model_type: llama
+pipeline_tag: text-generation
+quantized_by: minyichen
+tags:
+- llama-3
+---
+# Llama-3-Taiwan-70B-Instruct-fp8
+- Model creator: [Yen-Ting Lin](https://huggingface.co/yentinglin)
+- Original model: [Llama-3-Taiwan-70B-Instruct](https://huggingface.co/yentinglin/Llama-3-Taiwan-70B-Instruct)
+<!-- description start -->
+## Description
+This repo contains fp8 model files for [Llama-3-Taiwan-70B-Instruct](https://huggingface.co/yentinglin/Llama-3-Taiwan-70B-Instruct).
+<!-- description end -->
+<!-- repositories-available start -->
+* [GPTQ models for GPU inference](minyichen/Llama-3-Taiwan-70B-Instruct-GPTQ)
+* [Yen-Ting Lin's original unquantized  model](https://huggingface.co/yentinglin/Llama-3-Taiwan-70B-Instruct)
+<!-- repositories-available end -->
+## Quantization parameter
+- activation_scheme : static
+- quant_method : fp8
+- ignored_layers : lm_head
+It tooks about 8.5 hrs to quantize on H100.