ciCic
/

llama-3.2-1B-Instruct-AWQ

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

ciCic commited on Oct 6, 2024

Commit

910d558

·

verified ·

1 Parent(s): ef7d746

Update README.md

Files changed (1) hide show

README.md +5 -4

README.md CHANGED Viewed

@@ -32,10 +32,10 @@ Starting with
 ### For CUDA users
-AutoAWQ
 ```python
-"""NOTE: this example uses `fuse_layers=True` to fuse attention and mlp layers together for faster inference"""
 from awq import AutoAWQForCausalLM
 from transformers import AutoTokenizer, TextStreamer
@@ -64,7 +64,8 @@ generation_output = model.generate(
 )
 ```
-Transformers
 ```python
 from transformers import AutoTokenizer, TextStreamer, AutoModelForCausalLM
 import torch

 ### For CUDA users
+**AutoAWQ**
+NOTE: this example uses `fuse_layers=True` to fuse attention and mlp layers together for faster inference
 ```python
 from awq import AutoAWQForCausalLM
 from transformers import AutoTokenizer, TextStreamer
 )
 ```
+**Transformers**
 ```python
 from transformers import AutoTokenizer, TextStreamer, AutoModelForCausalLM
 import torch