Edit Models filters

Inference status

Misc

compressed-tensors

Inference Endpoints

AutoTrain Compatible

text-generation-inference

8-bit precision

Misc with no match

4-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

526

Full-text search

Active filters: compressed-tensors

neuralmagic-ent/Llama-3.2-1B-quantized.w8a8

Updated 14 days ago • 8

neuralmagic-ent/Llama-3.2-1B-Instruct-FP8-dynamic

Text Generation • Updated 14 days ago • 11

neuralmagic-ent/Llama-3.2-3B-Instruct-quantized.w8a8

Text Generation • Updated 14 days ago • 11

neuralmagic-ent/Llama-3.2-3B-quantized.w8a8

Updated 14 days ago • 8

neuralmagic-ent/Qwen2.5-Coder-14B-Instruct-FP8-dynamic

Updated 14 days ago • 17

neuralmagic-ent/Llama-3.2-3B-Instruct-FP8-dynamic

Text Generation • Updated 14 days ago • 14

neuralmagic-ent/Qwen2.5-Coder-32B-FP8-dynamic

Updated 14 days ago • 17

neuralmagic-ent/Qwen2.5-Coder-32B-Instruct-FP8-dynamic

Updated 14 days ago • 16

neuralmagic-ent/Qwen2.5-Math-72B-FP8-dynamic

Updated 14 days ago • 12

neuralmagic-ent/Qwen2.5-Math-72B-Instruct-FP8-dynamic

Updated 14 days ago • 9

jitsi/Llama-3.1-8B-Instruct-W8A8-Dynamic-Per-Token

Updated 13 days ago • 10

nm-testing/TinyLlama-1.1B-Chat-v1.0-sparse24-BitMaskCompressed

Updated 13 days ago • 96

espressor/google.gemma-2-2b-it_W8A8_FP8

Text Generation • Updated 13 days ago • 24

espressor/google.gemma-2-2b-it_W4A16

Text Generation • Updated 13 days ago • 56

espressor/google.gemma-2-2b-it_W8A8_int8

Text Generation • Updated 13 days ago • 67

espressor/google.gemma-2-9b-it_W8A8_FP8

Text Generation • Updated 13 days ago • 26

espressor/google.gemma-7b-it_W8A8_FP8

Text Generation • Updated 13 days ago • 26

espressor/google.gemma-2b-it_W8A8_FP8

Text Generation • Updated 13 days ago • 26

espressor/google.gemma-2b-it_W4A16

Text Generation • Updated 13 days ago • 64

espressor/google.gemma-2b-it_W8A8_int8

Text Generation • Updated 13 days ago • 122

nm-testing/TinyLlama-1.1B-Chat-v1.0-pruned.2of4-Sparse24ByteMaskCompressed

Updated 12 days ago • 27

Trelis/Microsoft_Phi-4-FP8-Dynamic

Updated 11 days ago • 118

nm-testing/TinyLlama-1.1B-Chat-v1.0-pruned.2of4-Sparse24BitMaskCompressed

Updated 11 days ago • 3

DeL-TaiseiOzaki/Tengentoppa-llm-jp-13B-reasoning-it-fp8

Text Generation • Updated 8 days ago • 29

jaked97/llm-jp-3-13b-it-bs4-ac10-step251-fp8

Text Generation • Updated 9 days ago • 8

ktr/llm-jp-3-13b-lora-sft-W8A8-Dynamic-Per-Token

Updated 9 days ago • 12

Infermatic/Q2.5-MS-Mistoria-72b-v2-FP8-Dynamic

Text Generation • Updated 8 days ago • 15

BigHuggyD/EVA-UNIT-01_EVA-Qwen2.5-72B-v0.2-FP8-Dynamic

Text Generation • Updated 8 days ago • 30

nm-testing/pixtral-12b-w4a16-actorder-weight

Updated 8 days ago • 13

nm-testing/pixtral-12b-w8a8-noactorder

Updated 8 days ago • 40