Edit Models filters

Apps

Docker Model Runner

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

64

Full-text search

Active filters: neuralmagic

RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8

Text Generation • 71B • Updated May 30 • 48.1k • 11

RedHatAI/Llama-4-Maverick-17B-128E-Instruct-quantized.w4a16

Image-Text-to-Text • 59B • Updated Jun 12 • 3.1k • 1

RedHatAI/Llama-3.2-1B-Instruct-quantized.w8a8

Text Generation • 1B • Updated Oct 16, 2024 • 25.1k • 7

RedHatAI/Llama-3.2-3B-Instruct-quantized.w8a8

Text Generation • 4B • Updated Jul 10 • 1.05k • 1

RedHatAI/Llama-3.2-1B-Instruct-FP8

Text Generation • 1B • Updated Oct 16, 2024 • 2.47k • 3

RedHatAI/Llama-3.2-3B-Instruct-FP8

Text Generation • 4B • Updated Oct 16, 2024 • 1.53k • 6

RedHatAI/Qwen2.5-0.5B-quantized.w8a8

Text Generation • 0.6B • Updated Dec 3, 2024 • 11

RedHatAI/Qwen2.5-0.5B-Instruct-quantized.w8a8

Text Generation • 0.6B • Updated Dec 9, 2024 • 1.3k

RedHatAI/Qwen2.5-1.5B-quantized.w8a8

Text Generation • 2B • Updated Dec 3, 2024 • 20 • 1

RedHatAI/Qwen2.5-7B-Instruct-quantized.w8a8

Text Generation • 8B • Updated May 30 • 1.23k • 2

RedHatAI/Qwen2.5-7B-quantized.w8a8

Text Generation • 8B • Updated Dec 3, 2024 • 816 • 1

RedHatAI/Qwen2.5-72B-quantized.w8a8

Text Generation • 73B • Updated Dec 3, 2024 • 13

RedHatAI/Qwen2.5-7B-quantized.w4a16

Text Generation • 2B • Updated Apr 16 • 47

RedHatAI/Qwen2.5-0.5B-FP8-dynamic

Text Generation • 0.6B • Updated Dec 3, 2024 • 5

RedHatAI/Qwen2.5-1.5B-FP8-dynamic

Text Generation • 2B • Updated Dec 3, 2024 • 5

RedHatAI/Qwen2.5-3B-FP8-dynamic

Text Generation • 3B • Updated Dec 3, 2024 • 11

RedHatAI/Qwen2.5-7B-FP8-dynamic

Text Generation • 8B • Updated Apr 16 • 10

RedHatAI/Qwen2.5-7B-Instruct-FP8-dynamic

Text Generation • 8B • Updated May 30 • 907 • 1

RedHatAI/Qwen2.5-72B-FP8-dynamic

Text Generation • 73B • Updated Dec 3, 2024 • 1.15k • 1

RedHatAI/Qwen2.5-14B-FP8-dynamic

Text Generation • 15B • Updated Dec 3, 2024 • 10 • 2

RedHatAI/Qwen2.5-14B-quantized.w8a8

Text Generation • 15B • Updated Dec 3, 2024 • 26 • 1

RedHatAI/Qwen2.5-3B-quantized.w8a8

Text Generation • 3B • Updated Dec 3, 2024 • 11 • 1

RedHatAI/Qwen2.5-14B-Instruct-quantized.w8a8

Text Generation • 15B • Updated Dec 17, 2024 • 233

RedHatAI/Qwen2.5-0.5B-quantized.w4a16

Text Generation • 0.3B • Updated Dec 17, 2024 • 6

RedHatAI/Qwen2.5-1.5B-quantized.w4a16

Text Generation • 0.6B • Updated Dec 17, 2024 • 6

RedHatAI/Qwen2.5-3B-quantized.w4a16

Text Generation • 1.0B • Updated Dec 17, 2024 • 7

RedHatAI/phi-4-FP8-dynamic

Text Generation • 15B • Updated May 30 • 1.2k

RedHatAI/phi-4-quantized.w8a8

Text Generation • 15B • Updated May 30 • 1.18k • 2

RedHatAI/phi-4-quantized.w4a16

Text Generation • 3B • Updated May 30 • 2.56k • 3

RedHatAI/Mistral-Small-24B-Instruct-2501-quantized.w8a8

Image-Text-to-Text • 24B • Updated May 30 • 21 • 1