HIGGS-stiched - a inference-optimization Collection

inference-optimization 's Collections

HIGGS-per-tensor

HIGGS-stiched

updated 7 days ago

Stitched HIGGS Llama3 8B mixed-precision model variants.

meta-llama/Llama-3.1-8B-Instruct

Text Generation • 8B • Updated Sep 25, 2024 • 10M • • 5.85k
RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8-dynamic

Text Generation • 8B • Updated Mar 19 • 63.5k • 9
RedHatAI/Llama-3.1-8B-Instruct-NVFP4

Text Generation • 5B • Updated Nov 21, 2025 • 16.8k • 1
Qwen/Qwen3-8B

Text Generation • 8B • Updated Jul 26, 2025 • 11.6M • • 1.09k
RedHatAI/Qwen3-8B-FP8-dynamic

Text Generation • 8B • Updated 19 days ago • 40.8k • 12
RedHatAI/Qwen3-8B-NVFP4

Text Generation • 5B • Updated Nov 21, 2025 • 2.46k • 2
inference-optimization/llama3_8b_5.0_bits_mode_heuristic_stiched

5B • Updated 10 days ago • 26
inference-optimization/llama3_8b_5.0_bits_mode_hybrid_stiched

5B • Updated 10 days ago • 25
inference-optimization/llama3_8b_5.0_bits_mode_noise_stiched

5B • Updated 10 days ago • 22
inference-optimization/llama3_8b_5.5_bits_mode_heuristic_stiched

6B • Updated 10 days ago • 21
inference-optimization/llama3_8b_5.5_bits_mode_hybrid_stiched

6B • Updated 10 days ago • 27
inference-optimization/llama3_8b_5.5_bits_mode_noise_stiched

6B • Updated 10 days ago • 29
inference-optimization/llama3_8b_6.0_bits_mode_heuristic_stiched

6B • Updated 10 days ago • 23
inference-optimization/llama3_8b_6.0_bits_mode_hybrid_stiched

6B • Updated 10 days ago • 50
inference-optimization/llama3_8b_6.0_bits_mode_noise_stiched

6B • Updated 10 days ago • 29
inference-optimization/llama3_8b_6.5_bits_mode_heuristic_stiched

7B • Updated 10 days ago • 23
inference-optimization/llama3_8b_6.5_bits_mode_hybrid_stiched

7B • Updated 10 days ago • 27
inference-optimization/llama3_8b_6.5_bits_mode_noise_stiched

7B • Updated 10 days ago • 26
inference-optimization/llama3_8b_7.0_bits_mode_heuristic_stiched

7B • Updated 10 days ago • 25
inference-optimization/llama3_8b_7.0_bits_mode_hybrid_stiched

7B • Updated 10 days ago • 29
inference-optimization/llama3_8b_7.0_bits_mode_noise_stiched

7B • Updated 10 days ago • 28
inference-optimization/qwen3_8b_5.0_bits_mode_heuristic_stiched

6B • Updated 10 days ago • 54
inference-optimization/qwen3_8b_5.0_bits_mode_hybrid_stiched

6B • Updated 10 days ago • 56
inference-optimization/qwen3_8b_5.0_bits_mode_noise_stiched

6B • Updated 10 days ago • 55
inference-optimization/qwen3_8b_5.5_bits_mode_heuristic_stiched

6B • Updated 10 days ago • 55
inference-optimization/qwen3_8b_5.5_bits_mode_hybrid_stiched

6B • Updated 10 days ago • 56
inference-optimization/qwen3_8b_5.5_bits_mode_noise_stiched

6B • Updated 10 days ago • 52
inference-optimization/qwen3_8b_6.0_bits_mode_heuristic_stiched

6B • Updated 10 days ago • 55
inference-optimization/qwen3_8b_6.0_bits_mode_hybrid_stiched

6B • Updated 10 days ago • 49
inference-optimization/qwen3_8b_6.0_bits_mode_noise_stiched

6B • Updated 10 days ago • 56
inference-optimization/qwen3_8b_6.5_bits_mode_heuristic_stiched

7B • Updated 10 days ago • 56
inference-optimization/qwen3_8b_6.5_bits_mode_hybrid_stiched

7B • Updated 10 days ago • 53
inference-optimization/qwen3_8b_6.5_bits_mode_noise_stiched

7B • Updated 10 days ago • 58
inference-optimization/qwen3_8b_7.0_bits_mode_heuristic_stiched

7B • Updated 10 days ago • 56
inference-optimization/qwen3_8b_7.0_bits_mode_hybrid_stiched

7B • Updated 10 days ago • 57
inference-optimization/qwen3_8b_7.0_bits_mode_noise_stiched

7B • Updated 10 days ago • 57