EOQ Compressed Models - a caiovicentino1 Collection

caiovicentino1 's Collections

HLWQ Large MoE (100B+)

HLWQ Video & Diffusion Models

HLWQ Gemma Models

Nemotron 30B — Consumer GPU Inference

HLWQ Unified (Weights Q5 + KV Cache Q3)

HLWQ MLX (Apple Silicon)

Large Models (27B-35B) HLWQ

Qwen3.5-4B EOQ Quantized

Qwen2.5 EOQ Quantized

Qwen3.5-9B HLWQ

EOQ Compressed Models

Qwen3.5-27B HLWQ

EOQ Compressed Models

updated Mar 31

EOQ (Entropy-Optimal Quantization) compressed models. Mixed-bit allocation + rANS entropy coding. Smaller download, dequant at load time.