Q4_K_M
GGUF — 4 bits, Mixed Quantization
⭐ RECOMENDADO
Pérdida calidadMuy baja
Reducción tamaño~65%
Modelo 7B~4.1 GB
Modelo 13B~7.9 GB
Modelo 30B~18 GB
Modelo 70B~41 GB
Disponible vía llama.cpp / Unsloth
Q5_K_M
GGUF — 5 bits, Mixed Quantization
⚖ EQUILIBRADO
Pérdida calidadMínima
Reducción tamaño~55%
Modelo 7B~5.0 GB
Modelo 13B~9.5 GB
Modelo 30B~22 GB
Modelo 70B~50 GB
Disponible vía llama.cpp / Unsloth
Q8_0
GGUF — 8 bits, Alta fidelidad
🎯 ALTA CALIDAD
Pérdida calidadCasi nula
Reducción tamaño~35%
Modelo 7B~7.7 GB
Modelo 13B~14.5 GB
Modelo 30B~32 GB
Modelo 70B~75 GB
Disponible vía llama.cpp / Unsloth
FP16 / BF16
Half Precision — 16 bits
🔥 MÁXIMA CALIDAD
Pérdida calidadNinguna
Reducción tamaño~50% vs FP32
Modelo 7B~14 GB
Modelo 13B~26 GB
Modelo 30B~60 GB
Modelo 70B~140 GB
Soporte nativo en TenMiNaTor
INT8
BitsAndBytes — 8 bits dinámico
⚡ GPU RÁPIDO
Pérdida calidadMuy baja
Reducción tamaño~50%
Modelo 7B~7 GB
Modelo 13B~13 GB
Modelo 30B~30 GB
RequiereCUDA GPU
En desarrollo — TenMiNaTor v2
GPTQ
Post-Training Quantization — GPU
🎮 GPU OPTIMIZADO
Pérdida calidadBaja
Bits3 / 4 / 8 bits
Modelo 7B (4b)~4 GB
Modelo 13B (4b)~8 GB
VelocidadMuy rápido
RequiereCUDA GPU
Planificado — TenMiNaTor v2
AWQ
Activation-aware Weight Quantization
🏆 MEJOR GPU
Pérdida calidadMínima
Bits4 bits
Modelo 7B~4 GB
Modelo 13B~8 GB
VelocidadMuy rápido
RequiereCUDA GPU
Planificado — TenMiNaTor v2
FP32
Full Precision — 32 bits
🔬 DESARROLLO
Pérdida calidadNinguna
Reducción tamañoNinguna
Modelo 7B~28 GB
Modelo 13B~52 GB
UsoSolo training
InferenciaNo recomendado
Soporte nativo en TenMiNaTor