TenMiNaTor — Cuantización de Modelos

Formatos de Cuantización

Q4_K_M

GGUF — 4 bits, Mixed Quantization

⭐ RECOMENDADO

Pérdida calidadMuy baja

Reducción tamaño~65%

Modelo 7B~4.1 GB

Modelo 13B~7.9 GB

Modelo 30B~18 GB

Modelo 70B~41 GB

Disponible vía llama.cpp / Unsloth

Q5_K_M

GGUF — 5 bits, Mixed Quantization

⚖ EQUILIBRADO

Pérdida calidadMínima

Reducción tamaño~55%

Modelo 7B~5.0 GB

Modelo 13B~9.5 GB

Modelo 30B~22 GB

Modelo 70B~50 GB

Disponible vía llama.cpp / Unsloth

Q8_0

GGUF — 8 bits, Alta fidelidad

🎯 ALTA CALIDAD

Pérdida calidadCasi nula

Reducción tamaño~35%

Modelo 7B~7.7 GB

Modelo 13B~14.5 GB

Modelo 30B~32 GB

Modelo 70B~75 GB

Disponible vía llama.cpp / Unsloth

FP16 / BF16

Half Precision — 16 bits

🔥 MÁXIMA CALIDAD

Pérdida calidadNinguna

Reducción tamaño~50% vs FP32

Modelo 7B~14 GB

Modelo 13B~26 GB

Modelo 30B~60 GB

Modelo 70B~140 GB

Soporte nativo en TenMiNaTor

INT8

BitsAndBytes — 8 bits dinámico

⚡ GPU RÁPIDO

Pérdida calidadMuy baja

Reducción tamaño~50%

Modelo 7B~7 GB

Modelo 13B~13 GB

Modelo 30B~30 GB

RequiereCUDA GPU

En desarrollo — TenMiNaTor v2

GPTQ

Post-Training Quantization — GPU

🎮 GPU OPTIMIZADO

Pérdida calidadBaja

Bits3 / 4 / 8 bits

Modelo 7B (4b)~4 GB

Modelo 13B (4b)~8 GB

VelocidadMuy rápido

RequiereCUDA GPU

Planificado — TenMiNaTor v2

AWQ

Activation-aware Weight Quantization

🏆 MEJOR GPU

Pérdida calidadMínima

Bits4 bits

Modelo 7B~4 GB

Modelo 13B~8 GB

VelocidadMuy rápido

RequiereCUDA GPU

Planificado — TenMiNaTor v2

FP32

Full Precision — 32 bits

🔬 DESARROLLO

Pérdida calidadNinguna

Reducción tamañoNinguna

Modelo 7B~28 GB

Modelo 13B~52 GB

UsoSolo training

InferenciaNo recomendado

Soporte nativo en TenMiNaTor

¿Qué cabe en tu GPU?

Modelo	8 GB VRAM	16 GB VRAM	24 GB VRAM	32 GB VRAM	48 GB+ VRAM	Formato recomendado
1B – 3B	✓ FP16	✓ FP16	✓ FP16	✓ FP32	✓ FP32	FP16 / Q8
7B	Q4_K_M	✓ Q8 / FP16	✓ FP16	✓ FP16	✓ FP32	Q4_K_M ⭐
13B	✗ No cabe	Q4_K_M	✓ Q8	✓ FP16	✓ FP16	Q4_K_M ⭐
30B – 34B	✗ No cabe	✗ No cabe	Q4_K_M	✓ Q4_K_M	✓ Q8	Q4_K_M / Q5_K_M
40B	✗ No cabe	✗ No cabe	✗ No cabe	Q4_K_M ~22GB	✓ Q4_K_M	Q4_K_M en 32 GB
70B	✗ No cabe	✗ No cabe	✗ No cabe	✗ No cabe	Q4_K_M ~41GB	Q4_K_M + offload CPU

* Los tamaños son aproximados. VRAM requerida = tamaño del modelo + ~2 GB para contexto y KV cache.

Cómo cuantizar con TenMiNaTor

Entrena o importa

Entrena tu modelo con TenMiNaTor o importa uno de HuggingFace / Unsloth.

Elige el formato

Selecciona Q4_K_M para uso general, Q8 para máxima calidad, FP16 para GPU potente.

Cuantiza

Un clic en la app o un comando Python. TenMiNaTor llama a llama.cpp / Unsloth internamente.

Prueba

Carga en LM Studio, Ollama o el motor C++ de TenMiNaTor y prueba en segundos.

Código de ejemplo

# Cuantizar un modelo entrenado con TenMiNaTor
from tenminator import Quantizer

# Cargar modelo entrenado
quant = Quantizer.from_checkpoint("./checkpoints/mi_modelo.pkl")

# Cuantizar a Q4_K_M (recomendado)
quant.quantize(
    format="Q4_K_M",       # Q4_K_M | Q5_K_M | Q8_0 | FP16 | INT8
    output="./output/modelo_q4.gguf",
    calibration_data="./data/calibration.csv"  # opcional
)

# Verificar tamaño y pérdida estimada
info = quant.estimate(format="Q4_K_M")
print(f"Tamaño: {info.size_gb:.1f} GB | Pérdida: {info.perplexity_delta:.2f}")

# Exportar para Ollama / LM Studio
quant.export_ollama("mi-modelo:q4")
quant.export_lmstudio("./lmstudio/mi-modelo-Q4_K_M.gguf")
  

⚠ La API Quantizer está en desarrollo activo para TenMiNaTor v2. Actualmente disponible vía integración con Unsloth y llama.cpp.

Formatos de archivo soportados

📦

GGUF

llama.cpp, Ollama, LM Studio

✓ Soportado

🤗

SafeTensors

HuggingFace estándar

✓ Soportado

🔥

PyTorch .pt

Checkpoints nativos

✓ Soportado

🧠

ONNX

Inferencia multiplataforma

⚡ En desarrollo

⚡

TensorRT

NVIDIA optimizado

⚡ En desarrollo

🍎

CoreML / MLX

Apple Silicon

⚡ Planificado

🌐

OpenVINO

Intel CPU/GPU/NPU

⚡ Planificado

📁

Pickle / PKL

TenMiNaTor nativo

✓ Nativo

Cuantiza tus modelos.Menos VRAM. Misma calidad.

Entrena o importa

Elige el formato

Cuantiza

Prueba

Cuantiza tus modelos.
Menos VRAM. Misma calidad.