Cuantiza tus modelos.
Menos VRAM. Misma calidad.

Reduce el tamaño de tus modelos hasta un 75% sin perder precisión significativa. Elige el formato según tu hardware.

✓ GGUF / llama.cpp ✓ GPTQ (GPU) ✓ AWQ (GPU) ✓ INT8 / FP16 ✓ BitsAndBytes
Formatos de Cuantización
Q4_K_M
GGUF — 4 bits, Mixed Quantization
⭐ RECOMENDADO
Pérdida calidadMuy baja
Reducción tamaño~65%
Modelo 7B~4.1 GB
Modelo 13B~7.9 GB
Modelo 30B~18 GB
Modelo 70B~41 GB
Disponible vía llama.cpp / Unsloth
Q5_K_M
GGUF — 5 bits, Mixed Quantization
⚖ EQUILIBRADO
Pérdida calidadMínima
Reducción tamaño~55%
Modelo 7B~5.0 GB
Modelo 13B~9.5 GB
Modelo 30B~22 GB
Modelo 70B~50 GB
Disponible vía llama.cpp / Unsloth
Q8_0
GGUF — 8 bits, Alta fidelidad
🎯 ALTA CALIDAD
Pérdida calidadCasi nula
Reducción tamaño~35%
Modelo 7B~7.7 GB
Modelo 13B~14.5 GB
Modelo 30B~32 GB
Modelo 70B~75 GB
Disponible vía llama.cpp / Unsloth
FP16 / BF16
Half Precision — 16 bits
🔥 MÁXIMA CALIDAD
Pérdida calidadNinguna
Reducción tamaño~50% vs FP32
Modelo 7B~14 GB
Modelo 13B~26 GB
Modelo 30B~60 GB
Modelo 70B~140 GB
Soporte nativo en TenMiNaTor
INT8
BitsAndBytes — 8 bits dinámico
⚡ GPU RÁPIDO
Pérdida calidadMuy baja
Reducción tamaño~50%
Modelo 7B~7 GB
Modelo 13B~13 GB
Modelo 30B~30 GB
RequiereCUDA GPU
En desarrollo — TenMiNaTor v2
GPTQ
Post-Training Quantization — GPU
🎮 GPU OPTIMIZADO
Pérdida calidadBaja
Bits3 / 4 / 8 bits
Modelo 7B (4b)~4 GB
Modelo 13B (4b)~8 GB
VelocidadMuy rápido
RequiereCUDA GPU
Planificado — TenMiNaTor v2
AWQ
Activation-aware Weight Quantization
🏆 MEJOR GPU
Pérdida calidadMínima
Bits4 bits
Modelo 7B~4 GB
Modelo 13B~8 GB
VelocidadMuy rápido
RequiereCUDA GPU
Planificado — TenMiNaTor v2
FP32
Full Precision — 32 bits
🔬 DESARROLLO
Pérdida calidadNinguna
Reducción tamañoNinguna
Modelo 7B~28 GB
Modelo 13B~52 GB
UsoSolo training
InferenciaNo recomendado
Soporte nativo en TenMiNaTor
¿Qué cabe en tu GPU?
Modelo 8 GB VRAM 16 GB VRAM 24 GB VRAM 32 GB VRAM 48 GB+ VRAM Formato recomendado
1B – 3B ✓ FP16 ✓ FP16 ✓ FP16 ✓ FP32 ✓ FP32 FP16 / Q8
7B Q4_K_M ✓ Q8 / FP16 ✓ FP16 ✓ FP16 ✓ FP32 Q4_K_M ⭐
13B ✗ No cabe Q4_K_M ✓ Q8 ✓ FP16 ✓ FP16 Q4_K_M ⭐
30B – 34B ✗ No cabe ✗ No cabe Q4_K_M ✓ Q4_K_M ✓ Q8 Q4_K_M / Q5_K_M
40B ✗ No cabe ✗ No cabe ✗ No cabe Q4_K_M ~22GB ✓ Q4_K_M Q4_K_M en 32 GB
70B ✗ No cabe ✗ No cabe ✗ No cabe ✗ No cabe Q4_K_M ~41GB Q4_K_M + offload CPU

* Los tamaños son aproximados. VRAM requerida = tamaño del modelo + ~2 GB para contexto y KV cache.

Cómo cuantizar con TenMiNaTor
1

Entrena o importa

Entrena tu modelo con TenMiNaTor o importa uno de HuggingFace / Unsloth.

2

Elige el formato

Selecciona Q4_K_M para uso general, Q8 para máxima calidad, FP16 para GPU potente.

3

Cuantiza

Un clic en la app o un comando Python. TenMiNaTor llama a llama.cpp / Unsloth internamente.

4

Prueba

Carga en LM Studio, Ollama o el motor C++ de TenMiNaTor y prueba en segundos.

Código de ejemplo
# Cuantizar un modelo entrenado con TenMiNaTor from tenminator import Quantizer # Cargar modelo entrenado quant = Quantizer.from_checkpoint("./checkpoints/mi_modelo.pkl") # Cuantizar a Q4_K_M (recomendado) quant.quantize( format="Q4_K_M", # Q4_K_M | Q5_K_M | Q8_0 | FP16 | INT8 output="./output/modelo_q4.gguf", calibration_data="./data/calibration.csv" # opcional ) # Verificar tamaño y pérdida estimada info = quant.estimate(format="Q4_K_M") print(f"Tamaño: {info.size_gb:.1f} GB | Pérdida: {info.perplexity_delta:.2f}") # Exportar para Ollama / LM Studio quant.export_ollama("mi-modelo:q4") quant.export_lmstudio("./lmstudio/mi-modelo-Q4_K_M.gguf")

⚠ La API Quantizer está en desarrollo activo para TenMiNaTor v2. Actualmente disponible vía integración con Unsloth y llama.cpp.

Formatos de archivo soportados
📦
GGUF
llama.cpp, Ollama, LM Studio
✓ Soportado
🤗
SafeTensors
HuggingFace estándar
✓ Soportado
🔥
PyTorch .pt
Checkpoints nativos
✓ Soportado
🧠
ONNX
Inferencia multiplataforma
⚡ En desarrollo
TensorRT
NVIDIA optimizado
⚡ En desarrollo
🍎
CoreML / MLX
Apple Silicon
⚡ Planificado
🌐
OpenVINO
Intel CPU/GPU/NPU
⚡ Planificado
📁
Pickle / PKL
TenMiNaTor nativo
✓ Nativo