⚡ Panel Principal
ÁI.Net 2.0 — Plataforma de entrenamiento LLM
Los archivos se procesan automáticamente extrayendo texto, tablas y pares QA. Formatos: 12+
Incluye detección de idioma y normalización de encoding. Reducción media: 15%
Usa MinHash LSH para datasets grandes (millones de muestras) y sentence-transformers para similitud semántica profunda. Umbral configurable
Opciones: Local (CPU/GPU) o GPU en hosting. Early stopping automático a las 12 iteraciones similares. Unsloth · TenMiNaTor · Terminato
Soporta: Español, Inglés, Francés, Alemán, Italiano, Portugués, Chino, Japonés y más. Detección automática del idioma origen. 20+ idiomas soportados
Usa VADER para inglés y TextBlob para español. Permite filtrar por sentimiento antes de entrenar para modelos más especializados. Precisión: ~85%
Genera un reporte detallado con recomendaciones para reducir sesgos antes de entrenar el modelo. Fundamental para modelos de producción. 5 tipos de sesgo
Soporta dominios: medicina, derecho, finanzas, educación, tecnología. Exporta en formato Alpaca o ShareGPT. Alpaca · ShareGPT · Custom
Usa Tesseract OCR con soporte para múltiples idiomas. Ideal para digitalizar documentos escaneados o capturas de pantalla. Requiere: tesseract-ocr
Genera automáticamente datasets de entrenamiento desde podcasts, entrevistas, clases o cualquier contenido de audio. Modelos: tiny → large
Fundamental cuando una clase tiene muchas más muestras que otras, evitando que el modelo aprenda a predecir solo la clase mayoritaria. 3 estrategias disponibles
Reducción típica: 50-80% del tamaño original. LZ4 es el más rápido; BZIP2 el que más comprime. Reducción media: 65%
Genera un reporte completo con recomendaciones específicas para mejorar el dataset antes de usarlo en entrenamiento. Puntuación 0-100
Usa modelos zero-shot cuando están disponibles, con fallback a reglas heurísticas para máxima compatibilidad. 5 tipos de anotación
Cada versión incluye: metadatos, estadísticas, hash de integridad y descripción de cambios. Ideal para experimentos reproducibles. Historial completo
También permite subir tus datasets curados al Hub. Requiere token HF_TOKEN para subir (gratuito en huggingface.co). 8+ datasets populares
🧹 Curado de Datos
Limpia, transforma y prepara tus datasets para entrenamiento
Arrastra archivos aquí o haz clic para seleccionar
Máximo 500MB por archivo
🤖 Entrenamiento
Configura y lanza tu entrenamiento de LLM
Configura tu endpoint en Otras Opciones → Enlazar App GPU. API: /api/export/config
🔧 Frameworks y Librerías
Selecciona y combina frameworks para potenciar tu entrenamiento
📓 Notebooks de Colab
Genera notebooks listos para ejecutar en Google Colab
Notebook completo para fine-tuning de LLMs con Unsloth, LoRA y TRL. Incluye carga de modelo, preparación de datos, entrenamiento e inferencia.
Notebook para limpiar, deduplicar, analizar y exportar datasets. Incluye visualizaciones y estadísticas del dataset.
⬇️ Descargas
Descarga datasets procesados, modelos y notebooks
🔗 Otras Opciones
Importa y exporta contenido a otras aplicaciones