0
Sesiones Activas
0
Datasets Procesados
0
Modelos Entrenados
0%
Uso GPU
⚡ Acciones Rápidas (pasa el ratón para más info)
📁 Subir Datos
Carga archivos en múltiples formatos para crear tu dataset de entrenamiento. Soporta: PDF, DOCX, Excel, PowerPoint, Markdown, TOON, CSV, JSON, TXT, MP3, WAV.

Los archivos se procesan automáticamente extrayendo texto, tablas y pares QA. Formatos: 12+
🧹 Limpiar Datos
Limpieza automática del dataset: elimina caracteres especiales, normaliza espacios, filtra textos vacíos y estandariza el formato.

Incluye detección de idioma y normalización de encoding. Reducción media: 15%
🔍 Deduplicación Semántica
Elimina duplicados exactos (hash MD5) y duplicados semánticos (embeddings).

Usa MinHash LSH para datasets grandes (millones de muestras) y sentence-transformers para similitud semántica profunda. Umbral configurable
🚀 Fine-tuning LLM
Entrena tu modelo con LoRA/QLoRA usando los datos curados. Soporta Llama 3, Mistral, Phi-3, Gemma y más.

Opciones: Local (CPU/GPU) o GPU en hosting. Early stopping automático a las 12 iteraciones similares. Unsloth · TenMiNaTor · Terminato
🌍 Traducción Automática
Traduce tu dataset a cualquier idioma usando deep-translator y Google Translate.

Soporta: Español, Inglés, Francés, Alemán, Italiano, Portugués, Chino, Japonés y más. Detección automática del idioma origen. 20+ idiomas soportados
💭 Análisis de Sentimientos
Clasifica cada muestra del dataset por sentimiento: positivo, negativo, neutro o mixto.

Usa VADER para inglés y TextBlob para español. Permite filtrar por sentimiento antes de entrenar para modelos más especializados. Precisión: ~85%
⚖️ Detección de Sesgos
Analiza el dataset en busca de sesgos: género, político, racial, toxicidad y longitud.

Genera un reporte detallado con recomendaciones para reducir sesgos antes de entrenar el modelo. Fundamental para modelos de producción. 5 tipos de sesgo
✨ Generación Sintética
Genera datos de entrenamiento sintéticos con bases comunes aleatorias. Tipos: instrucciones, conversaciones, QA, dominio específico.

Soporta dominios: medicina, derecho, finanzas, educación, tecnología. Exporta en formato Alpaca o ShareGPT. Alpaca · ShareGPT · Custom
👁️ OCR - Reconocimiento de Texto
Extrae texto de imágenes incrustadas en PDFs o archivos de imagen directamente.

Usa Tesseract OCR con soporte para múltiples idiomas. Ideal para digitalizar documentos escaneados o capturas de pantalla. Requiere: tesseract-ocr
🎙️ Transcripción de Audio
Convierte archivos de audio en texto usando OpenAI Whisper. Soporta: MP3, WAV, OGG, M4A, FLAC, WebM.

Genera automáticamente datasets de entrenamiento desde podcasts, entrevistas, clases o cualquier contenido de audio. Modelos: tiny → large
⚡ Balanceo de Datos
Equilibra clases desbalanceadas en el dataset. Métodos: Oversampling, Undersampling, SMOTE sintético.

Fundamental cuando una clase tiene muchas más muestras que otras, evitando que el modelo aprenda a predecir solo la clase mayoritaria. 3 estrategias disponibles
📦 Compresión de Dataset
Comprime el dataset para reducir espacio en disco y acelerar transferencias. Formatos: ZIP, GZIP, TAR.GZ, BZIP2, LZ4.

Reducción típica: 50-80% del tamaño original. LZ4 es el más rápido; BZIP2 el que más comprime. Reducción media: 65%
✅ Validación de Calidad
Evalúa la calidad del dataset con métricas estándar: BLEU, ROUGE-1, ROUGE-2, ROUGE-L.

Genera un reporte completo con recomendaciones específicas para mejorar el dataset antes de usarlo en entrenamiento. Puntuación 0-100
🏷️ Anotación Automática
Clasifica y etiqueta automáticamente cada muestra del dataset. Detecta: tema, complejidad, formato, idioma y sentimiento.

Usa modelos zero-shot cuando están disponibles, con fallback a reglas heurísticas para máxima compatibilidad. 5 tipos de anotación
📌 Versionado de Dataset
Sistema de control de versiones para datasets, similar a Git. Guarda snapshots, permite comparar versiones y hacer rollback.

Cada versión incluye: metadatos, estadísticas, hash de integridad y descripción de cambios. Ideal para experimentos reproducibles. Historial completo
🤗 Hugging Face Hub
Descarga datasets populares directamente desde Hugging Face Hub (Alpaca, OpenOrca, Dolly, UltraChat y más).

También permite subir tus datasets curados al Hub. Requiere token HF_TOKEN para subir (gratuito en huggingface.co). 8+ datasets populares
📋 Consola de Actividad
[INFO] ÁI.Net 2.0 iniciado
[INFO] API disponible en http://localhost:8000/docs
[READY] Sistema listo. Selecciona una acción para comenzar.
📁 Subir Archivo
📂

Arrastra archivos aquí o haz clic para seleccionar

Máximo 500MB por archivo

PDFDOCX XLSXPPTX MDTOON CSVJSON TXTMP3 WAVPNG
⚙️ Configuración de Curado
⚙️ Configuración del Modelo
🖥️ Destino de Entrenamiento
💻 Entrenamiento Local
Usa tu hardware local: CPU, GPU NVIDIA (CUDA), múltiples GPUs y discos NVMe. Soporta Terminato para gestión avanzada de GPU/NVMe. Requiere: PyTorch + CUDA
☁️ GPU en Hosting
Abre una nueva ventana conectada a un servidor GPU externo. La configuración actual se transfiere automáticamente vía API endpoint.

Configura tu endpoint en Otras Opciones → Enlazar App GPU. API: /api/export/config
🏗️ Frameworks Propios
🧠
TenMiNaTor
Fusión de modelos, fine-tuning dirigido, RL por capas
Inactivo
🧠 TenMiNaTor
Framework de fusión de modelos, fine-tuning dirigido y Reinforcement Learning por capas. Incluye análisis profundo de capas y aprendizaje relacional multimodal. pip install tenminator
Terminato
Gestión GPU/NVMe, entrenamientos avanzados, análisis de capas
Inactivo
⚡ Terminato
Framework para entrenamiento con gestión avanzada de GPU y discos NVMe. Soporta múltiples GPUs, early stopping y checkpoints automáticos. pip install terminato
💾
TerminaTodo
Almacenamiento unificado: local, nube, hosting privado
Inactivo
💾 TerminaTodo
Gestor unificado de almacenamiento: SSD, HDD, Google Drive, OneDrive, Dropbox, SFTP. Sincronización automática, caché inteligente y compresión. pip install terminatodo
🎯
TERMINATOR
Inferencia dirigida, audio ElevenLabs, animación 3D
Disponible
🎯 TERMINATOR
Framework de inferencia dirigida (steerable) con soporte para audio ElevenLabs, animación 3D y procesamiento multimodal. Sin requisitos adicionales. pip install terminator-ai
🔥
TenMinaTorch
Deep Learning con PyTorch, entrenamiento optimizado
PyPI
🔥 TenMinaTorch
Librería de Deep Learning basada en PyTorch con optimizaciones para entrenamiento de LLMs. Disponible directamente en PyPI. pip install tenminatorch
🦥
Unsloth
Fine-tuning 2x más rápido, 70% menos VRAM
Disponible
🦥 Unsloth
Framework oficial de Unsloth para fine-tuning ultra-rápido. 2x más rápido y 70% menos VRAM que implementaciones estándar. pip install unsloth
📚 Librerías Estándar
🚀 Notebook de Entrenamiento

Notebook completo para fine-tuning de LLMs con Unsloth, LoRA y TRL. Incluye carga de modelo, preparación de datos, entrenamiento e inferencia.

🚀 Notebook de Entrenamiento
Genera un notebook .ipynb listo para Google Colab con: instalación, carga de modelo, dataset, LoRA, entrenamiento y prueba. 11 celdas · GPU T4/A100
🧹 Notebook de Curado

Notebook para limpiar, deduplicar, analizar y exportar datasets. Incluye visualizaciones y estadísticas del dataset.

🧹 Notebook de Curado
Notebook para curado completo de datos: limpieza, deduplicación, estadísticas, visualizaciones y exportación. 7 celdas · Sin GPU necesaria
📦 Archivos Disponibles
📊 dataset_procesado.jsonl
Dataset curado · Formato Alpaca · 1,247 muestras
Listo
📊 dataset_procesado.csv
Dataset curado · Formato CSV · 1,247 muestras
Listo
📓 UnslothAI_Training.ipynb
Notebook Colab · Fine-tuning LLM · 11 celdas
Notebook
📓 UnslothAI_DataCuration.ipynb
Notebook Colab · Curado de datos · 7 celdas
Notebook
📋 reporte_calidad.json
Reporte de validación · Métricas BLEU/ROUGE · Recomendaciones
Reporte
🗜️ dataset_comprimido.zip
Dataset comprimido · Reducción 65% · ZIP
Comprimido

📤 Exportar e Importar a Otras Apps

Todo el contenido procesado (datasets, configuraciones, modelos) puede importarse a otra aplicación mediante API endpoints. Enlaza tu app externa y recupera el estado completo de esta sesión.

☁️
App GPU Hosting
Transfiere configuración a servidor GPU externo
☁️ App GPU Hosting
Abre una nueva ventana con la app de entrenamiento GPU. Toda la configuración actual (modelo, dataset, hiperparámetros) se transfiere automáticamente vía endpoint API. GET /api/export/config
Terminato App
Importar en Terminato para entrenamiento avanzado
⚡ Exportar a Terminato
Exporta el dataset y configuración al framework Terminato para entrenamiento con gestión avanzada de GPU/NVMe. POST /api/export/terminato
🧠
TenMiNaTor App
Fusión y fine-tuning dirigido con TenMiNaTor
🧠 Exportar a TenMiNaTor
Transfiere el dataset curado a TenMiNaTor para fine-tuning dirigido, fusión de modelos y Reinforcement Learning por capas. POST /api/export/tenminator
💾
TerminaTodo Storage
Guardar en almacenamiento unificado
💾 Exportar a TerminaTodo
Guarda todos los datasets y modelos en TerminaTodo para acceso desde cualquier fuente: local, nube o hosting privado. POST /api/export/terminatodo
🤗
Hugging Face Hub
Publicar dataset en HF Hub
🤗 Publicar en HF Hub
Sube el dataset curado directamente a Hugging Face Hub. Requiere token HF_TOKEN (gratuito en huggingface.co). POST /api/export/huggingface
🔧
App Personalizada
Enlaza tu propia aplicación via API
🔧 App Personalizada
Configura un endpoint personalizado para exportar datos a tu propia aplicación. Soporta autenticación Bearer token y webhooks. Configurable
🔌 Endpoint de Exportación Completa (para importar en otra app)
GET http://localhost:8000/api/export/full-state
GET http://localhost:8000/api/export/config — Solo configuración
GET http://localhost:8000/api/export/dataset — Solo dataset
POST http://localhost:8000/api/import/state — Importar estado

La app externa recibirá la configuración vía parámetro ?config_endpoint=http://localhost:8000/api/export/config