Software
Ollama: El motor principal de inferencia. Gestiona la memoria gráfica de tu equipo y ejecuta directamente los modelos de última generación (como Gemma 4, Llama 4 Scout o la reciente familia Qwen 3).
Docker Desktop: Plataforma de virtualización ligera, estrictamente necesaria para levantar la interfaz gráfica de usuario sin generar conflictos de dependencias en tu sistema.
Open WebUI: La capa visual. Es un contenedor que se conecta al motor de Ollama para ofrecerte un entorno gráfico avanzado, idéntico al de ChatGPT, pero manteniendo la soberanía total del dato.
Pasos de Instalación y Configuración
Instalar el motor de inferencia: Descarga el instalador de Ollama desde su sitio web oficial y ejecútalo. Una vez finalizado, el servicio de IA quedará funcionando de forma invisible en segundo plano.
Descargar el modelo deseado: Abre la consola o terminal de tu sistema y solicita a Ollama que inicie el modelo que vayas a utilizar (por ejemplo, la última versión de Gemma 4). El sistema se encargará de descargar los pesos automáticamente.
Preparar el entorno de contenedores: Descarga e instala Docker Desktop. Ábrelo y asegúrate de que el motor de virtualización indique que está activo y funcionando.
Desplegar la interfaz gráfica: Vuelve a la terminal e indica a Docker que descargue y levante la imagen oficial de Open WebUI, asegurándote de enlazarla con el puerto de red donde está escuchando tu instalación de Ollama.
Acceso e interacción: Abre tu navegador web habitual y navega hacia tu dirección local (localhost). Crea tu cuenta de administrador inicial (estos datos no salen de tu equipo), abre el desplegable superior y selecciona el modelo que descargaste en el paso dos para empezar a interactuar de forma 100% privada.
Motores de Inferencia (Alternativas a Ollama)
Estos motores se encargan de compilar, optimizar y ejecutar los pesos del modelo directamente en el hardware (CPU/GPU).
Llama.cpp: El motor en C/C++ puro que sustenta a la mayoría de herramientas actuales. Es la opción ideal si buscas el mínimo consumo de recursos del sistema y la máxima compatibilidad, permitiendo ejecutar IA incluso combinando CPU y RAM convencional.
vLLM: Diseñado para un rendimiento extremo y alta concurrencia. Utiliza un sistema de gestión de memoria avanzado (PagedAttention) que optimiza drásticamente el uso de la VRAM, siendo el estándar para servidores locales que dan servicio a múltiples usuarios simultáneos.
TensorRT-LLM (NVIDIA): El motor oficial de NVIDIA. Requiere una fase de compilación previa del modelo, pero exprime cada núcleo Tensor de las tarjetas gráficas de la marca, logrando la velocidad de inferencia (tokens por segundo) más alta del mercado.
ExLlamaV2: Un motor diseñado exclusivamente para GPUs NVIDIA que trabaja con el formato de cuantización
.exl2. Su gran ventaja es que permite ajustar el tamaño del modelo con precisión milimétrica para que quepa exactamente en tu memoria VRAM disponible.Hugging Face TGI (Text Generation Inference): El motor que utiliza Hugging Face en sus propios servidores de producción. Está pensado para despliegues empresariales en local, incluyendo balanceo de carga nativo y soporte para las arquitecturas de red más complejas.
Plataformas de Virtualización y Contenedores (Alternativas a Docker)
Herramientas para aislar los entornos de ejecución, drivers y dependencias del sistema operativo base.
Podman: La alternativa directa y daemonless (sin servicio centralizado) a Docker. Utiliza exactamente la misma sintaxis de comandos, pero ofrece mayor seguridad nativa al permitir ejecutar contenedores de IA sin necesidad de privilegios de superusuario (rootless).
Proxmox VE: Un hipervisor de tipo 1 basado en Debian. Es la herramienta idónea si montas un servidor local dedicado, ya que permite crear Máquinas Virtuales (VM) independientes con GPU Passthrough (asignación directa de la tarjeta gráfica a una VM).
K3s: Una distribución de Kubernetes ultra ligera desarrollada por Rancher. Es perfecta si necesitas orquestar y escalar contenedores de IA en un clúster de servidores locales sin la sobrecarga ni la complejidad del Kubernetes tradicional.
Apptainer (antiguo Singularity): Muy utilizado en entornos científicos y clusters de computación de alto rendimiento (HPC). Está diseñado específicamente para gestionar de forma nativa recursos de GPU y compartir archivos del sistema de forma segura.
LXD / Incus: Contenedores de sistema (no de aplicación como Docker). Te permiten levantar un sistema operativo completo (como un Ubuntu limpio) en milisegundos con acceso directo al hardware, rindiendo prácticamente igual que una máquina física.
Entornos Gráficos e Interfaces de Usuario (Alternativas a Open WebUI)
La capa visual con la que interactúan los desarrolladores o los usuarios finales de la organización.
LM Studio: Aplicación de escritorio (Windows, Linux y macOS) con una interfaz impecable. Cuenta con un buscador integrado conectado directamente a Hugging Face y permite levantar un servidor local compatible con la API de OpenAI con un solo clic.
LibreChat: Una interfaz web corporativa de código abierto muy potente. Su punto fuerte es la gobernanza: permite gestionar múltiples usuarios, asignar roles, mantener historiales separados y conectar de forma nativa bases de datos para flujos de trabajo con documentos corporativos (RAG).
AnythingLLM: La mejor interfaz si el objetivo es entrenar a la IA con documentos locales (PDFs, documentos de texto o sitios web). Integra de serie su propio motor de bases de datos vectoriales sin necesidad de configurar software adicional.
Jan: Un cliente de escritorio de código abierto, minimalista y rápido. Está completamente enfocado en la privacidad del usuario y permite descargar configuraciones de modelos listos para usar según el hardware que detecte en tu máquina.
Text Generation WebUI (Oobabooga): Considerado el equivalente a "Stable Diffusion" pero para modelos de texto. Su interfaz es más técnica y rústica, pero es la herramienta más flexible del mercado para probar extensiones, modificar hiperparámetros avanzados y realizar fine-tuning local.