DIARIO DE BITACORA

18 de junio de 2026

INFRAESTRUCTURA DE GOOGLE RELACIONADA CON LA IA

Herramientas de IA dentro del Ecosistema de Google

Infraestructura y Código

Vertex AI: Plataforma empresarial en Google Cloud para entrenar, desplegar y gestionar modelos de aprendizaje automático a gran escala.
Antigravity: Entorno de desarrollo (IDE) agent-first que coordina múltiples agentes de IA para construir, probar y refactorizar código en todo un proyecto de forma autónoma.
Stitch: Herramienta visual que convierte descripciones de texto o mockups en diseños de interfaz (UI) y código frontend listo para producción en minutos.
Google AI Studio y Gemini API: Entorno de desarrollo ligero para crear prototipos rápidos e integrar los modelos Gemini en aplicaciones propias.
Gemini CLI: Interfaz de línea de comandos para integrar modelos Gemini directamente en la terminal, automatizando tareas basadas en archivos y scripts.
Gemma: Familia de modelos abiertos y ligeros basados en la tecnología de Gemini, pensados para despliegues locales.

Docencia y Productividad

Gemini (Web/App) y Gems: Asistente conversacional multimodal. Los "Gems" permiten crear asistentes personalizados que memorizan instrucciones, flujos de trabajo y un tono específico (ideal para evaluar prácticas o estructurar clases).
NotebookLM: Asistente de investigación basado estrictamente en tus propios documentos (PDFs, Docs, vídeos). Su función Audio Overviews genera debates de audio estilo podcast analizando tus fuentes.
Workspace Studio (Gemini en Workspace): Integración nativa en Docs, Sheets, Slides y Gmail para automatizar la redacción, resumir hilos de correos y generar análisis de datos.
Google Vids: Creador de presentaciones en vídeo colaborativas dentro de Workspace. Genera guiones, locuciones y transiciones a partir de un prompt.
Gemini Spark (Próximamente): Agente de IA autónomo diseñado para coordinar tareas entre distintas aplicaciones y automatizar flujos de trabajo en segundo plano.
App Builder / AppSheet: Plataformas para el desarrollo de aplicaciones completas sin necesidad de código, utilizando únicamente lenguaje natural.

Creatividad y Marketing

Pomelli: Herramienta que analiza el "ADN" de tu marca para generar automáticamente campañas de marketing coherentes, publicaciones en redes sociales y fotografías de producto en calidad de estudio.
Flow: Generador de texto a vídeo que crea cortos cinematográficos en resolución 4K, permitiendo controlar ángulos de cámara, iluminación y movimiento.
Nano Banana / Imagen 3: Motores de generación de imágenes con alta fidelidad. Nano Banana actúa como un editor visual preciso para refinar y modificar detalles específicos de las imágenes generadas.
Whisk: Herramienta creativa para mezclar sujetos, estilos y escenas de diferentes imágenes arrastrando y soltando elementos.

Búsqueda y Búsqueda Visual

Google Search AI Mode: Evolución del buscador que utiliza la técnica Query Fan-Out para dividir preguntas complejas en subtemas, investigar múltiples fuentes a la vez y crear respuestas estructuradas.
Project Astra: Visión de futuro para agentes multimodales en tiempo real. Procesa vídeo y audio en directo a través de la cámara para interactuar con el entorno físico.

14 de junio de 2026

OPENCODE vs CLAUDE CODE: La batalla en la terminal y su diferencia con OPENCLAW

La adopción de agentes basados en LLM ha definido dos grandes vías de trabajo: los asistentes diseñados exclusivamente para interactuar con repositorios de código y los orquestadores diseñadospara automatizar operaciones del sistema. A continuación, desglosamos las diferencias técnicas entre OpenCode, Claude Code y el rol estructural de OpenClaw.

1. Agentes de Desarrollo: Claude Code y OpenCode

Ambos operan en la capa de desarrollo y se ejecutan directamente en la terminal. Su diseño está orientado a la lectura de repositorios, refactorización, depuración y ejecución de tests. No obstante, parten de filosofías opuestas.

Claude Code

Es la herramienta oficial (código cerrado) de Anthropic. Funciona como un entorno REPL clásico, imprimiendo resultados de forma secuencial en el stdout.

Ecosistema cerrado: Optimizada exclusivamente para modelos de Anthropic.
Rendimiento: Destaca por su baja latencia entre el prompt y la acción gracias a su integración vertical.
Gestión de historial: Limpia las salidas de herramientas antiguas para ahorrar tokens y realiza resúmenes periódicos de sesión.

OpenCode

Es la alternativa Open Source. Está orientada a perfiles técnicos que demandan control absoluto sobre la inferencia y los flujos de trabajo.

Agnóstico (BYOM - Bring Your Own Model): Permite conectar cualquier proveedor de IA (incluyendo modelos locales con Ollama) para mantener la privacidad de los datos en entornos regulados.
Interfaz y Persistencia: Ofrece una interfaz visual completa dentro de la terminal y almacena el historial íntegro en una base de datos SQLite, evitando la pérdida de contexto por podas automáticas.
Control: Prima la fiabilidad frente a la velocidad bruta, ejecutando comprobaciones exhaustivas antes de confirmar cambios.

2. El Agente Operativo: OpenClaw

Mientras que los agentes de código actúan sobre un repositorio, OpenClaw opera sobre el sistema en su totalidad. Es un agente RPA (Robotic Process Automation) autoalojado diseñado para la ejecución en segundo plano 24/7 y la integración con APIs empresariales.

Orquestación: Utiliza el estándar ACP (Agent Client Protocol) para gestionar el enrutamiento. Puede comunicarse con servicios como n8n (para conectar ERPs o correos), Qdrant (base de datos vectorial para memoria semántica) e interfaces de usuario (como Telegram o Slack).
Sinergia: OpenClaw no programa tu aplicación. Su función es operativa. De hecho, a través del protocolo ACP, OpenClaw puede invocar instancias efímeras de OpenCode o Claude Code para ejecutar una refactorización compleja y luego enviarte un aviso por Telegram cuando finalice el proceso.

3. Comparativa de herramientas

OPENCLAW

OpenClaw (ChatGPT): El entorno técnico que dota de un cuerpo operativo a la Inteligencia Artificial

Más allá de los asistentes conversacionales tradicionales y los sistemas de agentes integrados en plataformas como ChatGPT, el ecosistema de la inteligencia artificial cuenta con soluciones arquitectónicas orientadas al control local y la automatización real. El máximo exponente de este enfoque es OpenClaw, un entorno especializado para la creación, despliegue y ejecución de agentes de inteligencia artificial autónomos.

Para entender su impacto, debemos analizar su propuesta de valor: OpenClaw es la estructura técnica que permite que un modelo de lenguaje (LLM) deje de ser un simple chatbot reactivo y comience a actuar e interactuar directamente dentro de una máquina.

Características principales de la plataforma

OpenClaw se ejecuta como un servicio nativo en entornos locales o distribuidos (macOS, Linux o servidores VPS), proporcionando al modelo un entorno de computación real a través de las siguientes capacidades:

Manipulación del sistema de archivos: Capacidad para leer, escribir, modificar y organizar directorios y archivos de forma nativa en el host.
Ejecución de código y herramientas: Dispone de un entorno de ejecución (runtime) donde puede lanzar scripts, compilar código y ejecutar comandos de terminal.
Automatización de navegación: Automatiza el uso de navegadores web para interactuar con aplicaciones de terceros, extraer datos o realizar gestiones en plataformas que carecen de API.
Integración omnicanal: Desacopla la interacción de la típica interfaz web. El agente puede recibir instrucciones y devolver resultados (incluyendo documentos e informes generados) a través de canales de mensajería como Telegram o WhatsApp.

La diferencia clave: Separación de razonamiento y acción

La diferencia fundamental entre un chat convencional y OpenClaw radica en el concepto de cuerpo operativo. OpenClaw es agnóstico respecto al modelo de lenguaje: puede integrarse mediante APIs con proveedores como OpenAI, Anthropic (Claude) o Google (Gemini), o bien conectar con modelos de código abierto locales.

En esta arquitectura, el flujo de trabajo queda claramente dividido:

Componente	Función principal
El Modelo de IA (LLM)	Aporta la capacidad cognitiva, el procesamiento del lenguaje natural y el razonamiento lógico.
OpenClaw	Aporta el entorno físico y operativo donde ese razonamiento se traduce en acciones e interacciones con el mundo digital.

La estructura de un agente puede entenderse fácilmente con la analogía del “cerebroˮ y el “arnésˮ.

El cerebro es el modelo de lenguaje, es decir, el LLM. Es la parte que razona, interpreta la información, toma decisiones y define qué pasos seguir. En el caso de OpenClaw, el sistema le proporciona a ese cerebro un entorno donde puede trabajar con información y decidir qué hacer.

El arnés es la estructura técnica que permite que esa inteligencia actúe. En este caso, OpenClaw funciona como ese arnés: conecta al modelo con herramientas y capacidades concretas, como leer archivos, enviar mensajes, ejecutar código, usar aplicaciones o gestionar memoria.

Dicho de forma sencilla: el cerebro piensa y decide; el arnés le da al agente los medios para ejecutar acciones dentro de un entorno real.

Puede actuar como un agente principal que conecta distintas capacidades. Puede recibir instrucciones por WhatsApp o Telegram, interpretar lo que el usuario necesita, usar herramientas locales o en la nube, consultar archivos, ejecutar acciones y coordinar con otros agentes cuando haga falta.

OpenClaw puede conectarse con modelos de inteligencia artificial de distintas maneras. Las dos formas más relevantes son mediante API o mediante OAuth.

Conexión por API

La API permite conectar el agente directamente a un proveedor de modelos y pagar según consumo. Es flexible, pero puede ser costosa porque un agente suele consumir mucho contexto y muchos tokens.

Si el agente trabaja muchas horas, usa documentos largos, ejecuta tareas complejas o mantiene varias interacciones, el coste puede crecer rápidamente.

Conexión por OAuth

OAuth permite conectar una cuenta de suscripción de IA para que el agente use esa cuenta como cerebro. En el material original se destaca como una opción más económica porque aprovecha una suscripción ya pagada, en lugar de pagar cada token por API.

La elección entre API y OAuth depende del caso, del presupuesto, del nivel de control requerido y de las condiciones de cada proveedor.

Un agente principal puede coordinar tareas y delegar partes del trabajo en otros agentes más pequeños. Esto resulta útil cuando una tarea es pesada, larga o se puede dividir en varias partes.

Por ejemplo:

Un agente principal recibe la tarea de preparar un informe.
Un subagente investiga fuentes.
Otro subagente resume documentos.
Otro revisa coherencia y estilo.
El agente principal integra todo y entrega el resultado final.

OpenClaw necesita ejecutarse sobre una máquina. Puede ser un ordenador físico o un servidor virtual privado (VPS).

SOFTWARE NECESARIO PARA IA LOCAL (2026)

Software

Ollama: El motor principal de inferencia. Gestiona la memoria gráfica de tu equipo y ejecuta directamente los modelos de última generación (como Gemma 4, Llama 4 Scout o la reciente familia Qwen 3).
Docker Desktop: Plataforma de virtualización ligera, estrictamente necesaria para levantar la interfaz gráfica de usuario sin generar conflictos de dependencias en tu sistema.
Open WebUI: La capa visual. Es un contenedor que se conecta al motor de Ollama para ofrecerte un entorno gráfico avanzado, idéntico al de ChatGPT, pero manteniendo la soberanía total del dato.

Pasos de Instalación y Configuración

Instalar el motor de inferencia: Descarga el instalador de Ollama desde su sitio web oficial y ejecútalo. Una vez finalizado, el servicio de IA quedará funcionando de forma invisible en segundo plano.
Descargar el modelo deseado: Abre la consola o terminal de tu sistema y solicita a Ollama que inicie el modelo que vayas a utilizar (por ejemplo, la última versión de Gemma 4). El sistema se encargará de descargar los pesos automáticamente.
Preparar el entorno de contenedores: Descarga e instala Docker Desktop. Ábrelo y asegúrate de que el motor de virtualización indique que está activo y funcionando.
Desplegar la interfaz gráfica: Vuelve a la terminal e indica a Docker que descargue y levante la imagen oficial de Open WebUI, asegurándote de enlazarla con el puerto de red donde está escuchando tu instalación de Ollama.
Acceso e interacción: Abre tu navegador web habitual y navega hacia tu dirección local (localhost). Crea tu cuenta de administrador inicial (estos datos no salen de tu equipo), abre el desplegable superior y selecciona el modelo que descargaste en el paso dos para empezar a interactuar de forma 100% privada.

Ejemplos del ecosistema:

Motores de Inferencia (Alternativas a Ollama)

Estos motores se encargan de compilar, optimizar y ejecutar los pesos del modelo directamente en el hardware (CPU/GPU).

Llama.cpp: El motor en C/C++ puro que sustenta a la mayoría de herramientas actuales. Es la opción ideal si buscas el mínimo consumo de recursos del sistema y la máxima compatibilidad, permitiendo ejecutar IA incluso combinando CPU y RAM convencional.
vLLM: Diseñado para un rendimiento extremo y alta concurrencia. Utiliza un sistema de gestión de memoria avanzado (PagedAttention) que optimiza drásticamente el uso de la VRAM, siendo el estándar para servidores locales que dan servicio a múltiples usuarios simultáneos.
TensorRT-LLM (NVIDIA): El motor oficial de NVIDIA. Requiere una fase de compilación previa del modelo, pero exprime cada núcleo Tensor de las tarjetas gráficas de la marca, logrando la velocidad de inferencia (tokens por segundo) más alta del mercado.
ExLlamaV2: Un motor diseñado exclusivamente para GPUs NVIDIA que trabaja con el formato de cuantización .exl2. Su gran ventaja es que permite ajustar el tamaño del modelo con precisión milimétrica para que quepa exactamente en tu memoria VRAM disponible.
Hugging Face TGI (Text Generation Inference): El motor que utiliza Hugging Face en sus propios servidores de producción. Está pensado para despliegues empresariales en local, incluyendo balanceo de carga nativo y soporte para las arquitecturas de red más complejas.

Plataformas de Virtualización y Contenedores (Alternativas a Docker)

Herramientas para aislar los entornos de ejecución, drivers y dependencias del sistema operativo base.

Podman: La alternativa directa y daemonless (sin servicio centralizado) a Docker. Utiliza exactamente la misma sintaxis de comandos, pero ofrece mayor seguridad nativa al permitir ejecutar contenedores de IA sin necesidad de privilegios de superusuario (rootless).
Proxmox VE: Un hipervisor de tipo 1 basado en Debian. Es la herramienta idónea si montas un servidor local dedicado, ya que permite crear Máquinas Virtuales (VM) independientes con GPU Passthrough (asignación directa de la tarjeta gráfica a una VM).
K3s: Una distribución de Kubernetes ultra ligera desarrollada por Rancher. Es perfecta si necesitas orquestar y escalar contenedores de IA en un clúster de servidores locales sin la sobrecarga ni la complejidad del Kubernetes tradicional.
Apptainer (antiguo Singularity): Muy utilizado en entornos científicos y clusters de computación de alto rendimiento (HPC). Está diseñado específicamente para gestionar de forma nativa recursos de GPU y compartir archivos del sistema de forma segura.
LXD / Incus: Contenedores de sistema (no de aplicación como Docker). Te permiten levantar un sistema operativo completo (como un Ubuntu limpio) en milisegundos con acceso directo al hardware, rindiendo prácticamente igual que una máquina física.

Entornos Gráficos e Interfaces de Usuario (Alternativas a Open WebUI)

La capa visual con la que interactúan los desarrolladores o los usuarios finales de la organización.

LM Studio: Aplicación de escritorio (Windows, Linux y macOS) con una interfaz impecable. Cuenta con un buscador integrado conectado directamente a Hugging Face y permite levantar un servidor local compatible con la API de OpenAI con un solo clic.
LibreChat: Una interfaz web corporativa de código abierto muy potente. Su punto fuerte es la gobernanza: permite gestionar múltiples usuarios, asignar roles, mantener historiales separados y conectar de forma nativa bases de datos para flujos de trabajo con documentos corporativos (RAG).
AnythingLLM: La mejor interfaz si el objetivo es entrenar a la IA con documentos locales (PDFs, documentos de texto o sitios web). Integra de serie su propio motor de bases de datos vectoriales sin necesidad de configurar software adicional.
Jan: Un cliente de escritorio de código abierto, minimalista y rápido. Está completamente enfocado en la privacidad del usuario y permite descargar configuraciones de modelos listos para usar según el hardware que detecte en tu máquina.
Text Generation WebUI (Oobabooga): Considerado el equivalente a "Stable Diffusion" pero para modelos de texto. Su interfaz es más técnica y rústica, pero es la herramienta más flexible del mercado para probar extensiones, modificar hiperparámetros avanzados y realizar fine-tuning local.

Páginas

Marquesina