13 de junio de 2026

GENERACIÓN DE VIDEO

La generación de vídeo mediante Inteligencia Artificial (especialmente en los modelos modernos como Sora de OpenAI, Runway Gen-3 o Kling) es uno de los procesos computacionales más complejos actuales. Combina tres de los conceptos que hemos visto antes: Redes Convolucionales (para entender imágenes), Transformers (para entender el tiempo y el contexto) y Modelos de Difusión (para crear el contenido).

El proceso técnico estándar (arquitectura de Diffusion Transformers o DiT) se realiza en cuatro pasos fundamentales:


1. Compresión en el Espacio Latente (El Codificador)

Un vídeo sin comprimir contiene demasiada información (millones de píxeles por segundo), lo que saturaría la memoria de cualquier GPU.

  • El sistema utiliza un Autoencoder (VAE) que actúa como un compresor avanzado. Toma los fotogramas del vídeo bruto y los traduce a una representación matemática simplificada (el espacio latente), eliminando la información redundante pero manteniendo la geometría y el significado visual.


2. División en "Patches" Espacio-Temporales

Así como los LLM fragmentan el texto en tokens, los generadores de vídeo fragmentan el vídeo comprimido en pequeños bloques o cubos tridimensionales llamados patches (parches espacio-temporales).

  • Cada bloque contiene información de una pequeña parte de la imagen (espacio) a lo largo de unos pocos fotogramas (tiempo). Esto permite que el modelo trate el vídeo exactamente igual que un LLM trata un libro: como una secuencia de elementos relacionados entre sí.


3. El Proceso de Difusión Guiado por Texto (Transformer)

Aquí ocurre la magia de la generación. El sistema recibe la instrucción del usuario (prompt), la traduce a vectores (embeddings) y empieza a trabajar con un lienzo lleno de ruido aleatorio (píxeles caóticos).

  • Eliminación de ruido: El modelo limpia el ruido paso a paso de forma iterativa.

  • Mecanismo de atención: El bloque Transformer calcula la relación de cada patch de vídeo con el prompt de texto y con los demás patches en los fotogramas anteriores y posteriores. Esto es lo que garantiza la consistencia temporal: que si un personaje se gira, su espalda mantenga la misma ropa y el fondo no cambie de forma caótica.


4. Decodificación (Paso a Píxeles)

Una vez que el Transformer ha terminado de "limpiar" el ruido en el espacio latente y la secuencia matemática de cubos es coherente, el mapa matemático resultante pasa por el Decodificador.

  • Este componente realiza el proceso inverso al paso 1: traduce las matemáticas latentes de vuelta a píxeles reales de alta resolución, generando el archivo de vídeo final (.mp4) listo para su reproducción.





El gran reto: La física del mundo real

El principal desafío de estos modelos no es generar imágenes bonitas, sino simular las leyes de la física. Los modelos actuales no "saben" qué es la gravedad o la fricción; simplemente han visto tantos miles de millones de horas de vídeo que han aprendido estadísticamente que, si un vaso cae de una mesa, en los siguientes fotogramas debe romperse y el agua debe salpicar. Cuando el modelo falla en este cálculo probabilístico, es cuando ocurren los "errores de consistencia" (objetos que se fusionan o desaparecen).

APRENDIZAJE AUTOMATICO (MACHINE LEARNING) y PARADIGMAS DEL ENTRENAMIENTO

El Aprendizaje Automático (Machine Learning) cambia el paradigma de la programación tradicional. En lugar de escribir reglas explícitas (if/else) para procesar datos, alimentamos al sistema con datos para que él mismo descubra las reglas matemáticas subyacentes.

Detalles de los cuatro paradigmas de entrenamiento fundamentales:


1. Aprendizaje Supervisado (Supervised Learning)


El modelo se entrena con un conjunto de datos etiquetados. Esto significa que para cada dato de entrada (características), el algoritmo conoce la respuesta correcta (etiqueta). Su objetivo es aprender una función de mapeo para predecir la etiqueta de nuevos datos.

Se divide en dos grandes tipos de problemas:

  • Clasificación: La salida es una categoría discreta.

    • Ejemplo en Sistemas: Identificar si un binario es malware o software legítimo; clasificar correos en spam o no spam.

  • Regresión: La salida es un valor numérico continuo.

    • Ejemplo en Sistemas: Predecir el porcentaje de uso de CPU de un servidor para las próximas dos horas basándose en el histórico de carga.


2. Aprendizaje No Supervisado (Unsupervised Learning)


El modelo recibe datos sin etiquetar y no se le da una respuesta correcta. El algoritmo debe explorar la estructura de los datos por sí mismo para encontrar patrones, similitudes o anomalías ocultas.

Sus principales aplicaciones son:

  • Clustering (Agrupamiento): Agrupar elementos similares.

    • Ejemplo en Sistemas: Segmentar usuarios de una plataforma educativa según su nivel de interacción o agrupar logs de un servidor para identificar patrones de tráfico habituales.

  • Detección de anomalías: Identificar datos que se desvían significativamente del comportamiento normal.

    • Ejemplo en Sistemas: Detectar un ataque de denegación de servicio (DDoS) porque el patrón de peticiones actuales no encaja con ningún clúster de tráfico legítimo.


3. Aprendizaje por Refuerzo (Reinforcement Learning)


Este paradigma se basa en la interacción con el entorno. Un agente (el algoritmo) toma decisiones dentro de un entorno para maximizar una recompensa acumulada a lo largo del tiempo, aprendiendo mediante ensayo y error.

Los componentes clave son: el agente, el estado actual, las acciones disponibles y la penalización o recompensa recibida tras ejecutar una acción.

  • Ejemplo en Sistemas: Optimizar el enrutamiento de paquetes en una red dinámica compleja o gestionar de forma autónoma los sistemas de climatización en un centro de datos (CPD) para reducir el consumo energético sin comprometer el hardware.


4. Aprendizaje Semisupervisado (Semi-supervised Learning)


Es un enfoque híbrido que se utiliza cuando etiquetar datos es muy costoso o requiere demasiado tiempo humano. El modelo se entrena con una pequeña cantidad de datos etiquetados y un gran volumen de datos sin etiquetar. Los datos etiquetados sirven para guiar el aprendizaje inicial, y los no supervisados ayudan a definir las fronteras de decisión globales del modelo.

  • Ejemplo en Sistemas: Sistemas de reconocimiento facial o de voz donde el usuario etiqueta manualmente un par de fotos suyas ("Este soy yo") y el sistema clasifica automáticamente miles de imágenes restantes sin etiquetar en el almacenamiento.

Tabla comparativa de paradigmas

ParadigmaTipo de DatosVentaja PrincipalMayor Desventaja
SupervisadoEtiquetadosAlta precisión y control sobre los resultados esperados.Requiere un esfuerzo humano masivo para etiquetar los datos inicialmente.
No SupervisadoSin etiquetarDescubre patrones ocultos que los humanos no habríamos mapeado.Es difícil validar la precisión de los resultados de forma objetiva.
Por RefuerzoDinámicos (Entorno)Excelente para automatizar la toma de decisiones complejas y secuenciales.El proceso de entrenamiento es lento y puede ser inestable al principio.
SemisupervisadoMixtoReduce drásticamente el coste y tiempo de preparación de datos.Si la muestra etiquetada inicial tiene sesgos, el error se propaga al resto del dataset.

TIPOS DE IA

Tipos de IA por sus capacidades, moviéndonos desde la realidad técnica actual hacia los horizontes teóricos.


1. IA Débil o Estrecha (ANI - Artificial Narrow Intelligence)

Es el único tipo de inteligencia artificial que existe en el mundo real a día de hoy. Está diseñada y entrenada para resolver una tarea concreta o un conjunto limitado de problemas. Fuera de su entorno delimitado, el sistema es completamente inútil.

  • Sistemas de recomendación: Los algoritmos de plataformas como Netflix, Spotify o Amazon, que analizan patrones de comportamiento para predecir qué contenido o producto consumirá el usuario a continuación.

  • Modelos de lenguaje actuales (LLMs): Herramientas como GPT-4, Claude o Gemini. Aunque parecen dominar múltiples disciplinas, operan bajo un paradigma estrecho: la predicción probabilística del siguiente token basándose en patrones estadísticos del lenguaje. No poseen comprensión real del mundo ni autoconsciencia.

  • Visión por computador en automoción: Los sistemas de asistencia a la conducción o conducción autónoma (como los de Tesla o Waymo) que detectan líneas de carril, señales de tráfico y peatones en tiempo real.

  • Automatización de TI: Filtros de spam en servidores de correo (antivirus/antispam basados en heurística e IA) o sistemas SIEM que detectan anomalías de tráfico en una red corporativa.


2. IA General (AGI - Artificial General Intelligence)

Es un concepto teórico. Se refiere a una máquina que posee la capacidad de comprender, aprender, razonar y aplicar el conocimiento en cualquier tarea intelectual, exactamente igual que un ser humano (o de forma indistinguible a este). Tendría flexibilidad cognitiva y autoconsciencia.

  • Ejemplo funcional hipotético: Un único agente de IA al que se le encarga configurar un clúster de servidores Kubernetes desde cero, después redactar un artículo académico sobre pedagogía digital, luego aprender a jugar a un videojuego desconocido sin instrucciones previas y, finalmente, mediar en un conflicto de recursos humanos. Todo ello adaptándose sin necesidad de un reentrenamiento manual de sus capas.

  • Ejemplos en la cultura popular: HAL 9000 (2001: Odisea del espacio), Samantha (Her) o Jarvis (Iron Man), sistemas capaces de razonar en cualquier contexto abstracto o emocional.


3. Superinteligencia Artificial (ASI - Artificial Superintelligence)

Es una fase puramente especulativa que sucedería poco después de alcanzar la AGI (fenómeno conocido como "explosión de inteligencia"). Describe una entidad cuya capacidad intelectual supera con creces a la mente humana más brillante en prácticamente todos los campos, incluyendo la creatividad científica, la sabiduría general y las habilidades sociales.

  • Ejemplo funcional hipotético: Un sistema global descentralizado que, en cuestión de minutos, diseñe nuevos materiales a nivel molecular para optimizar la fusión nuclear comercial, resuelva el cifrado cuántico actual, erradique enfermedades mediante la edición genética autónoma de virus y gestione de manera óptima toda la infraestructura económica y energética del planeta simultáneamente.

  • Ejemplos en la cultura popular: Skynet (Terminator) o las Mentes de la saga literaria La Cultura de Iain M. Banks.

CONCEPTOS OPERATIVOS Y DE OPTIMIZACION

Este bloque se centra en la fase de puesta en producción, despliegue y mantenimiento de los modelos de IA. Aquí el objetivo no es solo que el modelo sea preciso, sino también eficiente en el consumo de recursos de computación (VRAM, CPU, almacenamiento) y capaz de trabajar con datos actualizados.


1. Sobreajuste (Overfitting) e Infraajuste (Underfitting)


Son los dos problemas fundamentales durante la fase de entrenamiento que determinan la capacidad de generalización de un modelo (su habilidad para acertar con datos nuevos que nunca ha visto).

  • Infraajuste (Underfitting): Ocurre cuando el modelo es demasiado simple o no ha entrenado lo suficiente. No es capaz de capturar las tendencias ni siquiera en los datos de entrenamiento. El error es alto tanto en el entrenamiento como en las pruebas.

  • Sobreajuste (Overfitting): Ocurre cuando el modelo entrena en exceso y "memoriza" los datos de entrenamiento, incluyendo el ruido y los detalles irrelevantes. Funciona de forma perfecta en el entorno de desarrollo, pero falla drásticamente al recibir datos reales en producción.


2. Ajuste Fino (Fine-Tuning)


Es el proceso de tomar un modelo base que ya ha sido preentrenado con un volumen masivo de datos genéricos (como un LLM fundacional) y entrenarlo de nuevo con un conjunto de datos mucho más pequeño, específico y especializado.

  • Cómo funciona: Durante este reentrenamiento, los pesos matemáticos de las capas internas del modelo se modifican ligeramente para adaptarse al nuevo dominio.

  • Caso de uso: Coger un modelo lingüístico general y hacerle fine-tuning con un histórico de logs de sistemas y documentación de Cisco para convertirlo en un experto en diagnóstico de redes corporativas.


3. RAG (Generación Aumentada por Recuperación)


A diferencia del Fine-Tuning, RAG no modifica los pesos del modelo ni requiere reentrenamiento. Es una arquitectura de sistemas que optimiza las respuestas de un LLM conectándolo en tiempo real a una base de datos externa (normalmente una base de datos vectorial).

  • Cómo funciona: 1. El usuario introduce una consulta.

    2. El sistema busca de forma semántica en la base de datos documental los fragmentos de información relevantes.

    3. El sistema inyecta esos fragmentos directamente en el prompt del LLM como contexto.

    4. El LLM redacta la respuesta basándose únicamente en la información verídica proporcionada.

  • Caso de uso: Permitir que una IA responda preguntas sobre normativas internas de una empresa que cambian cada semana, garantizando que la información es actual y reduciendo las alucinaciones a cero.


4. Inferencia y Cuantización (Quantization)


La Inferencia es el proceso operativo donde el modelo ya entrenado se ejecuta en producción para recibir entradas del usuario y devolver predicciones o respuestas. En entornos de producción, la inferencia debe ser rápida y consumir el menor número de recursos posible. Aquí entra la Cuantización:

  • Cómo funciona la Cuantización: Los modelos de IA guardan sus parámetros en formatos de alta precisión flotante (habitualmente FP32 o FP16, que consumen 4 o 2 bytes por parámetro). La cuantización reduce la precisión de estos números a formatos de enteros (como INT8 o INT4, de 1 byte o medio byte).

  • Impacto: Reduce drásticamente el tamaño del archivo del modelo y el consumo de VRAM en la GPU (hasta un 75%), permitiendo ejecutar modelos grandes en hardware comercial o de menor coste con una pérdida de precisión casi imperceptible.

Tabla comparativa de estrategias de optimización

EstrategiaEnfoque PrincipalVentaja PrincipalMayor Desventaja
Fine-TuningModificar el conocimiento interno del modelo (pesos).Adapta el tono, formato y estilo de respuesta de forma profunda a un dominio cerrado.Requiere hardware dedicado para el entrenamiento y es propenso al olvido catastrófico de habilidades generales.
RAGInyectar contexto externo en tiempo real a través del prompt.Garantiza datos actualizados al instante y permite auditar las fuentes de la respuesta de forma sencilla.Aumenta la latencia por la búsqueda previa en la base de datos y consume más tokens en cada consulta.
CuantizaciónOptimizar la carga de hardware reduciendo la precisión numérica.Permite desplegar modelos avanzados en servidores con restricciones severas de GPU/VRAM.Si se reduce demasiado la precisión (ej. de FP32 a INT2), el modelo pierde coherencia y degrada su rendimiento.

IA GENERATIVA Y PROCESAMIENTO DEL LENGUAJE NATURAL(PLN)

La IA Generativa (GenAI) y el Procesamiento del Lenguaje Natural (PLN) representan la intersección donde las máquinas no solo entienden el contexto humano, sino que adquieren la capacidad de crear contenido nuevo y coherente (texto, código, imágenes o audio) que emula la creatividad humana.


1. Procesamiento del Lenguaje Natural (PLN): La Base de la Comprensión


El PLN es la disciplina que permite a los ordenadores leer, descifrar y comprender los lenguajes humanos. Para que la IA generativa de texto funcione, primero debe fragmentar y traducir el lenguaje humano a un formato matemático ejecutable mediante dos conceptos clave:

Tokens

Es la unidad mínima en la que un modelo de IA fragmenta el texto para poder procesarlo. No siempre coincide con una palabra exacta; a menudo son sílabas o combinaciones de caracteres.

  • Ejemplo: La palabra "infraestructura" podría dividirse en tres tokens: ["infra", "estruc", "tura"]. La gestión eficiente de tokens es crítica, ya que los modelos actuales limitan su capacidad de procesamiento (ventana de contexto) basándose en este número.

Embeddings (Incrustaciones vectoriales)

Es la traducción de esos tokens a un lenguaje matemático multidimensional. Cada palabra o frase se convierte en un vector (una lista de números que representan coordenadas en un espacio de miles de dimensiones).

  • Funcionamiento: Permite al modelo medir la "distancia semántica" entre conceptos. En este espacio matemático, las palabras "servidor" y "clúster" estarán geométricamente muy cerca, mientras que "manzana" estará muy lejos de ambas.






2. LLM (Large Language Models)


Son los modelos de lenguaje masivos que han llevado el PLN a su estado actual. Son redes neuronales gigantescas (basadas en la arquitectura Transformer) entrenadas con conjuntos de datos de texto colosales (Internet, libros, código fuente).

  • Funcionamiento: Su tarea principal es puramente estadística: calcular de forma probabilística cuál es el siguiente token más lógico que debe escribir dada una instrucción (prompt) y el contexto anterior.

  • Aplicación en sistemas: Automatización de documentación técnica, refactorización y depuración de código fuente, y creación de agentes de soporte técnico en entornos corporativos.






3. GANs (Redes Generativas Antagónicas)


Fue la arquitectura reina de la generación de contenido visual antes de la llegada de los modelos de difusión. Se basa en la teoría de juegos y enfrenta a dos redes neuronales distintas en un bucle de mejora continua:

  • El Generador: Crea datos sintéticos (por ejemplo, la imagen de una cara humana falsa) a partir de ruido aleatorio.

  • El Discriminador: Evalúa esa imagen comparándola con un dataset de imágenes reales y decide si es "auténtica" o "un fraude".

  • Resultado: El proceso se repite millones de veces hasta que el Generador se vuelve tan experto que el Discriminador ya no puede distinguir la realidad de la falsificación. Se usan principalmente para la mejora de resolución de imágenes (upscaling), transferencia de estilo y generación de deepfakes.






4. Modelos de Difusión


Es la tecnología de vanguardia que sostiene a los generadores de imágenes y vídeo modernos (como Stable Diffusion, Midjourney o Sora). Superaron a las GANs en estabilidad y variedad de resultados.

  • Funcionamiento: El entrenamiento consta de dos fases. En la primera (difusión hacia adelante), el modelo toma una imagen clara y le añade ruido de forma progresiva hasta destruirla por completo y convertirla en estática estocástica (píxeles aleatorios). En la segunda (difusión inversa), la IA aprende el camino contrario: se le enseña a limpiar ese ruido paso a paso, guiada por un texto descriptivo, para reconstruir una imagen completamente nueva desde cero.






Tabla comparativa de tecnologías generativas

TecnologíaTipo de OutputVentaja PrincipalMayor Desventaja
LLMsTexto, Código, JSONAlta versatilidad para razonar, resumir y programar de forma contextual.Propensión a las alucinaciones (inventar datos con total apariencia de veracidad).
GANsImágenes, AudioGeneración de datos de salida extremadamente nítidos y procesamiento rápido una vez entrenadas.Entrenamiento muy inestable; pueden sufrir "colapso de modo" (generar siempre el mismo output).
Modelos de DifusiónImágenes, VídeoResultados visuales de calidad fotorrealista con un control semántico excelente mediante texto.El proceso iterativo de eliminación de ruido consume mucha VRAM y es computacionalmente lento.

APRENDIZAJE PROFUNDO (DEEP LEARNING) Y ARQUITECTURAS DE REDES

El Aprendizaje Profundo (Deep Learning) es un subcampo del Machine Learning que se basa en el uso de redes neuronales artificiales profundas. A diferencia del Machine Learning clásico, donde los humanos deben seleccionar manualmente las características (features) que el algoritmo debe analizar, el Deep Learning es capaz de extraer y aprender esas características por sí mismo a partir de datos en bruto, gracias a su estructura multicapa.

A continuación, se detallan las arquitecturas de redes fundamentales que sostienen la IA actual:


1. Redes Neuronales Artificiales Básicas (ANN / MLP - Multi-Layer Perceptron)


Es la arquitectura fundacional y de alimentación hacia adelante (feedforward). Los datos entran por una capa inicial, pasan de forma secuencial por una o más capas ocultas y generan un resultado en la capa de salida.

  • Cómo funciona: Cada neurona artificial recibe entradas, las multiplica por unos pesos matemáticos, añade un sesgo (bias) y pasa el resultado por una función de activación (como ReLU o Sigmoid) que determina si la neurona debe activarse o no.

  • Uso principal: Problemas de clasificación básicos, regresiones tabulares y aproximación de funciones complejas.




2. Redes Neuronales Convolucionales (CNN - Convolutional Neural Networks)


Diseñadas específicamente para procesar datos con una estructura de cuadrícula bidimensional, como las imágenes o los fotogramas de un vídeo.

  • Cómo funciona: En lugar de conectar cada píxel a todas las neuronas (lo que saturaría la memoria), utiliza filtros o kernels (convoluciones) que se desplazan por la imagen para detectar patrones locales básicos (bordes, líneas, texturas). A medida que se avanza en las capas profundas, estos patrones se combinan para reconocer estructuras complejas (ojos, rostros, coches). Las capas de pooling reducen la dimensionalidad para optimizar el cómputo.

  • Uso principal: Visión por computador, reconocimiento facial, diagnóstico médico por imagen y conducción autónoma.






3. Redes Neuronales Recurrentes (RNN - Recurrent Neural Networks)


Diseñadas para procesar datos secuenciales o series temporales, donde el orden de los elementos importa (como el texto, el audio o métricas de rendimiento en tiempo real).

  • Cómo funciona: Tienen conexiones cíclicas (bucles) que permiten que la información persista. La salida de una neurona en un momento determinado vuelve a introducirse como entrada para el siguiente paso, dotando a la red de una especie de "memoria a corto plazo". Las variantes avanzadas como LSTM (Long Short-Term Memory) resuelven el problema de la pérdida de memoria en secuencias muy largas mediante "puertas" que deciden qué información olvidar o retener.

  • Uso principal: Análisis de series temporales de servidores (predicción de caídas), reconocimiento de voz y traducción de textos cortos.






4. Transformers


Es la arquitectura estado del arte que ha revolucionado la IA generativa actual. Supera la limitación de las RNN al permitir procesar toda la secuencia de datos a la vez, en lugar de elemento por elemento.

  • Cómo funciona: Se basa en el mecanismo de autoatención (Self-Attention). Esto permite que el modelo calcule la relación matemática y la relevancia que tiene cada palabra de un texto con respecto a todas las demás de la misma frase, sin importar la distancia entre ellas. Además, utiliza codificación posicional para saber el orden de los elementos sin necesidad de procesarlos en serie, lo que permite paralelizar el entrenamiento masivamente en tarjetas gráficas (GPUs).

  • Uso principal: Modelos de lenguaje masivos (LLMs como GPT, Claude, Llama), generación de código y traducción de alta precisión.





Tabla comparativa de arquitecturas

ArquitecturaTipo de Datos IdealVentaja PrincipalMayor Desventaja
ANN / MLPDatos tabulares y estructurados.Simplicidad de despliegue y bajo coste computacional comparativo.No escala bien con datos complejos no estructurados (imágenes, audio).
CNNImágenes, vídeo y datos espaciales.Invarianza espacial (detecta un objeto sin importar en qué parte de la imagen esté).Requiere un volumen masivo de datos visuales etiquetados para ser precisa.
RNN / LSTMTexto y series temporales cortas.Capacidad para procesar secuencias de longitud variable manteniendo el contexto previo.El procesamiento secuencial impide una buena paralelización en hardware (entrenamiento lento).
TransformersTexto largo, código y datos multimodales.Permite un entrenamiento masivo en paralelo y entiende contextos extremadamente largos.El consumo de memoria y recursos de cómputo (VRAM de GPU) escala de forma cuadrática con la longitud del texto.

QUE ES LA IA

La Inteligencia Artificial (IA) es una rama de la informática dedicada al desarrollo de sistemas y algoritmos capaces de procesar información y ejecutar tareas que, tradicionalmente, requerían de la cognición humana.

En términos técnicos, no es una única tecnología, sino un conjunto de disciplinas lógicas y matemáticas que permiten a una máquina analizar datos, identificar patrones, aprender de la experiencia y tomar decisiones o realizar predicciones de forma autónoma ante escenarios nuevos.

Componentes esenciales de la IA moderna

Para que la IA funcione, se apoya en tres elementos críticos de infraestructura y desarrollo:

  • Los Datos: El volumen de información con el que se alimenta al sistema para que pueda extraer patrones estadísticos.

  • Los Algoritmos: Las estructuras matemáticas y modelos (como redes neuronales o árboles de decisión) que definen cómo se procesan esos datos.

  • La Capacidad de Cómputo: La infraestructura de hardware (principalmente GPUs y aceleradores de IA) necesaria para entrenar y ejecutar estos modelos complejos en tiempos viables.

1. Tipos de IA (Según su capacidad y alcance)

  • IA Débil o Estrecha (ANI - Artificial Narrow Intelligence): Sistemas entrenados para realizar una tarea específica (ej. reconocimiento de voz, jugar al ajedrez). Es la única IA que existe actualmente.

  • IA General (AGI - Artificial General Intelligence): IA hipotética con capacidades cognitivas similares a las humanas, capaz de aprender, razonar y aplicar conocimientos en cualquier contexto.

  • Superinteligencia Artificial (ASI - Artificial Superintelligence): Concepto teórico de una IA que supera con creces el intelecto humano en todas las disciplinas.

2. Aprendizaje Automático (Machine Learning) y Paradigmas de Entrenamiento

  • Aprendizaje Supervisado: Entrenamiento con datos etiquetados previamente (entradas y salidas conocidas, como la clasificación de spam).

  • Aprendizaje No Supervisado: El modelo busca patrones y estructuras ocultas en datos no etiquetados (ej. clustering o segmentación de clientes).

  • Aprendizaje por Refuerzo (RL): El sistema aprende mediante prueba y error, recibiendo recompensas o penalizaciones basadas en sus acciones (común en robótica y videojuegos).

  • Aprendizaje Semisupervisado: Combinación de los anteriores, utiliza una pequeña cantidad de datos etiquetados y una gran cantidad de datos no etiquetados para reducir costes de preparación.

3. Aprendizaje Profundo (Deep Learning) y Arquitecturas de Redes

  • Redes Neuronales Artificiales (ANN): Modelos inspirados en la estructura biológica cerebral, compuestos por capas de nodos (neuronas) que procesan información.

  • Redes Neuronales Convolucionales (CNN): Especializadas en el procesamiento de datos con estructura de cuadrícula, fundamentales en la Visión por Computador (reconocimiento de imágenes).

  • Redes Neuronales Recurrentes (RNN): Diseñadas para datos secuenciales o temporales (como texto o audio), ya que mantienen memoria de los elementos anteriores.

  • Transformers: Arquitectura basada en mecanismos de atención selectiva, capaz de procesar secuencias de datos en paralelo. Es la base de los modelos de lenguaje actuales.

4. IA Generativa y Procesamiento del Lenguaje Natural (PLN)

  • LLM (Large Language Models): Modelos de lenguaje masivos entrenados con miles de millones de parámetros para comprender y generar texto.

  • Modelos de Difusión: Algoritmos utilizados para la generación de imágenes y vídeo a partir de la reducción gradual de ruido aleatorio.

  • GANs (Redes Generativas Antagónicas): Dos redes (generador y discriminador) que compiten entre sí para crear datos sintéticos realistas (imágenes, audio, etc.).

  • Tokens y Embeddings: Un token es la unidad mínima de procesamiento de texto (palabras o sílabas). Un embedding es la representación vectorial de ese token en un espacio multidimensional que define su significado semántico.

5. Conceptos Operativos y de Optimización

  • Sobreajuste (Overfitting) e Infraajuste (Underfitting): El overfitting ocurre cuando el modelo memoriza los datos de entrenamiento y falla con datos nuevos. El underfitting sucede cuando el modelo es demasiado simple para aprender las reglas subyacentes.

  • Ajuste Fino (Fine-Tuning): Proceso de tomar un modelo ya preentrenado y entrenarlo un poco más con un conjunto de datos específico para adaptarlo a una tarea concreta.

  • RAG (Generación Aumentada por Recuperación): Técnica que conecta un LLM a una base de datos externa en tiempo real para mejorar la precisión de las respuestas sin necesidad de reentrenar el modelo.

  • Inferencia: El proceso en el que un modelo de IA ya entrenado se ejecuta para realizar predicciones o generar respuestas ante nuevos datos de entrada.