Definición: Unidad básica de información (un carácter, una sílaba o una palabra parcial) en la que los modelos de lenguaje fragmentan el texto para poder procesarlo y calcular probabilidades.
Cobro:
El funcionamiento del cobro por tokens en las plataformas de Inteligencia Artificial (a través de sus APIs de desarrollo) responde a un modelo de pago por uso basado puramente en la infraestructura computacional consumida.
A continuación, se detalla la lógica de ingeniería y comercial que determina cómo se calcula y factura este consumo:
1. La métrica estándar: El Millón de Tokens (Mtok)
- Aunque
en los inicios de la IA se facturaba en bloques de 1.000 tokens, el
volumen actual de las integraciones ha estandarizado el precio por cada
1.000.000 de tokens (Mtok).
- Cada
llamada que realiza tu aplicación a la API del proveedor procesa un
volumen de tokens que se añade de forma inmediata al contador de tu cuenta
de facturación.
2. Tarifas Asimétricas: Entrada (Input) frente a Salida (Output)
Esta es la regla económica fundamental de los Modelos de
Lenguaje (LLMs). Las empresas dividen el coste de una misma petición en dos
tarifas radicalmente distintas:
- Tokens
de Entrada (Prompt / Input): Es todo el texto que tú envías al modelo
(tus instrucciones, el contexto del sistema y el historial previo de la
conversación). Su procesamiento es más rápido y económico para los
servidores porque el modelo puede leer e indexar los datos en paralelo.
- Tokens
de Salida (Completion / Output): Es el texto nuevo que la IA genera
como respuesta. Su precio es entre 3 y 10 veces más caro que el de
entrada. Esto se debe a que la generación de texto es un proceso
secuencial y predictivo (token por token) que exige un uso masivo y
prolongado de tiempo de GPU (tarjetas gráficas).
3. La penalización por idioma (El factor multilenguaje)
- Los
tokenizadores (los algoritmos que cortan el texto en piezas numéricas)
están entrenados y optimizados principalmente en inglés. En este idioma,
una palabra suele equivaler a un token (o incluso menos).
- En español, debido a la estructura morfológica y al uso de caracteres especiales (tildes, eñes), las palabras comunes suelen fragmentarse en dos o más tokens. Como consecuencia directa, procesar exactamente la misma información en español consume entre un 20% y un 50% más de tokens que en inglés, encareciendo la factura para el cliente final.
4. Optimizadores de costes y descuentos del proveedor
Para mitigar el gasto en entornos de producción, los
proveedores aplican tres mecánicas comerciales específicas:
- Prompt
Caching (Caché de Prompts): Si tu aplicación envía instrucciones muy
largas que no cambian entre peticiones (por ejemplo, el manual de
operaciones de tu empresa o la base de conocimiento de un sistema RAG), el
proveedor almacena esos tokens en la memoria rápida de sus servidores. Las
llamadas consecutivas que reutilicen ese bloque exacto reciben un descuento
de hasta el 90% en la tarifa de entrada.
- Procesamiento
por lotes (Batch API): Si los datos a procesar no requieren inmediatez
(por ejemplo, clasificar miles de correos o transcribir audios de forma
interna), se envían en un lote ejecutable en un plazo de 24 horas. Los
proveedores ofrecen un 50% de descuento directo en estos tokens al
poder procesarlos en los momentos en que sus centros de datos registran
menor demanda.
- Tarifas escaladas por volumen de contexto: Los modelos modernos permiten adjuntar libros completos en una sola petición. No obstante, algunos proveedores aplican un recargo o tarifa premium escalada si la petición individual supera ciertos umbrales de densidad (por ejemplo, duplicar el coste por token si el input supera los 200.000 tokens en una única llamada).
5. El riesgo financiero de los Agentes de IA
A diferencia de un chatbot tradicional —donde hay un
intercambio lineal controlado por el usuario—, los Agentes Autónomos
operan en bucles cerrados (loops).
El agente desglosa un objetivo en subtareas y ejecuta
llamadas recursivas a la API para evaluar su propio avance. Como cada nueva
iteración requiere enviar de nuevo todo el historial de pasos acumulados a la
API, si el flujo entra en un bucle infinito o ineficiente, un agente autónomo
puede consumir millones de tokens en cuestión de minutos de forma desatendida,
provocando picos de gasto crítico si no se configuran límites estrictos de
ejecución.
Ejemplos:
Caso 1: Una Frase (Texto Corto)
Recurso analizado: La frase "La inteligencia artificial optimiza la infraestructura de sistemas."
Cómo funciona la IA: El tokenizador fragmenta las 8 palabras y los 62 caracteres
. Debido a la estructura morfológica del español, el texto se divide en 15 tokens . El cálculo matemático: Coste = (15 tokens / 1.000.000) * 2,30 €
Coste final: 0,0000345 €
Caso 2: Un Documento Complejo (Informe o PDF)
Recurso analizado: Un informe técnico en formato PDF de 40 páginas, compuesto exclusivamente por texto denso (unas 20.000 palabras)
. Cómo funciona la IA: El sistema extrae el texto plano y lo introduce por completo en la ventana de contexto del modelo
. Al aplicar el factor de corrección estimado para el español (1,4 tokens por cada palabra), el documento se traduce en 28.000 tokens . El cálculo matemático: Coste = (28.000 tokens / 1.000.000) * 2,30 €
Coste final: 0,0644 €
Caso 3: Una Imagen de Alta Resolución
Recurso analizado: Una captura de pantalla detallada de un entorno de servidores con un error crítico, a una resolución nativa de 1920x1080 píxeles
. Cómo funciona la IA: Los modelos de visión no facturan por los Kilobytes (KB) que pesa el archivo en disco
. Lo que hacen es redimensionar la imagen y dividirla en una cuadrícula de sectores fijos (tiles) de 768x768 píxeles . Una resolución de 1920x1080 requiere exactamente 3 sectores . Cada uno de estos sectores genera un coste fijo e inmutable de 258 tokens . El cálculo matemático: Total tokens = 3 cuadrantes * 258 tokens = 774 tokens
Coste = (774 / 1.000.000) * 2,30 € Coste final: 0,00178 €
Caso 4: Un Archivo de Audio
Recurso analizado: La grabación de audio de una reunión de planificación técnica con una duración exacta de 5 minutos (300 segundos)
. Cómo funciona la IA: Los modelos nativos de voz transforman las ondas de sonido en espectrogramas de frecuencia
. La facturación se realiza de manera lineal por cada segundo de audio procesado, con independencia del volumen de voz o de los silencios presentes . El estándar del mercado asigna una tasa de 32 tokens por cada segundo de audio . El cálculo matemático: Total tokens = 300 segundos * 32 tokens/segundo = 9.600 tokens
Coste = (9.600 / 1.000.000) * 2,30 € Coste final: 0,02208 €
Caso 5: Un Archivo de Vídeo Multimodal
Recurso analizado: Un clip de vídeo de seguridad en formato MP4 de 1 minuto de duración (60 segundos) a 30 fotogramas por segundo, con la pista de audio integrada
. Cómo funciona la IA: Es el formato con mayor tasa de consumo computacional
. El modelo ejecuta un muestreo continuo del flujo visual, extrayendo fotogramas clave fijos (normalmente 1 o 2 imágenes por segundo) a la vez que procesa el audio en paralelo . Para simplificar la tarifa comercial, los proveedores cobran una tasa plana unificada que promedia unos 263 tokens por cada segundo de vídeo analizado . El cálculo matemático: Total tokens = 60 segundos * 263 tokens/segundo = 15.780 tokens
Coste = (15.780 / 1.000.000) * 2,30 € Coste final: 0,03629 €