Saltar al contenido principal

Tokens Normalizados

Lo que aprenderás
  • Por qué AutoTalk normaliza los tokens de IA antes de cobrarlos
  • Cómo se calcula el peso por modelo a partir de los precios del proveedor
  • Cómo los tokens normalizados se acumulan en los medidores tokens_in y tokens_out

AutoTalk trabaja con muchos modelos de lenguaje diferentes de muchos proveedores diferentes, y cada proveedor cobra un precio diferente por token. Si simplemente contáramos tokens crudos, usar un modelo barato se vería exactamente igual a usar el más caro en tu factura -- lo que sería injusto para todos.

Para mantener la facturación justa y consistente entre proveedores, cada token se convierte en un token normalizado antes de tocar los medidores tokens_in y tokens_out de tu plan. La normalización no cambia los tokens que el modelo realmente consumió -- solo los reponderai para que los tokens caros cuenten más que los tokens baratos.

La idea en una frase

1 token normalizado = 1 token crudo × qué tan caro es el modelo comparado con nuestra referencia.

Si la entrada de un modelo es exactamente tan cara como la referencia, 1 token de entrada crudo es 1 token de entrada normalizado. Si el modelo cuesta el doble, 1 token de entrada crudo son 2 tokens de entrada normalizados. Si cuesta la mitad, 1 token de entrada crudo es 0,5 token de entrada normalizado.

La referencia

AutoTalk fija un precio de referencia interno usado para definir qué significa "1x". Estos valores se mantienen internamente y se usan solo para ponderación -- no son los precios que ves en tu factura.

ReferenciaValor
Entrada por 1K tokens$0,005 (equivalente a $5 / 1M)
Salida por 1K tokens$0,015 (equivalente a $15 / 1M)

Un modelo cuya entrada cuesta $0,005 por 1K recibe un peso de entrada de 1,0. Un modelo cuya entrada cuesta $0,0025 por 1K recibe un peso de 0,5. Un modelo cuya entrada cuesta $0,010 por 1K recibe un peso de 2,0.

La fórmula

Para cada modelo, AutoTalk calcula dos pesos -- uno para entrada, uno para salida:

weight_in  = model_input_price_per_1K  / baseline_input_price_per_1K
weight_out = model_output_price_per_1K / baseline_output_price_per_1K

Entonces los tokens normalizados son:

normalized_in_tokens  = raw_prompt_tokens     * weight_in
normalized_out_tokens = raw_completion_tokens * weight_out

Estos son los números que se acumulan en tus medidores tokens_in y tokens_out cada vez que un agente de IA se ejecuta.

Límites de seguridad

Los precios de los proveedores ocasionalmente cambian, y ocasionalmente contienen valores atípicos o fallas temporales. Para protegerte a ti y a AutoTalk de una factura sorpresa causada por un feed de precios defectuoso, cada peso calculado se limita a un rango seguro:

LímiteValor
Peso mínimo0,05 (ningún modelo cuenta por menos del 5% de un token de referencia)
Peso máximo8 (ningún modelo cuenta por más de 8× un token de referencia)

Si el precio de un modelo falta o es desconocido, su peso se asume como 1,0 (tratado como referencia).

Un ejemplo práctico

Supón que una llamada de agente de IA consume 1.000 tokens de entrada crudos y 500 tokens de salida crudos usando gpt-4o, cuyo precio es $0,0025 / $0,01 por 1K (entrada/salida).

Calcula los pesos:

weight_in  = 0,0025 / 0,005  = 0,5
weight_out = 0,01 / 0,015 ≈ 0,667

Aplícalos:

normalized_in_tokens  = 1000 * 0,5   = 500
normalized_out_tokens = 500 * 0,667 ≈ 333

El agente cuenta 500 contra tu límite de tokens_in y 333 contra tu límite de tokens_out -- no los 1000 / 500 crudos que realmente consumió.

La misma llamada con gpt-4o-mini (precio $0,00015 / $0,0006 por 1K) consumiría solo 30 y 20 tokens normalizados respectivamente -- reflejando cuánto más barato es ese modelo.

Reporte de excedente

Al final de cada periodo de cobro, AutoTalk agrega los contadores tokens_in y tokens_out para la facturación de excedente. Para mantener los números manejables, los tokens normalizados se reportan en unidades de 1.000 (una unidad de facturación = 1.000 tokens normalizados).

Por qué esto importa para ti

  • Tu workflow más barato se mantiene barato. Ejecutar un agente en gpt-4o-mini consume una fracción pequeña de un token normalizado por token crudo, así que tu límite mensual rinde mucho más.
  • Tu workflow más caro se cobra de forma justa. Ejecutar un agente en un modelo top-tier consume más tokens normalizados por token crudo, lo que corresponde al costo real de AutoTalk para servir ese modelo.
  • Cambiar de modelos es predecible. Como cada modelo tiene un precio relativo a la misma referencia, puedes razonar sobre la capacidad del plan sin memorizar tablas de precios de proveedores.

Próximos pasos

  • Selección de plan -- Ve qué medidores limita tu plan y en cuánto
  • Historial de uso -- Revisa cómo han evolucionado tus medidores tokens_in / tokens_out a lo largo del tiempo