Tokens Normalizados

Lo que aprenderás

Por qué AutoTalk normaliza los tokens de IA antes de cobrarlos
Cómo se calcula el peso por modelo a partir de los precios del proveedor
Cómo los tokens normalizados se acumulan en los medidores tokens_in y tokens_out

AutoTalk trabaja con muchos modelos de lenguaje diferentes de muchos proveedores diferentes, y cada proveedor cobra un precio diferente por token. Si simplemente contáramos tokens crudos, usar un modelo barato se vería exactamente igual a usar el más caro en tu factura -- lo que sería injusto para todos.

Para mantener la facturación justa y consistente entre proveedores, cada token se convierte en un token normalizado antes de tocar los medidores tokens_in y tokens_out de tu plan. La normalización no cambia los tokens que el modelo realmente consumió -- solo los reponderai para que los tokens caros cuenten más que los tokens baratos.

La idea en una frase

1 token normalizado = 1 token crudo × qué tan caro es el modelo comparado con nuestra referencia.

Si la entrada de un modelo es exactamente tan cara como la referencia, 1 token de entrada crudo es 1 token de entrada normalizado. Si el modelo cuesta el doble, 1 token de entrada crudo son 2 tokens de entrada normalizados. Si cuesta la mitad, 1 token de entrada crudo es 0,5 token de entrada normalizado.

La referencia

AutoTalk fija un precio de referencia interno usado para definir qué significa "1x". Estos valores se mantienen internamente y se usan solo para ponderación -- no son los precios que ves en tu factura.

Referencia	Valor
Entrada por 1K tokens	$0,005 (equivalente a $5 / 1M)
Salida por 1K tokens	$0,015 (equivalente a $15 / 1M)

Un modelo cuya entrada cuesta $0,005 por 1K recibe un peso de entrada de 1,0. Un modelo cuya entrada cuesta $0,0025 por 1K recibe un peso de 0,5. Un modelo cuya entrada cuesta $0,010 por 1K recibe un peso de 2,0.

La fórmula

Para cada modelo, AutoTalk calcula dos pesos -- uno para entrada, uno para salida:

weight_in  = model_input_price_per_1K  / baseline_input_price_per_1K
weight_out = model_output_price_per_1K / baseline_output_price_per_1K

Entonces los tokens normalizados son:

normalized_in_tokens  = raw_prompt_tokens     * weight_in
normalized_out_tokens = raw_completion_tokens * weight_out

Estos son los números que se acumulan en tus medidores tokens_in y tokens_out cada vez que un agente de IA se ejecuta.

Límites de seguridad

Los precios de los proveedores ocasionalmente cambian, y ocasionalmente contienen valores atípicos o fallas temporales. Para protegerte a ti y a AutoTalk de una factura sorpresa causada por un feed de precios defectuoso, cada peso calculado se limita a un rango seguro:

Límite	Valor
Peso mínimo	0,05 (ningún modelo cuenta por menos del 5% de un token de referencia)
Peso máximo	8 (ningún modelo cuenta por más de 8× un token de referencia)

Si el precio de un modelo falta o es desconocido, su peso se asume como 1,0 (tratado como referencia).

Un ejemplo práctico

Supón que una llamada de agente de IA consume 1.000 tokens de entrada crudos y 500 tokens de salida crudos usando gpt-4o, cuyo precio es $0,0025 / $0,01 por 1K (entrada/salida).

Calcula los pesos:

weight_in  = 0,0025 / 0,005  = 0,5
weight_out = 0,01   / 0,015  ≈ 0,667

Aplícalos:

normalized_in_tokens  = 1000 * 0,5   = 500
normalized_out_tokens = 500  * 0,667 ≈ 333

El agente cuenta 500 contra tu límite de tokens_in y 333 contra tu límite de tokens_out -- no los 1000 / 500 crudos que realmente consumió.

La misma llamada con gpt-4o-mini (precio $0,00015 / $0,0006 por 1K) consumiría solo 30 y 20 tokens normalizados respectivamente -- reflejando cuánto más barato es ese modelo.

Reporte de excedente

Al final de cada periodo de cobro, AutoTalk agrega los contadores tokens_in y tokens_out para la facturación de excedente. Para mantener los números manejables, los tokens normalizados se reportan en unidades de 1.000 (una unidad de facturación = 1.000 tokens normalizados).

Por qué esto importa para ti

Tu workflow más barato se mantiene barato. Ejecutar un agente en gpt-4o-mini consume una fracción pequeña de un token normalizado por token crudo, así que tu límite mensual rinde mucho más.
Tu workflow más caro se cobra de forma justa. Ejecutar un agente en un modelo top-tier consume más tokens normalizados por token crudo, lo que corresponde al costo real de AutoTalk para servir ese modelo.
Cambiar de modelos es predecible. Como cada modelo tiene un precio relativo a la misma referencia, puedes razonar sobre la capacidad del plan sin memorizar tablas de precios de proveedores.

Próximos pasos

Selección de plan -- Ve qué medidores limita tu plan y en cuánto
Historial de uso -- Revisa cómo han evolucionado tus medidores tokens_in / tokens_out a lo largo del tiempo

La idea en una frase​

La referencia​

La fórmula​

Límites de seguridad​

Un ejemplo práctico​

Reporte de excedente​

Por qué esto importa para ti​

Próximos pasos​