Tokens Normalizados
- Por qué AutoTalk normaliza los tokens de IA antes de cobrarlos
- Cómo se calcula el peso por modelo a partir de los precios del proveedor
- Cómo los tokens normalizados se acumulan en los medidores
tokens_inytokens_out
AutoTalk trabaja con muchos modelos de lenguaje diferentes de muchos proveedores diferentes, y cada proveedor cobra un precio diferente por token. Si simplemente contáramos tokens crudos, usar un modelo barato se vería exactamente igual a usar el más caro en tu factura -- lo que sería injusto para todos.
Para mantener la facturación justa y consistente entre proveedores, cada token se convierte en un token normalizado antes de tocar los medidores tokens_in y tokens_out de tu plan. La normalización no cambia los tokens que el modelo realmente consumió -- solo los reponderai para que los tokens caros cuenten más que los tokens baratos.
La idea en una frase
1 token normalizado = 1 token crudo × qué tan caro es el modelo comparado con nuestra referencia.
Si la entrada de un modelo es exactamente tan cara como la referencia, 1 token de entrada crudo es 1 token de entrada normalizado. Si el modelo cuesta el doble, 1 token de entrada crudo son 2 tokens de entrada normalizados. Si cuesta la mitad, 1 token de entrada crudo es 0,5 token de entrada normalizado.
La referencia
AutoTalk fija un precio de referencia interno usado para definir qué significa "1x". Estos valores se mantienen internamente y se usan solo para ponderación -- no son los precios que ves en tu factura.
| Referencia | Valor |
|---|---|
| Entrada por 1K tokens | $0,005 (equivalente a $5 / 1M) |
| Salida por 1K tokens | $0,015 (equivalente a $15 / 1M) |
Un modelo cuya entrada cuesta $0,005 por 1K recibe un peso de entrada de 1,0. Un modelo cuya entrada cuesta $0,0025 por 1K recibe un peso de 0,5. Un modelo cuya entrada cuesta $0,010 por 1K recibe un peso de 2,0.
La fórmula
Para cada modelo, AutoTalk calcula dos pesos -- uno para entrada, uno para salida:
weight_in = model_input_price_per_1K / baseline_input_price_per_1K
weight_out = model_output_price_per_1K / baseline_output_price_per_1K
Entonces los tokens normalizados son:
normalized_in_tokens = raw_prompt_tokens * weight_in
normalized_out_tokens = raw_completion_tokens * weight_out
Estos son los números que se acumulan en tus medidores tokens_in y tokens_out cada vez que un agente de IA se ejecuta.
Límites de seguridad
Los precios de los proveedores ocasionalmente cambian, y ocasionalmente contienen valores atípicos o fallas temporales. Para protegerte a ti y a AutoTalk de una factura sorpresa causada por un feed de precios defectuoso, cada peso calculado se limita a un rango seguro:
| Límite | Valor |
|---|---|
| Peso mínimo | 0,05 (ningún modelo cuenta por menos del 5% de un token de referencia) |
| Peso máximo | 8 (ningún modelo cuenta por más de 8× un token de referencia) |
Si el precio de un modelo falta o es desconocido, su peso se asume como 1,0 (tratado como referencia).
Un ejemplo práctico
Supón que una llamada de agente de IA consume 1.000 tokens de entrada crudos y 500 tokens de salida crudos usando gpt-4o, cuyo precio es $0,0025 / $0,01 por 1K (entrada/salida).
Calcula los pesos:
weight_in = 0,0025 / 0,005 = 0,5
weight_out = 0,01 / 0,015 ≈ 0,667
Aplícalos:
normalized_in_tokens = 1000 * 0,5 = 500
normalized_out_tokens = 500 * 0,667 ≈ 333
El agente cuenta 500 contra tu límite de tokens_in y 333 contra tu límite de tokens_out -- no los 1000 / 500 crudos que realmente consumió.
La misma llamada con gpt-4o-mini (precio $0,00015 / $0,0006 por 1K) consumiría solo 30 y 20 tokens normalizados respectivamente -- reflejando cuánto más barato es ese modelo.
Reporte de excedente
Al final de cada periodo de cobro, AutoTalk agrega los contadores tokens_in y tokens_out para la facturación de excedente. Para mantener los números manejables, los tokens normalizados se reportan en unidades de 1.000 (una unidad de facturación = 1.000 tokens normalizados).
Por qué esto importa para ti
- Tu workflow más barato se mantiene barato. Ejecutar un agente en
gpt-4o-miniconsume una fracción pequeña de un token normalizado por token crudo, así que tu límite mensual rinde mucho más. - Tu workflow más caro se cobra de forma justa. Ejecutar un agente en un modelo top-tier consume más tokens normalizados por token crudo, lo que corresponde al costo real de AutoTalk para servir ese modelo.
- Cambiar de modelos es predecible. Como cada modelo tiene un precio relativo a la misma referencia, puedes razonar sobre la capacidad del plan sin memorizar tablas de precios de proveedores.
Próximos pasos
- Selección de plan -- Ve qué medidores limita tu plan y en cuánto
- Historial de uso -- Revisa cómo han evolucionado tus medidores
tokens_in/tokens_outa lo largo del tiempo