Tokens Normalizados
- Por que o AutoTalk normaliza tokens de IA antes de cobrá-los
- Como o peso por modelo é calculado a partir dos preços dos fornecedores
- Como os tokens normalizados se acumulam nos medidores
tokens_inetokens_out
O AutoTalk trabalha com muitos modelos de linguagem diferentes de muitos fornecedores diferentes, e cada fornecedor cobra um preço diferente por token. Se simplesmente contássemos tokens brutos, usar um modelo barato seria exatamente igual a usar o mais caro na sua fatura -- o que seria injusto para todos.
Para manter a cobrança justa e consistente entre fornecedores, cada token é convertido em um token normalizado antes de tocar os medidores tokens_in e tokens_out do seu plano. A normalização não muda os tokens que o modelo realmente consumiu -- apenas os repondera para que tokens caros contem mais do que tokens baratos.
A ideia em uma frase
1 token normalizado = 1 token bruto × quão caro o modelo é comparado à nossa referência.
Se a entrada de um modelo é exatamente tão cara quanto a referência, 1 token de entrada bruto é 1 token de entrada normalizado. Se o modelo custa o dobro, 1 token de entrada bruto é 2 tokens de entrada normalizados. Se custa metade, 1 token de entrada bruto é 0,5 token de entrada normalizado.
A referência
O AutoTalk fixa um preço de referência interno usado para definir o que "1x" significa. Esses valores são mantidos internamente e usados apenas para ponderação -- não são os preços que você vê na sua fatura.
| Referência | Valor |
|---|---|
| Entrada por 1K tokens | $0,005 (equivalente a $5 / 1M) |
| Saída por 1K tokens | $0,015 (equivalente a $15 / 1M) |
Um modelo cuja entrada custa $0,005 por 1K recebe um peso de entrada de 1,0. Um modelo cuja entrada custa $0,0025 por 1K recebe um peso de 0,5. Um modelo cuja entrada custa $0,010 por 1K recebe um peso de 2,0.
A fórmula
Para cada modelo, o AutoTalk calcula dois pesos -- um para entrada, um para saída:
weight_in = model_input_price_per_1K / baseline_input_price_per_1K
weight_out = model_output_price_per_1K / baseline_output_price_per_1K
Então os tokens normalizados são:
normalized_in_tokens = raw_prompt_tokens * weight_in
normalized_out_tokens = raw_completion_tokens * weight_out
Esses são os números que se acumulam nos seus medidores tokens_in e tokens_out toda vez que um agente de IA é executado.
Limites de segurança
Preços de fornecedores ocasionalmente mudam, e ocasionalmente contêm outliers ou falhas temporárias. Para proteger tanto você quanto o AutoTalk de uma fatura surpresa causada por um feed de preços ruim, cada peso calculado é limitado a uma faixa segura:
| Limite | Valor |
|---|---|
| Peso mínimo | 0,05 (nenhum modelo conta por menos de 5% de um token de referência) |
| Peso máximo | 8 (nenhum modelo conta por mais de 8× um token de referência) |
Se o preço de um modelo estiver faltando ou for desconhecido, seu peso assume o padrão de 1,0 (tratado como referência).
Um exemplo prático
Suponha que uma chamada de agente de IA consuma 1.000 tokens de entrada brutos e 500 tokens de saída brutos usando gpt-4o, cujo preço é $0,0025 / $0,01 por 1K (entrada/saída).
Calcule os pesos:
weight_in = 0,0025 / 0,005 = 0,5
weight_out = 0,01 / 0,015 ≈ 0,667
Aplique-os:
normalized_in_tokens = 1000 * 0,5 = 500
normalized_out_tokens = 500 * 0,667 ≈ 333
O agente conta 500 contra seu limite de tokens_in e 333 contra seu limite de tokens_out -- não os 1000 / 500 brutos que ele realmente consumiu.
A mesma chamada com gpt-4o-mini (preço $0,00015 / $0,0006 por 1K) consumiria apenas 30 e 20 tokens normalizados respectivamente -- refletindo o quanto esse modelo é mais barato.
Relatório de excedente
Ao final de cada período de cobrança, o AutoTalk agrega os contadores tokens_in e tokens_out para cobrança de excedente. Para manter os números gerenciáveis, os tokens normalizados são reportados em unidades de 1.000 (uma unidade de cobrança = 1.000 tokens normalizados).
Por que isso importa para você
- Seu workflow mais barato permanece barato. Executar um agente em
gpt-4o-miniconsome uma fração pequena de um token normalizado por token bruto, então seu limite mensal rende muito mais. - Seu workflow mais caro é cobrado de forma justa. Executar um agente em um modelo top-tier consome mais tokens normalizados por token bruto, o que corresponde ao custo real do AutoTalk para servir esse modelo.
- Trocar de modelos é previsível. Como cada modelo é precificado em relação à mesma referência, você pode raciocinar sobre a capacidade do plano sem memorizar tabelas de preços de fornecedores.
Próximos passos
- Seleção de plano -- Veja quais medidores seu plano limita e em quanto
- Histórico de uso -- Revise como seus medidores
tokens_in/tokens_outtendem ao longo do tempo