Configurando Modelos LLM
- Como selecionar uma plataforma e modelo para seu agente LLM
- O que cada configuracao na aba General faz
- Como ajustar temperatura, limites de tokens e opcoes avancadas
Quando voce define o Assistant Type de um agente como llm, o AutoTalk revela um conjunto completo de opcoes de configuracao. A primeira coisa que voce escolhe e a plataforma de IA, depois configura o modelo e seu comportamento pela aba General.
Selecionando uma plataforma
O dropdown Type de plataforma (Tipo de Plataforma) determina qual provedor de IA alimenta seu agente. O AutoTalk suporta cinco plataformas:
| Plataforma | Descricao |
|---|---|
| openai (padrao) | Modelos da OpenAI incluindo GPT-4.1 e outros. A escolha mais popular com uma ampla variedade de modelos em diferentes niveis de preco e qualidade. |
| deepseek | Modelos DeepSeek, oferecendo precos competitivos para desempenho de IA capaz. |
| gemini | Modelos Google Gemini, parte do ecossistema de IA do Google. |
| custom | Conecte-se a um endpoint de API personalizado ou de terceiros. Use para provedores nao listados acima, ou para seus proprios modelos ajustados servidos por uma API compativel. |
| node-llama-cpp | Execute um modelo de linguagem de grande porte localmente em seu proprio hardware usando node-llama-cpp. Nenhuma chamada de API externa e feita, mantendo os dados totalmente on-premises. Ideal para organizacoes com requisitos rigorosos de residencia de dados. |
Apos selecionar uma plataforma, quatro abas de configuracao aparecem: General, Messages, Actions e Tools. Esta pagina cobre a aba General; veja Mensagens do Sistema e Ferramentas para as outras abas.
Configuracoes da aba General
A aba General contem a configuracao principal do modelo:
Modelo (Model)
Selecione o modelo especifico a ser usado em uma lista dropdown. Cada modelo exibe metadados uteis incluindo:
- Um rotulo de nivel de qualidade (ex.: "Medio" para qualidade media)
- Preco por 1K tokens tanto para entrada quanto para saida, para que voce possa estimar custos
Por exemplo, selecionar gpt-4.1 mostra sua classificacao de qualidade e preco por token. Modelos mais leves custam menos, mas podem produzir respostas de menor qualidade; modelos mais pesados custam mais, mas lidam melhor com conversas complexas.
Temperatura (Temperature)
Controla o quao criativas ou deterministicas sao as respostas do modelo. O valor padrao e 1.
- Valores mais baixos (0.0 a 0.5): O agente fornece respostas mais focadas, previsiveis e consistentes. Ideal para suporte ao cliente factual.
- Valores mais altos (0.8 a 1.5): O agente produz respostas mais variadas e criativas. Util para brainstorming ou conversas casuais, mas pode reduzir a precisao.
Token
Um campo pesquisavel onde voce pode selecionar um token de API existente ou criar um novo. Este token autentica seu agente com a plataforma de IA escolhida. Se voce ainda nao adicionou uma chave de API para a plataforma, pode criar uma diretamente neste campo.
Maximo de tokens (Max Tokens)
Define o limite superior de quantos tokens o modelo pode gerar em uma unica resposta. Use para controlar o comprimento da resposta e o custo. Se deixado vazio, o modelo usa seu maximo padrao.
Maximo de caracteres de entrada (Max Input Characters)
Limita quantos caracteres da mensagem do usuario sao enviados ao modelo. O padrao e 1024 caracteres. Aumente se seus clientes tendem a enviar mensagens mais longas e voce quer que o agente considere o texto completo; diminua para reduzir custos em entradas extensas.
Opcoes avancadas
A aba General tambem inclui tres caixas de selecao opcionais para comportamento avancado:
Ativar saidas estruturadas (Enable Structured Outputs)
Quando marcado, o modelo e instruido a retornar respostas em formato estruturado (como JSON). Isso e util quando a saida do agente e consumida por outro sistema em vez de ser exibida diretamente ao cliente.
Ativar orcamento de tokens do contexto (Enable Context Token Budget)
Quando marcado, o AutoTalk gerencia quanto do historico da conversa e enviado ao modelo, impondo um orcamento de tokens para o contexto. Isso evita que a janela de contexto exceda o limite do modelo em conversas longas e ajuda a controlar custos.
Ativar processamento de imagens (Enable Image Processing)
Quando marcado, o agente pode receber e processar imagens enviadas pelos clientes (em modelos que suportam capacidades de visao). Isso permite que o agente descreva, analise ou responda a fotos e capturas de tela.
Para a maioria dos agentes voltados ao cliente, comece com a plataforma openai, escolha um modelo capaz como gpt-4.1, defina a temperatura entre 0.3 e 0.5 para respostas confiaveis, e deixe o maximo de caracteres de entrada no padrao. Ative o processamento de imagens apenas se seu caso de uso exigir, pois aumenta o consumo de tokens.