Um bot é um software que atua em uma rede sem que uma pessoa direcione cada solicitação.
A categoria sempre foi ampla, mas agora inclui uma camada que não existia há cinco anos. Agentes de IA pesquisam, comparam, preenchem formulários e realizam transações em nome de usuários reais, juntamente com os rastreadores de busca, os scrapers e os bots adversários que estão presentes na web aberta há décadas.
Essa combinação rompe com a estrutura que a maioria das equipes ainda utiliza. Uma pergunta binária do tipo “é um bot? Bloqueie!” fazia sentido quando o tráfego se dividia claramente entre humanos e adversários. Ela não funciona quando um agente de IA agindo em nome do usuário pode parecer idêntico a um rastreador automatizado, mas exigir uma resposta completamente diferente.
Este guia aborda o que são bots, as principais categorias (incluindo agentes de IA), o quanto da web está automatizado e como as organizações estão migrando do bloqueio binário para uma governança que relaciona a resposta à entidade por trás de cada solicitação.
Principais pontos:
- Bots são qualquer software que atua em redes sem a necessidade de uma pessoa conduzir cada requisição individualmente. Essa categoria hoje inclui desde rastreadores de busca e scrapers até agentes de IA que executam tarefas em nome de usuários.
- Dados da CHEQ indicam que o tráfego inválido (automatizado, suspeito ou não genuíno) cresceu quase 50% ao ano, com participação crescente dos agentes de IA.
- A função é mais relevante do que a simples classificação binária “bom” ou “ruim”. O mesmo código pode operar como rastreador legítimo de preços ou como um scraper não autorizado, dependendo do contexto.
- Agentes de IA romperam o modelo anterior. Eles podem ser autorizados, não autorizados ou mascarados, e o mesmo padrão de requisição pode representar intenções totalmente distintas.
- A resposta moderna não é binária, mas sim um espectro: permitir, monitorar, exigir autenticação adicional, restringir, limitar, desviar ou bloquear — tudo ajustado conforme a entidade e a intenção.
- O movimento atual é da detecção de bots para a governança dos agentes de IA, respondendo questões como: quem é a entidade? Ela é confiável? Em nome de quem atua? Qual resposta é adequada?
O que é um bot?
Um bot é um software que executa tarefas automatizadas em uma rede. O termo “bot” deriva de “robô” e costuma ser usado de forma intercambiável com “bot da internet”, ambos referindo-se a essa categoria ampla de softwares automatizados presentes na web aberta.
A amplitude dessa definição é notável: um bot pode ser um script simples que acessa uma página em horários programados, um crawler de mecanismo de busca que indexa bilhões de páginas ou um agente autônomo de IA capaz de interpretar conteúdos, planejar ações e executá-las em múltiplos sites.
Bots não são novidade. Eles existem desde os primórdios da internet comercial, com rastreadores como o Googlebot original. O que mudou foi a diversidade: a definição que há vinte anos se resumia a “software que navega na web por você” agora abrange desde rastreadores de preços até assistentes generativos de IA que tomam decisões e agem em nome do usuário.
Por isso, “bot” deve ser entendido como uma categoria, não uma descrição específica. Diferentes bots têm propósitos e impactos distintos — a análise funcional é, hoje, o critério mais relevante.
Como bots operam
A maioria dos bots realiza requisições HTTP a servidores web, de forma similar a um navegador, processando a resposta de modo programático. As etapas técnicas mais comuns são:
- Requisição: o bot envia um pedido HTTP para uma URL. Isso pode ser uma chamada pontual ou um fluxo contínuo de solicitações.
- Renderização ou chamada: bots simples analisam a resposta bruta; outros utilizam navegadores headless (sem interface gráfica), capazes de renderizar páginas e executar JavaScript como um navegador convencional. Há ainda os que acessam diretamente APIs do site.
- Processamento: o bot interpreta a resposta. Scrapers extraem conteúdo, monitores verificam alterações, crawlers atualizam índices de busca, e agentes de IA avaliam o contexto para decidir o próximo passo.
Ferramentas como Puppeteer, Playwright e Selenium são amplamente empregadas — tanto para automação legítima quanto em atividades adversariais.
O avanço relevante dos últimos anos foi a migração de scripts baseados em regras para agentes orientados por inteligência artificial (LLM-driven).
Bots antigos seguiam scripts fixos, facilmente quebrados por mudanças no layout da página. Agentes modernos interpretam, decidem e se adaptam em tempo real — justificando a distinção dos agentes de IA como uma nova categoria.
Principais categorias de bots
Classificar bots por função — e não por uma ótica moral simplista — permite uma visão mais precisa de riscos e controles. O mesmo software pode ser útil em um cenário e prejudicial em outro; a função é o critério central.
As seis categorias a seguir abrangem a maior parte do tráfego automatizado observado na web.
| Categoria de BOT | O que faz | Exemplos Tipícos |
| Bots de Busca e Indexação | Rastreiam páginas públicas para que o conteúdo seja descoberto e indexado para futuras consultas. | Googlebot, Bingbot, GPTBot, Claudebot |
| Agentes e Assistentes de IA | Interpretam páginas e executam ações em nome do usuário, incluindo pesquisa, comparação e transações. | ChatGPT com navegação, Operator, Perplexity, Claude |
| Bots de Monitoramento e Operação | Observam sites e serviços sem interagir com eles; normalmente operados pelo próprio site ou parceiro autorizado. | Monitores de uptime, rastreadores de preços, verificadores de status |
| Scrapers e Coletores de Dados | Extraem conteúdo, preços ou dados estruturados de sites. Usados tanto em pesquisas legítimas quanto em extração não autorizada. | Crawlers acadêmicos, projetos de arquivamento, scrapers para treinamento de LLM, brokers de dados |
| Bots de Automação | Executam fluxos de trabalho repetitivos em serviços web, geralmente com autorização bilateral. | Ferramentas de RPA, Zapier, n8n, automação de workflows corporativos |
| Bots Adversariais | Realizam ações que prejudicam o operador do site, indo de fraude financeira a roubo de conteúdo. | Credential stuffing, testes de cartão, reserva de inventário, fraude de cliques, scraping para roubo de propriedade intelectual |
- Bots de Busca e Indexação: Bots de busca e indexação percorrem páginas públicas para tornar o conteúdo encontrável posteriormente. Os exemplos clássicos são o Googlebot e o Bingbot, utilizados por mecanismos de busca tradicionais. Recentemente, crawlers relacionados à IA foram incorporados a esse cenário. Alguns são voltados para pesquisa e recuperação de informações por IA, enquanto outros coletam conteúdos públicos para treinamento de modelos, funcionalidades assistivas ou sistemas de IA de terceiros. Os principais crawlers costumam se identificar via user agents conhecidos e oferecem controles como o robots.txt, permitindo que proprietários de sites gerenciem o acesso. Em geral, sites concedem o mesmo nível de acesso desses bots que dariam a visitantes legítimos, já que a visibilidade é o objetivo de uma página pública.
- Agentes e Assistentes de IA: Agentes e assistentes de IA são softwares capazes de interpretar uma página e agir em nome do usuário. Exemplos incluem ChatGPT, Gemini, Claude e assistentes similares. Esses agentes podem pesquisar temas, comparar produtos, preencher formulários ou concluir compras sob orientação do usuário. Essa categoria é recente e não se encaixa nas antigas taxonomias de bots. Um agente de IA pode ser autorizado (quando o usuário delega explicitamente uma tarefa), não autorizado (quando coleta dados para treinamento sem permissão) ou até mascarado (quando softwares adversariais se passam por assistentes conhecidos). O contexto da requisição é determinante: o mesmo padrão técnico pode ter propósitos distintos. Por isso, agentes de IA são tratados como grupo à parte, e não apenas uma variação de crawlers tradicionais.
- Bots de Monitoramento e Operação: Bots de monitoramento e operação observam sites e serviços sem interagir diretamente. Monitoramento de disponibilidade (uptime), rastreadores de preços, verificadores de status e scanners internos de segurança se encaixam nessa categoria. Normalmente, são operados pela própria organização ou por parceiros autorizados. Sua função é observacional, não interativa, e raramente geram preocupações comerciais ou de segurança quando pertencem ao próprio site monitorado.
- Scrapers e Coletores de Dados: Scrapers e data harvesters extraem conteúdos, preços ou dados estruturados de sites. A técnica é a mesma para projetos acadêmicos, arquivos públicos, inteligência competitiva (dentro dos limites legais) e extração não autorizada para data brokers ou conjuntos de treino de IA. O aspecto técnico não muda; o contexto é que define se a extração é aceitável para o operador do site. Empresas que enfrentam scraping não autorizado em larga escala adotam controles calibrados para distinguir tráfego legítimo de pesquisa de extração que prejudica o negócio.
- Bots de Automação: Bots de automação executam fluxos de trabalho repetitivos em serviços web. Incluem ferramentas de automação robótica (RPA), integrações como Zapier ou n8n e automações corporativas que conectam sistemas internos a serviços externos. Geralmente, são operados pela própria equipe ou por fornecedores confiáveis, com autorização explícita de ambos os lados da integração. A característica central é a autorização bilateral: ambas as partes conhecem e aceitam a automação. Quando essa autorização não existe, a mesma ação técnica passa para a categoria adversarial.
- Bots Adversariais: Bots adversariais têm como objetivo prejudicar o operador do site. Os padrões de atuação variam conforme o alvo, mas tendem a se concentrar em áreas críticas, como:
- Ataques de credential stuffing: tentativas de login usando combinações de credenciais roubadas.
- Criação de contas falsas: registros de identidades sintéticas para obter vantagens indevidas ou alimentar fraudes futuras.
- Fraude em geração de leads: envio massivo de formulários falsos que poluem CRMs e consomem tempo das equipes comerciais.
- Fraude de cliques: elevação de custos de anúncios sem intenção legítima.
Scraping para violação de propriedade intelectual: extração de conteúdo proprietário para revenda ou treinamento não autorizado de IA. Mais importante do que classificar moralmente é analisar o padrão de atuação. Cada cenário demanda uma resposta específica, e agrupar tudo sob o rótulo “adversarial” pode gerar dois problemas: bloquear usuários legítimos (falsos positivos) e permitir que ameaças reais passem despercebidas (falsos negativos).
Qual a representatividade dos bots no tráfego da internet?
A participação dos bots no tráfego web é significativa e crescente, mas o percentual exato depende da metodologia adotada.
A rede da CHEQ analisa cerca de 6 trilhões de sinais diários em mais de 300 mil sites monitorados. Nesse universo, o tráfego inválido (automatizado, suspeito ou não genuíno) cresceu quase 50% no último ano, mesmo com um aumento de apenas 3,5% no volume total de visitas. Pesquisas externas apresentam variações nos números, mas convergem no diagnóstico de que a fatia é relevante e tende a crescer.
Há também uma mudança de composição: o volume de tráfego originado de agentes de IA e crawlers baseados em modelos de linguagem cresceu substancialmente a partir de 2023 e segue em expansão.
Dados da própria CHEQ mostram que, apesar do aumento do tráfego inválido total, a proporção classificada como maliciosa caiu de cerca de 11% para menos de 6% em doze meses. O crescimento vem, sobretudo, de automações legítimas não explicitadas, incluindo crawlers para treinamento de modelos, assistentes que navegam em nome do usuário e agentes que realizam transações, não apenas leitura.
Bots de busca, ferramentas de monitoramento e agentes de IA autorizados compõem parcela relevante do tráfego automatizado, sendo essenciais para o funcionamento da web moderna. Tratar todo tráfego automatizado como problema é um erro de interpretação.
Bots são bons ou maus? Por que a resposta não é simples
Bots não são inerentemente bons ou maus.
Um crawler de busca que indexa um site é útil. O mesmo crawler, se utilizado para coletar preços em favor de um concorrente, pode ser prejudicial. O código pode ser idêntico — o que muda é intenção e contexto.
Na prática: Um framework de scraping pode alimentar tanto um rastreador interno de preços quanto um scraper adversarial de mercado, exigindo respostas completamente diferentes para cada situação.
| Aspecto | Rastreador interno de preços (varejista) | Rastreador externo de preços não autorizado (concorrentes) |
| Software | Framework de scraping (ex: Puppeteer ou Playwright) | Mesmo framework de scraping, frequentemente com scripts idênticos |
| Operador | Proprietário do site, operando o rastreador em suas próprias páginas ou parceiros autorizados | Terceiro operando fora dos termos de uso do site |
| Intenção | Monitorar acurácia de preços, erros de catálogo ou posição competitiva | Extrair preços para subcotação, reempacotamento ou alimentar base de dados externa |
| Status de política | Autorizado internamente; esperado como parte da operação normal | Não autorizado; normalmente proibido pelos termos de uso |
| Resposta apropriada | Permitir sem atrito | Resposta graduada conforme confiança e impacto |
A assinatura técnica de diferentes bots pode ser idêntica. O que realmente varia — e determina a resposta adequada — são a intenção, a autorização e o impacto sobre o negócio.
A realidade operacional, porém, raramente é binária. O ecossistema digital atual é composto por humanos, bots úteis, bots adversariais e uma zona cinzenta cada vez mais relevante, onde a autorização não é evidente. Agentes de IA tornam esse cenário ainda mais desafiador: um agente pode executar tarefas legitimamente para um usuário, mas ainda assim desrespeitar as políticas de automação do site ou gerar transações não previstas.
Por isso, a questão central deixou de ser apenas “isso é um bot?”. O foco estratégico deve ser: quem é a entidade, qual seu objetivo e qual resposta é proporcional ao risco identificado?
Como as organizações identificam e respondem a bots
A identificação de bots combina múltiplas famílias de sinais, e a resposta deve ser calibrada conforme a natureza da entidade e sua provável intenção.
- Identificação de Bots: Principais Famílias de Sinais
- Sinais comportamentais: Movimentação do mouse, padrões de rolagem, cadência de digitação e temporização das interações. O comportamento humano possui padrões reconhecíveis; desvios sistemáticos desses padrões são fortes indicadores de automação. O perfil temporal também é relevante: tráfego humano mostra quedas previsíveis durante ciclos de sono, enquanto bots operam de forma constante ao longo das 24 horas. Pesquisas da CHEQ com detecção baseada em entropia comprovam a eficácia desse método para flagrar grandes volumes de tráfego automatizado.
- Sinais de rede: Reputação de IP, ASN (sistema autônomo), origem em datacenters e uso de proxies conhecidos. Embora adversários consigam manipular esses sinais com mais facilidade atualmente, eles permanecem importantes, principalmente quando combinados a outras evidências.
- Sinais de fingerprint: Características do navegador, detalhes do handshake TLS e indicadores de browsers headless. Ferramentas modernas de automação tentam ocultar esses sinais; da mesma forma, sistemas de detecção evoluem para identificar tentativas de camuflagem.
- Sinais de identidade: Consistência entre sessões, uso de credenciais conhecidas e presença ou ausência de identidade autenticada — especialmente relevantes em etapas críticas como login, checkout e criação de contas.
Na prática, a combinação dessas famílias é o que gera um diagnóstico confiável. Um único sinal suspeito raramente é suficiente; padrões consistentes em múltiplas frentes sustentam uma decisão robusta.
Resposta proporcional a bots
A resposta moderna vai além da dicotomia bloquear/permitir. O setor converge para um espectro de ações ajustáveis ao perfil da entidade e à intenção observada:
- Permitir tráfego legítimo sem atrito
- Monitorar acessos limítrofes, ainda não prejudiciais, mas suspeitos
- Adotar verificações adicionais quando o contexto exige reforço de segurança
- Restringir permissões (por exemplo, permitir leitura, mas não escrita; navegação, mas não transações)
- Reduzir (throttle) o impacto de tráfego suspeito enquanto mais sinais são coletados
- Redirecionar tráfego adversarial confirmado para ambientes controlados
- Bloquear entidades com alta confiança e política clara
Esse modelo de enforcement proporcional evita tanto o excesso (bloqueio de automações legítimas e rastreadores importantes) quanto a permissividade (deixar tráfego de risco passar por falta de opções intermediárias).
A gestão estrutural de bots evoluiu justamente por conta dessa necessidade de calibragem fina. O pipeline moderno vai da detecção à resposta, passando por taxonomia de sinais e políticas ajustadas ao apetite de risco de cada organização.
Na prática, esse espectro é implementado via controles baseados em políticas, aplicados tanto a humanos quanto a bots e agentes de IA, em vez de regras estáticas e generalistas.
Agentes de IA e a nova governança digital
Agentes de IA já representam parcela significativa do tráfego automatizado e desafiam ferramentas legadas de gestão de bots. Eles atuam em sites de varejo, saúde, finanças e executam tarefas complexas em nome de usuários humanos na web aberta.
A distinção entre agentes de IA e bots tradicionais é fundamentalmente estrutural, não apenas incremental — exigindo novos mecanismos de identificação, autorização e resposta.
| Dimensão | Bots Tradicionais | Agentes de IA |
| Lógica de decisão | Script fixo que executa da mesma forma em cada acesso | Guiado por LLM; interpreta a página e decide a próxima ação |
| Identificabilidade | Geralmente se declara via user-agent (Googlebot, Bingbot) | Pode se declarar (ChatGPT-User, ClaudeBot, PerplexityBot) ou simular uma sessão humana |
| Atuação em nome de | Do operador que o implementou | De um usuário que delegou uma tarefa (pesquisa, compra, agendamento) ou de um operador extraindo conteúdo |
| Adaptabilidade | Quebra quando há mudança no layout da página | Analisa o novo layout e se adapta em tempo real |
| Adequação à política | Permitir se for crawler conhecido; bloquear se for scraper conhecido | Depende de autorização, finalidade e política para tráfego delegado |
| Resposta adequada do site | Permitir ou bloquear de forma binária, com base na identidade declarada | Resposta graduada conforme autorização, intenção e nível de risco |
No contexto atual de riscos digitais, é fundamental compreender a diferença entre três grupos de agentes de IA:
- Agentes autorizados: Usuários delegam explicitamente tarefas a assistentes como ChatGPT, Claude, Gemini ou similares, autorizando-os a agir em seu nome.
- Agentes não autorizados: Operadores por trás desses agentes atuam em desacordo com as políticas do site, frequentemente para extrair conteúdo visando treinamento de modelos.
- Agentes mascarados (spoofed): Softwares adversariais se passam por assistentes legítimos para obter o mesmo tratamento que um agente confiável receberia.
Embora compartilhem a mesma interface técnica, esses grupos exigem respostas completamente distintas, tornando insuficiente qualquer abordagem baseada apenas na identificação binária (“isso é ou não um agente de IA”).
Esse desafio estrutural é denominado pelo setor como Governance Gap.
O “Governance Gap” na prática
Ferramentas tradicionais de gestão de bots foram projetadas para um cenário binário: separar humanos de bots e, a partir disso, permitir ou bloquear o tráfego automatizado.
Agentes de IA não se encaixam nesse modelo. Alguns trazem valor ao negócio, outros atuam sem autorização e há casos claramente adversariais. O mesmo padrão técnico pode representar situações com impactos diversos — e ferramentas que apenas rotulam tráfego como “humano” ou “bot” não conseguem distinguir esses contextos.
O conceito de governança de agentes de IA surge como resposta estrutural a essa lacuna, exigindo abordagens mais sofisticadas e contextuais.
Um framework moderno para governança de agentes de IA
Qualquer estratégia eficaz para este cenário precisa responder a quatro perguntas-chave:
- O que está acessando a página?
- Esse agente pode ser confiável?
- Em nome de quem ele está agindo?
- Qual resposta é adequada diante das respostas anteriores?
Exemplos práticos de governança
Três padrões de uso ilustram a complexidade desse desafio:
- Comércio digital: Agentes de IA já comparam produtos, realizam checkouts e gerenciam assinaturas para usuários. É fundamental que sites possam governar essas transações, diferenciando agentes legítimos de acessos automatizados não autorizados.
- Jornadas híbridas: Um usuário inicia uma pesquisa, delega a tarefa a um agente de IA e depois retorna para concluir a transação. O tipo de entidade muda ao longo do fluxo, exigindo governança flexível que reconheça e adapte-se à transição entre humano e agente.
- Scraping: O treinamento de grandes modelos de linguagem elevou a demanda por conteúdo proprietário. A linha entre pesquisa legítima e extração não autorizada tornou-se tênue, aumentando o risco de vazamento de propriedade intelectual e impacto regulatório.
O ponto comum entre esses cenários é claro: organizações precisam governar o tráfego automatizado — não apenas identificá-lo ou bloqueá-lo.
Próximos passos em governança digital
Esta análise cobre os fundamentos da governança de bots e agentes de IA.
Aprofundamentos recomendados incluem:
- Diagnóstico detalhado do tráfego de bots, analisando tipos, impactos no negócio e sinais diferenciais.
- Modelos práticos de gestão, do pipeline de detecção à calibragem de políticas conforme o apetite de risco corporativo.
- Aplicação de controles baseados em políticas, que permitam respostas proporcionais a humanos, bots e agentes de IA em um framework unificado de governança.
Este artigo foi escrito pela Cheq.AI, e traduzido e adaptado pela Nexoria.


