Um engenheiro da Google alertou que agentes de IA e bots automatizados em breve dominarão o tráfego da internet.
Gary Illyes, integrante da equipe de Search Relations da Google, comentou em um podcast recente que “todo mundo e até minha avó estão lançando crawlers”.
Esse alerta foi feito durante o último episódio do podcast Search Off the Record da Google.
Agentes de IA e o crescimento do tráfego web
Na conversa com Martin Splitt, também da equipe de Search Relations, Illyes destacou que os agentes de IA e as chamadas “artimanhas de IA” serão fontes massivas de tráfego na web.
Segundo ele:
“A web está ficando congestionada… Mas não é algo que ela não possa suportar, pois foi projetada para lidar com todo esse tráfego, mesmo que automático.”
Esse aumento nos acessos ocorre pois empresas estão usando ferramentas de IA para criar conteúdo, analisar concorrentes, fazer pesquisas de mercado e coletar dados. Cada ferramenta depende de crawlers para acessar sites, impulsionando o tráfego de maneira exponencial.
Como funciona o sistema de crawlers da Google
O podcast detalha o sistema único de rastreamento da Google. A companhia não usa crawlers diferentes para cada produto, mas sim uma infraestrutura unificada.
Google Search, AdSense, Gmail e outras plataformas utilizam a mesma base para rastreamento, apenas mudando o nome do user agent para se identificar, mas respeitando as mesmas regras do robots.txt e a saúde dos servidores.
Illyes explica:
“Você pode acessar pela internet, mas precisa usar sua própria identificação no user agent.”
Esse modelo padroniza as operações, evitando sobrecarga nos sites e permitindo ajustes automáticos quando problemas são detectados.
Crawling não é o maior consumidor de recursos
Illyes surpreendeu ao afirmar que o rastreamento propriamente dito não é o que mais consome recursos dos servidores.
“Não é o crawling que está consumindo recursos, mas sim o processo de indexação e o uso dos dados posteriormente”, disse ele, brincando que pode “levar bronca na internet” por essa opinião.
Essa visão sugere que o acesso às páginas utiliza poucos recursos. O maior impacto está no armazenamento, processamento e exibição das informações extraídas, o que pode mudar o foco na otimização de sites.
O crescimento da web: de milhares a trilhões de páginas
Illyes e Splitt deram uma perspectiva histórica: em 1994, motores de busca como o World Wide Web Worm indexavam pouco mais de 100 mil páginas, enquanto o WebCrawler alcançava 2 milhões.
Hoje, sites individuais podem ter milhões de páginas, tornando necessário evoluir a tecnologia de rastreamento.
Os crawlers passaram do básico HTTP 1.1 para protocolos modernos como HTTP/2 para conexões mais rápidas, com suporte a HTTP/3 já no horizonte.
A luta da Google por eficiência no crawling
No último ano, a Google investiu esforços para reduzir a carga do crawling sobre os sites, reconhecendo o impacto para os administradores.
Illyes comentou a dificuldade:
“Você economiza sete bytes em cada requisição, mas um novo produto adiciona oito bytes de volta.”
Ou seja, cada melhora é compensada por novas ferramentas que demandam mais dados, em um ciclo sem fim.
O que administradores de sites devem fazer para se preparar
Com a chegada dessa onda de tráfego, é crucial agir em várias frentes:
- Infraestrutura: Avalie a capacidade dos servidores, opte por CDNs e monitore o tempo de resposta para suportar o aumento do acesso.
- Controle de acesso: Revise o arquivo robots.txt para limitar o acesso de crawlers e bots desnecessários, garantindo que bots legítimos trabalhem sem problemas.
- Performance do banco de dados: Preferencialmente, otimize consultas e implemente cache para reduzir chamadas custosas que sobrecarregam o servidor.
- Monitoramento: Diferencie crawlers legítimos, agentes de IA e bots maliciosos por meio da análise detalhada de logs e acompanhamento do desempenho do site.
Modelos colaborativos para lidar com o volume de dados
Illyes mencionou que iniciativas como o Common Crawl, que rastreia uma única vez e compartilha os dados abertamente, podem ser uma solução para reduzir o tráfego redundante.
Embora confiante na capacidade da web em administrar essa expansão, ele reforçou que a chegada de agentes de IA em grande escala exige preparação.
Quem investir em infraestrutura agora terá vantagem para resistir ao aumento do tráfego, enquanto quem adiar corre risco de enfrentar sobrecarga.