Por que a OpenAI usa rastreadores da web?
Utilizamos rastreadores para validar a segurança das páginas da web enviadas como anúncios no ChatGPT. Ao submeter um anúncio, a OpenAI poderá visitar a página de destino para garantir que ela esteja em conformidade com nossas políticas. Também podemos usar o conteúdo da página de destino para determinar o momento mais relevante para exibir o anúncio aos usuários.
Quais rastreadores da OpenAI você deve permitir?
Você deve permitir o OAI-AdsBot. Recomendamos permitir tanto o OAI-AdsBot quanto o OAI-SearchBot.
Os rastreadores do OpenAI não conseguem rastrear meu site. O que devo fazer?
A maioria dos sites possui várias camadas de proteção antes que um rastreador consiga acessar uma página da web com sucesso. Recomendamos que você trabalhe com sua equipe de engenharia/segurança para validar se os rastreadores da OpenAI conseguem passar por cada uma das seguintes camadas:
1. robots.txt
Visão geral: O arquivo robots.txt informa aos rastreadores se eles têm permissão para acessar determinadas partes do seu site. Os rastreadores da OpenAI respeitam essas regras. Se o acesso for bloqueado no arquivo robots.txt, o rastreamento será interrompido imediatamente.
Recomendação: revise a configuração do seu arquivo robots.txt e confirme se os rastreadores da OpenAI têm permissão explícita para acessar as páginas e os caminhos relevantes.
Agente do usuário: OAI-SearchBot
Permitir: /
Agente do usuário: OAI-AdsBot
Permitir: /
2. Proteção Web / Mitigação de Bots
Visão geral: Muitos sites utilizam serviços como Cloudflare, Akamai ou outros provedores de proteção web para se defenderem contra ataques DDoS, raspagem de dados e tráfego não autorizado. Esses sistemas podem bloquear erroneamente rastreadores legítimos, frequentemente retornando erros 403 (Proibido). Como os rastreadores da OpenAI podem se assemelhar a padrões de tráfego automatizados, eles podem ser bloqueados, a menos que sejam especificamente incluídos em uma lista de permissões.
Recomendação: revise a configuração do seu firewall ou proteção web e, sempre que possível, permita o tráfego do rastreador OpenAI, de preferência com base nos nossos agentes de usuário do rastreador. Sua equipe de engenharia ou infraestrutura também deve inspecionar quaisquer regras automatizadas de mitigação de bots que possam estar gerando falsos positivos.
3. Verificação Humana / Lógica Anti-Bot
Visão geral: Alguns sites implementam verificações adicionais no nível do aplicativo para verificar se um visitante é humano (por exemplo: CAPTCHAs, desafios em JavaScript, análise comportamental ou validação de sessão). Como os rastreadores da OpenAI são sistemas automatizados, essas verificações podem bloquear o acesso mesmo que o rastreador passe com sucesso pelas camadas anteriores.
Recomendação: revise qualquer lógica de verificação humana ou anti-automação implementada em seu aplicativo e assegure-se de que os rastreadores da OpenAI sejam isentos quando apropriado, idealmente adicionando nossos agentes de usuário de rastreamento à lista de permissões.
Uma nota sobre intervalos de IP estáveis
Alguns sistemas de segurança exigem que o tráfego de rastreadores se origine de intervalos de IP estáveis e documentados publicamente antes que o tráfego possa ser adicionado à lista de permissões de forma confiável.
Como a infraestrutura de rastreamento pode evoluir com o tempo, sua equipe de engenharia deve evitar depender exclusivamente de observações de IP de curto prazo a partir de registros. Em vez disso, recomendamos validar o tráfego por meio de uma combinação de: identificação do agente do usuário, programas de bot verificados (onde suportados), listas de permissão do firewall, comportamento do robots.txt e sistemas de verificação de bots em nível de provedor.
Caso seja necessário permitir uma lista estável de intervalos de IP, consulte:
Uma nota sobre limitação de taxa
Envio de grandes lotes de dados ou picos repentinos no tráfego de rastreadores podem, por vezes, acionar sistemas automatizados de limitação de taxa ou de proteção contra bots.
Se suspeitar que está ocorrendo limitação de taxa, peça à sua equipe de engenharia para revisar o problema:
Códigos de resposta HTTP (especialmente 429 Too Many Requests)
Registros de firewall ou CDN
Eventos de mitigação de bots
Regras de limitação de solicitações
Análise de tráfego em torno do momento em que o rastreador tentou acessar
Isso pode ajudar a identificar se as solicitações estão sendo intencionalmente retardadas ou bloqueadas por proteções de infraestrutura.
Você também pode considerar a possibilidade de publicar anúncios em lotes menores ao longo de um período maior.
Uma nota sobre o Cloudflare
O OAI-AdsBot agora está oficialmente verificado e na lista de permissões do Cloudflare.
