Guía para anunciantes sobre cómo permitir los rastreadores web de OpenAI

Aprende a hacer que las páginas de destino de tus anuncios sean accesibles para OpenAI y a solucionar problemas de acceso comunes.

¿Por qué OpenAI usa rastreadores web?

Usamos rastreadores web para validar la seguridad de las páginas web enviadas como anuncios en ChatGPT. Cuando envías un anuncio, OpenAI puede visitar la página de destino para asegurarse de que cumple nuestras políticas. También podemos usar contenido de la página de destino para determinar cuándo es más relevante mostrar el anuncio a los usuarios.

¿Qué rastreadores web de OpenAI debes permitir?

Debes permitir OAI-AdsBot. Recomendamos permitir tanto OAI-AdsBot como OAI-SearchBot.

Los rastreadores web de OpenAI no pueden rastrear mi sitio web. ¿Qué debo hacer?

La mayoría de los sitios web tienen varias capas de protección antes de que un rastreador web pueda acceder correctamente a una página web. Colabora con tu equipo de ingeniería o seguridad para comprobar que los rastreadores web de OpenAI pueden atravesar cada una de las siguientes capas.

1. robots.txt

El archivo robots.txt indica a los rastreadores web si tienen permiso para acceder a determinadas partes de tu sitio web. Los rastreadores web de OpenAI respetan estas reglas. Si el acceso no está permitido en robots.txt, el rastreo se detendrá de inmediato.

Revisa tu configuración de robots.txt y confirma que los rastreadores web de OpenAI tienen permiso explícito para acceder a las páginas y rutas pertinentes. Por ejemplo: User-agent: OAI-SearchBot Allow: / User-agent: OAI-AdsBot Allow: /

2. Protección web y mitigación de bots

Muchos sitios web usan servicios como Cloudflare, Akamai u otros proveedores de protección web para defenderse de ataques DDoS, scraping y tráfico no autorizado. Estos sistemas pueden bloquear por error rastreadores web legítimos, a menudo devolviendo errores 403 Forbidden. Como los rastreadores web de OpenAI pueden parecerse a patrones de tráfico automatizado, es posible que se les deniegue el acceso si no se incluyen específicamente en una lista de permitidos.

Revisa la configuración de tu protección web o cortafuegos e incluye el tráfico de los rastreadores web de OpenAI en la lista de permitidos cuando sea posible, idealmente según nuestros agentes de usuario de rastreadores web. Tu equipo de ingeniería o infraestructura también debe inspeccionar cualquier regla automatizada de mitigación de bots que pueda estar generando falsos positivos.

3. Verificación humana y lógica antibots

Algunos sitios web implementan comprobaciones adicionales a nivel de aplicación para verificar que un visitante es humano, como CAPTCHA, desafíos de JavaScript, análisis de comportamiento o validación de sesión. Dado que los rastreadores web de OpenAI son sistemas automatizados, estas comprobaciones pueden bloquear el acceso aunque el rastreador web haya superado correctamente las capas anteriores.

Revisa cualquier lógica de verificación humana o anti automatización implementada en tu aplicación y asegúrate de que los rastreadores web de OpenAI estén exentos cuando corresponda, idealmente incluyendo nuestros agentes de usuario de rastreadores web en la lista de permitidos.

Nota sobre los intervalos de IP estables

Algunos sistemas de seguridad exigen que el tráfico de los rastreadores web proceda de intervalos de IP estables y documentados públicamente antes de que pueda incluirse de forma fiable en una lista de permitidos. Como la infraestructura de rastreo puede evolucionar con el tiempo, tu equipo de ingeniería debe evitar basarse únicamente en observaciones de IP a corto plazo procedentes de los registros. En su lugar, valida el tráfico mediante una combinación de identificación por agente de usuario, programas de bots verificados cuando sean compatibles, listas de permitidos del cortafuegos, comportamiento de robots.txt y sistemas de verificación de bots a nivel de proveedor.

Si debes permitir una lista estable de intervalos de IP, consulta https://openai.com/searchbot.json y https://openai.com/adsbot.json.

Nota sobre los límites de solicitudes

Las cargas masivas grandes o los picos repentinos de tráfico de rastreadores web pueden activar a veces sistemas automatizados de límites de solicitudes o de protección contra bots.

Si sospechas que se están aplicando límites de solicitudes, pide a tu equipo de ingeniería que revise los códigos de respuesta HTTP, especialmente 429 Too Many Requests, los registros del cortafuegos o de la CDN, los eventos de mitigación de bots, las reglas de limitación de solicitudes y los análisis de tráfico en torno al momento en que el rastreador web intentó acceder. Esto puede ayudar a determinar si las solicitudes se están ralentizando o bloqueando intencionadamente mediante protecciones de infraestructura.

También puedes plantearte subir anuncios durante un periodo más largo en lotes más pequeños.

Nota sobre Cloudflare

OAI-AdsBot está verificado oficialmente y en la lista de permitidos de Cloudflare.

Preguntas frecuentes sobre rastreadores web y páginas de destino

¿Qué rastreador web se requiere para la revisión de anuncios?

OAI-AdsBot es necesario para validar y revisar las páginas de destino de ChatGPT Ads. Se recomienda OAI-SearchBot porque puede ayudar a OpenAI a entender el contenido web público, pero OAI-AdsBot es el rastreador web que los anunciantes deben priorizar para preparar sus anuncios.

¿Puede el equipo de soporte omitir manualmente la validación del rastreador web?

No dependas de una omisión manual. Haz que OAI-AdsBot pueda rastrear la página de destino corrigiendo bloqueos de robots.txt, WAF, CDN, mitigación de bots, autenticación y límites de solicitudes. Es posible que haya que volver a subir los anuncios o reenviarlos para revisión después de que la página de destino sea accesible.

¿Qué debe comprobar primero mi equipo de ingeniería?

Comprueba si la página de destino devuelve una respuesta HTTP correcta a OAI-AdsBot, si robots.txt permite la ruta pertinente y si WAF, CDN, la mitigación de bots, los desafíos de JavaScript, los CAPTCHA, la autenticación o las reglas geográficas bloquean el acceso automatizado.

¿Se admiten enlaces a tiendas de aplicaciones, enlaces profundos o destinos que no sean web como páginas de destino?

Usa una página de destino web accesible directamente siempre que sea posible. Los enlaces a tiendas de aplicaciones, los enlaces profundos, los documentos o los destinos que requieren una aplicación, inicio de sesión, acceso específico por región o redirecciones no compatibles pueden no proporcionar suficiente contenido rastreable para la validación o revisión.

¿Cuándo debo volver a subir los anuncios o solicitar otra revisión?

Después de corregir el acceso del rastreador web, vuelve a subir o reenvía los anuncios afectados si el estado no se actualiza por sí solo. En el caso de anuncios subidos de forma masiva, los lotes más pequeños pueden reducir las activaciones de límites de solicitudes o de protección contra bots mientras tu equipo valida la corrección.