OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Guía para anunciantes sobre cómo permitir los rastreadores web de OpenAI

Actualización: 6 days ago

¿Por qué usa OpenAI rastreadores web?

Usamos rastreadores para validar la seguridad de las páginas web enviadas como anuncios en ChatGPT. Cuando envías un anuncio, OpenAI puede visitar la página de destino para asegurarse de que cumple nuestras políticas. También podemos usar contenido de la página de destino para determinar cuándo es más relevante mostrar el anuncio a los usuarios.

¿Qué rastreadores de OpenAI debes permitir?

Debes permitir OAI-AdsBot. Recomendamos permitir tanto OAI-AdsBot como OAI-SearchBot

Los rastreadores de OpenAI no consiguen rastrear mi sitio web. ¿Qué debo hacer?

La mayoría de los sitios web tienen varias capas de protección antes de que un rastreador pueda acceder correctamente a una página web. Recomendamos trabajar con tu equipo de ingeniería/seguridad para validar que los rastreadores de OpenAI puedan superar cada una de las siguientes capas:

1. robots.txt

Resumen: El archivo robots.txt indica a los rastreadores si tienen permiso para acceder a determinadas partes de tu sitio web. Los rastreadores de OpenAI respetan estas reglas. Si el acceso está prohibido en robots.txt, el rastreo se detendrá de inmediato.

Recomendación: Revisa la configuración de tu robots.txt y confirma que los rastreadores de OpenAI tienen permiso explícito para acceder a las páginas y rutas pertinentes.

User-agent: OAI-SearchBot 

Allow: / 

User-agent: OAI-AdsBot 

Allow: /

2. Protección web / mitigación de bots

Resumen: Muchos sitios web usan servicios como Cloudflare, Akamai u otros proveedores de protección web para defenderse de ataques DDoS, scraping y tráfico no autorizado. Estos sistemas pueden bloquear por error a rastreadores legítimos y a menudo devuelven errores 403 Forbidden. Como los rastreadores de OpenAI pueden parecer patrones de tráfico automatizado, se les puede denegar el acceso salvo que se incluyan explícitamente en una lista de permitidos.

Recomendación: Revisa la configuración de tu protección web o firewall e incluye en la lista de permitidos el tráfico de los rastreadores de OpenAI cuando sea posible, idealmente según nuestros user agents de rastreo. Tu equipo de ingeniería o infraestructura también debería inspeccionar cualquier regla automatizada de mitigación de bots que pueda estar provocando falsos positivos.

3. Verificación humana / lógica antibots

Resumen: Algunos sitios web implementan comprobaciones adicionales a nivel de aplicación para verificar que un visitante es humano (por ejemplo: CAPTCHA, desafíos de JavaScript, análisis de comportamiento o validación de sesión). Dado que los rastreadores de OpenAI son sistemas automatizados, estas comprobaciones pueden bloquear el acceso aunque el rastreador supere correctamente las capas anteriores.

Recomendación: Revisa cualquier lógica de verificación humana o antiautomatización implementada en tu aplicación y asegúrate de que los rastreadores de OpenAI queden exentos cuando corresponda, idealmente incluyendo nuestros user agents de rastreo en la lista de permitidos.

Nota sobre rangos de IP estables

Algunos sistemas de seguridad requieren que el tráfico de rastreadores proceda de rangos de IP estables y documentados públicamente para poder incluirlo de forma fiable en listas de permitidos.

Como la infraestructura de rastreo puede evolucionar con el tiempo, tu equipo de ingeniería debería evitar basarse solo en observaciones de IP a corto plazo obtenidas de los registros. En su lugar, recomendamos validar el tráfico mediante una combinación de: identificación por user agent, programas de bots verificados (cuando se admitan), listas de permitidos del firewall, comportamiento de robots.txt y sistemas de verificación de bots del proveedor.

Si debes permitir una lista estable de rangos de IP, consulta:

Nota sobre la limitación de solicitudes

Las cargas por lotes grandes o los aumentos repentinos del tráfico de rastreadores a veces pueden activar sistemas automatizados de limitación de solicitudes o de protección contra bots.

Si sospechas que se está aplicando limitación de solicitudes, pide a tu equipo de ingeniería que revise:

  • Códigos de respuesta HTTP, especialmente 429 Too Many Requests

  • Registros del firewall o de la CDN

  • Eventos de mitigación de bots

  • Reglas de limitación de solicitudes

  • Analítica del tráfico en torno al momento en que el rastreador intentó acceder

Esto puede ayudar a identificar si las solicitudes están siendo ralentizadas o bloqueadas intencionadamente por las protecciones de la infraestructura. 

También puedes considerar subir anuncios en lotes más pequeños y durante más tiempo.

Nota sobre Cloudflare

OAI-AdsBot ahora está verificado oficialmente e incluido en la lista de permitidos de Cloudflare.

¿Te ha resultado útil este artículo?