Pourquoi OpenAI utilise-t-elle des crawlers web ?
Nous utilisons des crawlers pour vérifier la sécurité des pages web soumises en tant qu’annonces sur ChatGPT. Lorsque vous soumettez une annonce, OpenAI peut consulter la page de destination afin de s’assurer qu’elle respecte nos politiques. Nous pouvons également utiliser le contenu de la page de destination afin de déterminer quand il est le plus pertinent de présenter l’annonce aux utilisateurs.
Quels crawlers d’OpenAI devez-vous autoriser ?
Vous devez autoriser OAI-AdsBot. Nous recommandons d’autoriser à la fois OAI-AdsBot et OAI-SearchBot
Les crawlers d’OpenAI ne parviennent pas à parcourir mon site web. Que dois-je faire ?
La plupart des sites web disposent de plusieurs couches de protection avant qu’un crawler puisse accéder correctement à une page web. Nous vous recommandons de collaborer avec vos équipes d’ingénierie et de sécurité afin de vérifier que les crawlers OpenAI peuvent traverser chacune des couches suivantes :
1. robots.txt
Présentation : le fichier robots.txt indique aux crawlers s’ils sont autorisés à accéder à certaines parties de votre site web. Les crawlers d’OpenAI respectent ces règles. Si l’accès est refusé dans robots.txt, l’exploration s’arrêtera immédiatement.
Recommandation : vérifiez votre configuration robots.txt et confirmez que les crawlers d’OpenAI sont explicitement autorisés à accéder aux pages et chemins pertinents.
User-agent : OAI-SearchBot
Allow : /
User-agent : OAI-AdsBot
Allow : /
2. Protection Web / protection contre les bots
Présentation : de nombreux sites web utilisent des services tels que Cloudflare, Akamai ou d’autres fournisseurs de protection web pour se protéger contre les attaques DDoS, le scraping et le trafic non autorisé. Ces systèmes peuvent bloquer par erreur des crawlers légitimes, renvoyant souvent des erreurs 403 Forbidden. Les crawlers d’OpenAI pouvant ressembler à des modèles de trafic automatisés, ils peuvent être refusés à moins qu’ils ne soient spécifiquement ajoutés à la liste d’autorisation.
Recommandation : vérifiez votre configuration de protection web ou de pare-feu et, dans la mesure du possible, ajoutez le trafic des crawlers OpenAI à la liste d’autorisation, idéalement sur la base des agents utilisateurs de nos crawlers. Votre équipe d’ingénierie ou d’infrastructure doit également examiner toutes les règles automatisées de protection contre les bots susceptibles de générer des faux positifs.
3. Vérification humaine / logique anti-bot
Présentation : certains sites web mettent en œuvre des contrôles supplémentaires au niveau applicatif afin de vérifier qu’un visiteur est humain (par exemple : CAPTCHA, vérifications JavaScript, analyse comportementale ou validation de session). Étant donné que les crawlers d’OpenAI sont des systèmes automatisés, ces vérifications peuvent bloquer l’accès même si le crawler a réussi à franchir les couches précédentes.
Recommandation : passez en revue toute logique de vérification humaine ou anti-automatisation mise en œuvre dans votre application et assurez-vous que les crawlers d’OpenAI en sont exemptés le cas échéant, en ajoutant idéalement les agents utilisateur de nos crawlers à une liste d’autorisation.
Remarque sur les plages d’adresses IP stables
Certains systèmes de sécurité exigent que le trafic des crawlers provienne de plages d’adresses IP stables et documentées publiquement avant que le trafic puisse être ajouté de manière fiable à une liste d’autorisation.
Étant donné que l’infrastructure des crawlers peut évoluer au fil du temps, votre équipe d’ingénierie doit éviter de s’appuyer uniquement sur des observations à court terme des adresses IP issues des journaux. Nous recommandons plutôt de valider le trafic au moyen d’une combinaison des éléments suivants : identification du user-agent, programmes de bots vérifiés programmes de bots vérifiés (si disponibles), listes d’autorisation du pare-feu, respect du fichier robots.tx et systèmes de vérification des bots au niveau du fournisseur.
Si vous devez autoriser une liste stable de plages d’adresses IP, veuillez consulter :
Remarque sur la limitation du débit
Les importations par lots importants ou les pics soudains du trafic des crawlers peuvent parfois déclencher des systèmes automatisés de limitation du débit ou de protection contre les bots.
Si vous soupçonnez une limitation de débit, demandez à votre équipe d’ingénierie de l’examiner :
Codes de réponse HTTP (en particulier 429 Too Many Requests)
Journaux de pare-feu ou de CDN
Événements de protection contre les bots
Règles de limitation des requêtes
Analyse du trafic au moment de la tentative d’accès du crawler
Cela peut aider à déterminer si les requêtes sont délibérément ralenties ou bloquées par des mécanismes de protection de l’infrastructure.
Vous pouvez également envisager de télécharger des annonces plus rapidement et en plus petits lots.
Remarque sur Cloudflare
OAI-AdsBot est désormais officiellement vérifié et listé en liste d’autorisation par Cloudflare.
