Recommandations destinées aux annonceurs pour autoriser les crawlers web d’OpenAI

Découvrez comment rendre les pages de destination de vos annonces accessibles à OpenAI et résoudre les problèmes d'accès courants.

Pourquoi OpenAI utilise-t-elle des crawlers web ?

Nous utilisons des crawlers pour vérifier la sécurité des pages web soumises en tant qu’annonces sur ChatGPT. Lorsque vous soumettez une annonce, OpenAI peut consulter la page de destination afin de s’assurer qu’elle respecte nos politiques. Nous pouvons également utiliser le contenu de la page de destination afin de déterminer quand il est le plus pertinent de présenter l’annonce aux utilisateurs.

Quels crawlers d’OpenAI devez-vous autoriser ?

Vous devez autoriser OAI-AdsBot. Nous recommandons d’autoriser à la fois OAI-AdsBot et OAI-SearchBot.

Les crawlers d’OpenAI ne parviennent pas à parcourir mon site web. Que dois-je faire ?

La plupart des sites web disposent de plusieurs couches de protection avant qu’un crawler puisse accéder correctement à une page web. Collaborez avec votre équipe d’ingénierie ou de sécurité afin de vérifier que les crawlers OpenAI peuvent traverser chacune des couches suivantes.

1. robots.txt

Le fichier robots.txt indique aux crawlers s’ils sont autorisés à accéder à certaines parties de votre site web. Les crawlers d’OpenAI respectent ces règles. Si l’accès est refusé dans robots.txt, l’exploration s’arrêtera immédiatement.

Vérifiez votre configuration robots.txt et confirmez que les crawlers d’OpenAI sont explicitement autorisés à accéder aux pages et chemins pertinents. Par exemple, User-agent: OAI-SearchBot Allow: / User-agent: OAI-AdsBot Allow: /

2. Protection web et atténuation des bots

De nombreux sites web utilisent des services tels que Cloudflare, Akamai ou d’autres fournisseurs de protection web pour se protéger contre les attaques DDoS, le scraping et le trafic non autorisé. Ces systèmes peuvent bloquer par erreur des crawlers légitimes, renvoyant souvent des erreurs 403 Forbidden. Les crawlers d’OpenAI pouvant ressembler à des modèles de trafic automatisés, ils peuvent être refusés à moins qu’ils ne soient spécifiquement ajoutés à la liste d’autorisation.

Vérifiez votre configuration de protection web ou de pare-feu et, dans la mesure du possible, ajoutez le trafic des crawlers OpenAI à la liste d’autorisation, idéalement sur la base des agents utilisateurs de nos crawlers. Votre équipe d’ingénierie ou d’infrastructure doit également examiner toutes les règles automatisées de protection contre les bots susceptibles de générer des faux positifs.

3. Vérification humaine et logique anti-bot

Certains sites web mettent en œuvre des contrôles supplémentaires au niveau applicatif afin de vérifier qu’un visiteur est humain, tels que les CAPTCHA, les vérifications JavaScript, l’analyse comportementale ou la validation de session. Étant donné que les crawlers d’OpenAI sont des systèmes automatisés, ces vérifications peuvent bloquer l’accès même si le crawler a réussi à franchir les couches précédentes.

Passez en revue toute logique de vérification humaine ou anti-automatisation mise en œuvre dans votre application et assurez-vous que les crawlers d’OpenAI en sont exemptés le cas échéant, en ajoutant idéalement les agents utilisateur de nos crawlers à une liste d’autorisation.

Remarque sur les plages d’adresses IP stables

Certains systèmes de sécurité exigent que le trafic des crawlers provienne de plages d’adresses IP stables et documentées publiquement avant que le trafic puisse être ajouté de manière fiable à une liste d’autorisation. Étant donné que l’infrastructure des crawlers peut évoluer au fil du temps, votre équipe d’ingénierie doit éviter de s’appuyer uniquement sur des observations à court terme des adresses IP issues des journaux. Validez plutôt le trafic au moyen d’une combinaison des éléments suivants : identification du user-agent, programmes de bots vérifiés programmes de bots vérifiés (si disponibles), listes d’autorisation du pare-feu, respect du fichier robots.tx et systèmes de vérification des bots au niveau du fournisseur.

Si vous devez autoriser une liste stable de plages d’adresses IP, consultez https://openai.com/searchbot.json et https://openai.com/adsbot.json.

Remarque sur la limitation du débit

Les importations par lots importants ou les pics soudains du trafic des crawlers peuvent parfois déclencher des systèmes automatisés de limitation du débit ou de protection contre les bots.

Si vous soupçonnez une limitation de fréquence, demandez à votre équipe d’ingénierie de revoir les codes de réponse HTTP, en particulier les erreurs 429 Too Many Requests, les journaux du pare-feu ou CDN, les événements d’atténuation des bots, les règles de limitation des requêtes et les analyses de trafic autour du moment où le crawler a tenté d’accéder. Cela peut aider à déterminer si les requêtes sont délibérément ralenties ou bloquées par des mécanismes de protection de l’infrastructure.

Vous pouvez également envisager d'importer des annonces sur une période plus longue, par lots plus petits.

Remarque sur Cloudflare

OAI-AdsBot est officiellement vérifié et figure sur la liste blanche de Cloudflare.

FAQ sur les crawlers et la page de destination

Quel crawler est requis pour l’examen des annonces ?

OAI-AdsBot est requis pour la validation et l’examen des pages de destination ChatGPT Ads. OAI-SearchBot est recommandé, car il peut aider OpenAI à comprendre le contenu web public, mais OAI-AdsBot est le crawler que les annonceurs devraient privilégier pour la préparation des annonces.

Le support peut-il contourner manuellement la validation du crawler ?

Ne vous fiez pas à un contournement manuel. Rendez la page d’accueil accessible à l’exploration par OAI-AdsBot en corrigeant les blocages liés au fichier robots.txt, au WAF, au CDN, à la protection contre les bots, à l’authentification et à la limitation de débit. Il peut être nécessaire de réimporter les annonces ou de les soumettre à nouveau pour examen une fois que la page de destination est accessible.

Que devrait vérifier mon équipe d’ingénierie en premier ?

Vérifier si la page de destination renvoie une réponse HTTP réussie à OAI-AdsBot, si robots.txt autorise le chemin concerné et si le WAF, le CDN, l’atténuation des bots, les challenges JavaScript, les CAPTCHAs, l’authentification ou les règles géographiques bloquent l’accès automatisé.

Les liens vers des boutiques d’applications, les liens profonds ou les destinations non Web sont-ils pris en charge comme pages de destination ?

Utilisez une page de destination web directement accessible dans la mesure du possible. Les liens vers des magasins d’applications, les liens profonds, les documents ou les destinations qui nécessitent une application, une connexion, un accès spécifique à une région ou des redirections non prises en charge peuvent ne pas fournir suffisamment de contenu accessible pour validation ou examen.

Quand faut-il importer à nouveau ou demander un nouvel examen ?

Après avoir corrigé l’accès du crawler, importez à nouveau ou renvoyez les annonces concernées si leur état ne se met pas à jour automatiquement. Pour les annonces importées en masse, des lots plus petits peuvent réduire le risque de déclenchement des limites de débit ou des protections contre les bots pendant que votre équipe valide le correctif.