Waarom gebruikt OpenAI webcrawlers?
We gebruiken crawlers om de veiligheid te controleren van webpagina's die als advertenties op ChatGPT worden ingediend. Wanneer u een advertentie indient, kan OpenAI de landingspagina bezoeken om te controleren of deze aan ons beleid voldoet. We kunnen ook content van de landingspagina gebruiken om te bepalen wanneer de advertentie het meest relevant is om aan gebruikers te tonen.
Welke OpenAI-crawlers moet u toestaan?
U moet OAI-AdsBot toestaan. We raden aan zowel OAI-AdsBot als OAI-SearchBot toe te staan
OpenAI-crawlers kunnen mijn website niet crawlen. Wat moet ik doen?
De meeste websites hebben meerdere beschermingslagen voordat een crawler een webpagina succesvol kan openen. We raden aan om samen met uw engineering-/beveiligingsteam te controleren of OpenAI-crawlers door elk van de volgende lagen heen kunnen:
1. robots.txt
Overzicht: Het bestand robots.txt vertelt crawlers of ze toegang hebben tot bepaalde delen van uw website. OpenAI-crawlers respecteren deze regels. Als toegang in robots.txt niet is toegestaan, stopt het crawlen onmiddellijk.
Aanbeveling: Controleer uw robots.txt-configuratie en bevestig dat OpenAI-crawlers expliciet toegang hebben tot de relevante pagina's en paden.
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. Webbeveiliging / Botmitigatie
Overzicht: Veel websites gebruiken diensten zoals Cloudflare, Akamai of andere aanbieders van webbeveiliging om zich te verdedigen tegen DDoS-aanvallen, scraping en ongeautoriseerd verkeer. Deze systemen kunnen legitieme crawlers per ongeluk blokkeren en geven vaak 403 Forbidden-fouten terug. Omdat OpenAI-crawlers op geautomatiseerde verkeerspatronen kunnen lijken, kan hun toegang worden geweigerd tenzij ze specifiek op de allowlist staan.
Aanbeveling: Controleer uw webbeveiligings- of firewallconfiguratie en plaats OpenAI-crawlerverkeer waar mogelijk op de allowlist, idealiter op basis van onze crawler-user-agents. Uw engineering- of infrastructuurteam moet ook alle geautomatiseerde botmitigatieregels controleren die mogelijk fout-positieven veroorzaken.
3. Menselijke verificatie / Anti-botlogica
Overzicht: Sommige websites implementeren extra controles op applicatieniveau om te verifiëren dat een bezoeker menselijk is (bijvoorbeeld: CAPTCHA's, JavaScript-uitdagingen, gedragsanalyse of sessievalidatie). Omdat OpenAI-crawlers geautomatiseerde systemen zijn, kunnen deze controles de toegang blokkeren, zelfs als de crawler eerdere lagen succesvol doorloopt.
Aanbeveling: Controleer alle logica voor menselijke verificatie of antiautomatisering die in uw applicatie is geïmplementeerd en zorg dat OpenAI-crawlers waar passend zijn vrijgesteld, idealiter door onze crawler-user-agents op de allowlist te plaatsen.
Opmerking over stabiele IP-bereiken
Sommige beveiligingssystemen vereisen dat crawlerverkeer afkomstig is van stabiele, openbaar gedocumenteerde IP-bereiken voordat verkeer betrouwbaar op de allowlist kan worden geplaatst.
Omdat crawlerinfrastructuur in de loop van de tijd kan veranderen, moet uw engineeringteam vermijden om uitsluitend te vertrouwen op kortetermijnwaarnemingen van IP's in logs. In plaats daarvan raden we aan verkeer te valideren met een combinatie van: user-agentidentificatie, geverifieerde botprogramma's (waar ondersteund), firewall-allowlists, robots.txt-gedrag en botverificatiesystemen op providerniveau.
Als u een stabiele lijst met IP-bereiken moet toestaan, raadpleeg dan:
Opmerking over volumelimieten
Grote batchuploads of plotselinge pieken in crawlerverkeer kunnen soms geautomatiseerde volumelimieten of botbeschermingssystemen activeren.
Als u vermoedt dat volumelimieten optreden, vraag uw engineeringteam dan om het volgende te controleren:
HTTP-responscodes (vooral 429 Too Many Requests)
Firewall- of CDN-logs
Botmitigatiegebeurtenissen
Regels voor aanvraagbeperking
Verkeersanalyses rond het tijdstip waarop de crawler toegang probeerde te krijgen
Dit kan helpen vast te stellen of aanvragen opzettelijk worden vertraagd of geblokkeerd door infrastructuurbescherming.
U kunt ook overwegen advertenties over een langere periode in kleinere batches te uploaden.
Opmerking over Cloudflare
OAI-AdsBot is nu officieel geverifieerd en door Cloudflare op de allowlist geplaatst.
