Mengapa OpenAI menggunakan web crawler?
Kami menggunakan crawler untuk memvalidasi keamanan halaman web yang diajukan sebagai iklan di ChatGPT. Saat Anda mengirimkan iklan, OpenAI dapat mengunjungi halaman arahan untuk memastikan halaman tersebut mematuhi kebijakan kami. Kami juga dapat menggunakan konten dari halaman arahan untuk menentukan kapan iklan paling relevan ditampilkan kepada pengguna.
Crawler OpenAI mana yang sebaiknya Anda izinkan?
Anda harus mengizinkan OAI-AdsBot. Kami menyarankan untuk mengizinkan OAI-AdsBot dan OAI-SearchBot
Crawler OpenAI gagal mengakses situs web saya. Apa yang harus saya lakukan?
Sebagian besar situs web memiliki beberapa lapisan perlindungan yang harus dilalui sebelum crawler dapat berhasil mengakses sebuah halaman web. Kami menyarankan agar Anda bekerja sama dengan tim teknik/keamanan untuk memvalidasi bahwa crawler OpenAI dapat melewati setiap lapisan berikut:
1. robots.txt
Ikhtisar: File robots.txt memberi tahu crawler apakah mereka diizinkan mengakses bagian tertentu dari situs web Anda. Crawler OpenAI mematuhi aturan ini. Jika akses tidak diizinkan dalam robots.txt, proses crawling akan segera berhenti.
Rekomendasi: Tinjau konfigurasi robots.txt Anda dan pastikan bahwa crawler OpenAI secara eksplisit diizinkan untuk mengakses halaman dan jalur yang relevan.
User-agent: OAI-SearchBot
Izinkan: /
Agen pengguna: OAI-AdsBot
Izinkan: /
2. Perlindungan Web / Mitigasi Bot
Gambaran Umum: Banyak situs web menggunakan layanan seperti Cloudflare, Akamai, atau penyedia perlindungan web lainnya untuk melindungi dari serangan DDoS, scraping, dan lalu lintas tidak sah. Sistem ini dapat keliru memblokir crawler yang sah, sering kali mengembalikan kesalahan 403 Forbidden. Karena crawler OpenAI dapat menyerupai pola lalu lintas otomatis, crawler tersebut mungkin ditolak kecuali secara khusus dimasukkan ke daftar yang diizinkan.
Rekomendasi: Tinjau konfigurasi perlindungan web atau firewall Anda dan masukkan lalu lintas crawler OpenAI ke daftar izin jika memungkinkan, idealnya berdasarkan agen pengguna crawler kami. Tim engineering atau infrastruktur Anda juga harus memeriksa aturan mitigasi bot otomatis yang dapat memicu positif semu.
3. Verifikasi Manusia/Logika Anti-Bot
Ikhtisar: Beberapa situs web menerapkan pemeriksaan tambahan di tingkat aplikasi untuk memverifikasi bahwa pengunjung adalah manusia (misalnya: CAPTCHA, tantangan JavaScript, analisis perilaku, atau validasi sesi). Karena crawler OpenAI adalah sistem otomatis, pemeriksaan ini dapat memblokir akses meskipun crawler berhasil melewati lapisan-lapisan sebelumnya.
Rekomendasi: Tinjau setiap logika verifikasi manusia atau anti-otomatisasi yang diterapkan dalam aplikasi Anda dan pastikan crawler OpenAI dikecualikan jika sesuai, idealnya dengan memasukkan agen pengguna crawler kami ke daftar yang diizinkan.
Catatan tentang Rentang IP Stabil
Beberapa sistem keamanan mengharuskan lalu lintas crawler berasal dari rentang IP yang stabil dan terdokumentasi secara publik sebelum lalu lintas tersebut dapat dimasukkan ke daftar izin secara andal.
Karena infrastruktur crawler dapat berkembang seiring waktu, tim engineering Anda sebaiknya tidak hanya mengandalkan pengamatan IP jangka pendek dari log. Sebagai gantinya, kami merekomendasikan untuk memvalidasi lalu lintas melalui kombinasi: identifikasi user-agent, program bot terverifikasi (jika didukung), daftar izin firewall, perilaku robots.txt, dan sistem verifikasi bot tingkat penyedia.
Jika Anda harus mengizinkan daftar rentang IP yang stabil, silakan merujuk ke:
Catatan tentang Pembatasan Laju
Unggahan batch besar atau lonjakan mendadak pada lalu lintas crawler terkadang dapat memicu pembatasan laju otomatis atau sistem perlindungan bot.
Jika Anda mencurigai terjadinya pembatasan laju, minta tim engineering Anda untuk meninjau:
Kode respons HTTP (terutama 429 Terlalu Banyak Permintaan)
Log firewall atau CDN
Peristiwa mitigasi bot
Aturan pembatasan laju permintaan
Analitik lalu lintas sekitar waktu crawler berusaha mengakses
Hal ini dapat membantu mengidentifikasi apakah permintaan sengaja diperlambat atau diblokir oleh perlindungan infrastruktur.
Anda juga dapat mempertimbangkan untuk mengunggah iklan selama periode waktu yang lebih panjang dalam kelompok yang lebih kecil.
Catatan tentang Cloudflare
OAI-AdsBot kini telah resmi diverifikasi dan dimasukkan ke daftar yang diizinkan oleh Cloudflare.
