เหตุใด OpenAI จึงใช้เว็บครอว์เลอร์?
เราใช้ ครอว์เลอร์ เพื่อตรวจสอบความปลอดภัยของหน้าเว็บที่ส่งมาเป็นโฆษณาบน ChatGPT เมื่อคุณส่งโฆษณา OpenAI อาจเข้าชมหน้า Landing Page เพื่อตรวจสอบว่าเป็นไปตามนโยบายของเรา เราอาจใช้เนื้อหาจากหน้า Landing Page เพื่อพิจารณาว่าควรแสดงโฆษณาให้ผู้ใช้เห็นเมื่อใดจึงจะเหมาะสมที่สุด
คุณควรอนุญาตครอว์เลอร์ของ OpenAI ตัวใดบ้าง?
คุณต้องอนุญาต OAI-AdsBot เราแนะนำให้อนุญาตทั้ง OAI-AdsBot และ OAI-SearchBot
ครอว์เลอร์ของ OpenAI ไม่สามารถครอว์ลเว็บไซต์ของฉันได้ ฉันควรทำอย่างไร?
เว็บไซต์ส่วนใหญ่มีการป้องกันหลายชั้นก่อนที่ครอว์เลอร์จะเข้าถึงหน้าเว็บได้สำเร็จ เราแนะนำให้ทำงานร่วมกับทีมวิศวกรรม/ความปลอดภัยของคุณเพื่อตรวจสอบว่าครอว์เลอร์ของ OpenAI สามารถผ่านแต่ละชั้นต่อไปนี้ได้:
1. robots.txt
ภาพรวม: ไฟล์ robots.txt จะบอกครอว์เลอร์ว่าได้รับอนุญาตให้เข้าถึงบางส่วนของเว็บไซต์คุณหรือไม่ ครอว์เลอร์ของ OpenAI ปฏิบัติตามกฎเหล่านี้ หากไม่อนุญาตการเข้าถึงใน robots.txt การครอว์ลจะหยุดทันที
คำแนะนำ: ตรวจสอบการตั้งค่า robots.txt ของคุณและยืนยันว่าครอว์เลอร์ของ OpenAI ได้รับอนุญาตอย่างชัดเจนให้เข้าถึงหน้าและพาธที่เกี่ยวข้อง
User-agent: OAI-SearchBot
Allow: /
User-agent: OAI-AdsBot
Allow: /
2. การป้องกันเว็บ / การลดผลกระทบจากบอต
ภาพรวม: หลายเว็บไซต์ใช้บริการ เช่น Cloudflare, Akamai หรือผู้ให้บริการป้องกันเว็บรายอื่น เพื่อป้องกันการโจมตี DDoS การสแครป และทราฟฟิกที่ไม่ได้รับอนุญาต ระบบเหล่านี้อาจบล็อกครอว์เลอร์ที่ถูกต้องโดยผิดพลาด และมักส่งกลับข้อผิดพลาด 403 Forbidden เนื่องจากครอว์เลอร์ของ OpenAI อาจมีลักษณะคล้ายรูปแบบทราฟฟิกอัตโนมัติ จึงอาจถูกปฏิเสธ เว้นแต่จะถูกใส่ใน allowlist โดยเฉพาะ
คำแนะนำ: ตรวจสอบการตั้งค่าการป้องกันเว็บหรือไฟร์วอลล์ของคุณ และใส่ทราฟฟิกของครอว์เลอร์ OpenAI ใน allowlist หากทำได้ โดยควรอ้างอิงจาก user agent ของครอว์เลอร์ของเรา ทีมวิศวกรรมหรือโครงสร้างพื้นฐานของคุณควรตรวจสอบกฎลดผลกระทบจากบอตอัตโนมัติที่อาจทำให้เกิดการตรวจจับผิดพลาดด้วย
3. การยืนยันความเป็นมนุษย์ / ตรรกะป้องกันบอต
ภาพรวม: บางเว็บไซต์ใช้การตรวจสอบเพิ่มเติมในระดับแอปพลิเคชันเพื่อยืนยันว่าผู้เข้าชมเป็นมนุษย์จริง (เช่น CAPTCHA, JavaScript challenge, การวิเคราะห์พฤติกรรม หรือการตรวจสอบเซสชัน) เนื่องจากครอว์เลอร์ของ OpenAI เป็นระบบอัตโนมัติ การตรวจสอบเหล่านี้อาจบล็อกการเข้าถึงได้ แม้ว่าครอว์เลอร์จะผ่านชั้นก่อนหน้าได้สำเร็จก็ตาม
คำแนะนำ: ตรวจสอบตรรกะการยืนยันความเป็นมนุษย์หรือการป้องกันระบบอัตโนมัติที่ใช้ในแอปพลิเคชันของคุณ และตรวจสอบให้แน่ใจว่ามีข้อยกเว้นสำหรับครอว์เลอร์ของ OpenAI ตามความเหมาะสม โดยควรใส่ user agent ของครอว์เลอร์ของเราใน allowlist
หมายเหตุเกี่ยวกับช่วง IP แบบคงที่
ระบบรักษาความปลอดภัยบางระบบกำหนดให้ทราฟฟิกของครอว์เลอร์ต้องมาจากช่วง IP ที่คงที่และมีการเผยแพร่เอกสารสาธารณะก่อน จึงจะสามารถใส่ใน allowlist ได้อย่างเชื่อถือได้
เนื่องจากโครงสร้างพื้นฐานของครอว์เลอร์อาจเปลี่ยนแปลงไปตามเวลา ทีมวิศวกรรมของคุณจึงไม่ควรพึ่งพาเพียงการสังเกต IP ระยะสั้นจากล็อกเท่านั้น แต่เราแนะนำให้ตรวจสอบทราฟฟิกด้วยการผสมผสานระหว่าง: การระบุ user agent, โปรแกรม verified bot (หากรองรับ), allowlist ของไฟร์วอลล์, พฤติกรรมของ robots.txt และระบบยืนยันบอตระดับผู้ให้บริการ
หากคุณจำเป็นต้องอนุญาตรายการช่วง IP แบบคงที่ โปรดอ้างอิง:
หมายเหตุเกี่ยวกับลิมิตการใช้งาน
การอัปโหลดแบบเป็นชุดขนาดใหญ่หรือการพุ่งขึ้นอย่างฉับพลันของทราฟฟิกครอว์เลอร์ บางครั้งอาจกระตุ้นระบบลิมิตการใช้งานหรือระบบป้องกันบอตอัตโนมัติ
หากคุณสงสัยว่ากำลังเกิดลิมิตการใช้งาน ให้ขอให้ทีมวิศวกรรมของคุณตรวจสอบ:
รหัสตอบกลับ HTTP (โดยเฉพาะ 429 Too Many Requests)
ล็อกไฟร์วอลล์หรือ CDN
เหตุการณ์จากระบบลดผลกระทบของบอต
กฎการจำกัดอัตราคำขอ
การวิเคราะห์ทราฟฟิกรอบช่วงเวลาที่ครอว์เลอร์พยายามเข้าถึง
สิ่งนี้ช่วยระบุได้ว่าคำขอถูกทำให้ช้าลงหรือถูกบล็อกโดยเจตนาจากระบบป้องกันโครงสร้างพื้นฐานหรือไม่
คุณอาจพิจารณาอัปโหลดโฆษณาเป็นชุดเล็กลงในช่วงเวลาที่กระจายออกไปด้วย
หมายเหตุเกี่ยวกับ Cloudflare
ขณะนี้ OAI-AdsBot ได้รับการยืนยันอย่างเป็นทางการและอยู่ใน allowlist ของ Cloudflare แล้ว
