OpenAI
หน้านี้แปลด้วยระบบอัตโนมัติ ดูต้นฉบับภาษาอังกฤษ.

แนวทางสำหรับผู้ลงโฆษณาในการอนุญาตเว็บครอว์เลอร์ของ OpenAI

อัปเดตล่าสุด: 6 days ago

เหตุใด OpenAI จึงใช้เว็บครอว์เลอร์?

เราใช้ ครอว์เลอร์ เพื่อตรวจสอบความปลอดภัยของหน้าเว็บที่ส่งมาเป็นโฆษณาบน ChatGPT เมื่อคุณส่งโฆษณา OpenAI อาจเข้าชมหน้า Landing Page เพื่อตรวจสอบว่าเป็นไปตามนโยบายของเรา เราอาจใช้เนื้อหาจากหน้า Landing Page เพื่อพิจารณาว่าควรแสดงโฆษณาให้ผู้ใช้เห็นเมื่อใดจึงจะเหมาะสมที่สุด

คุณควรอนุญาตครอว์เลอร์ของ OpenAI ตัวใดบ้าง?

คุณต้องอนุญาต OAI-AdsBot เราแนะนำให้อนุญาตทั้ง OAI-AdsBot และ OAI-SearchBot

ครอว์เลอร์ของ OpenAI ไม่สามารถครอว์ลเว็บไซต์ของฉันได้ ฉันควรทำอย่างไร?

เว็บไซต์ส่วนใหญ่มีการป้องกันหลายชั้นก่อนที่ครอว์เลอร์จะเข้าถึงหน้าเว็บได้สำเร็จ เราแนะนำให้ทำงานร่วมกับทีมวิศวกรรม/ความปลอดภัยของคุณเพื่อตรวจสอบว่าครอว์เลอร์ของ OpenAI สามารถผ่านแต่ละชั้นต่อไปนี้ได้:

1. robots.txt

ภาพรวม: ไฟล์ robots.txt จะบอกครอว์เลอร์ว่าได้รับอนุญาตให้เข้าถึงบางส่วนของเว็บไซต์คุณหรือไม่ ครอว์เลอร์ของ OpenAI ปฏิบัติตามกฎเหล่านี้ หากไม่อนุญาตการเข้าถึงใน robots.txt การครอว์ลจะหยุดทันที

คำแนะนำ: ตรวจสอบการตั้งค่า robots.txt ของคุณและยืนยันว่าครอว์เลอร์ของ OpenAI ได้รับอนุญาตอย่างชัดเจนให้เข้าถึงหน้าและพาธที่เกี่ยวข้อง

User-agent: OAI-SearchBot 

Allow: / 

User-agent: OAI-AdsBot 

Allow: /

2. การป้องกันเว็บ / การลดผลกระทบจากบอต

ภาพรวม: หลายเว็บไซต์ใช้บริการ เช่น Cloudflare, Akamai หรือผู้ให้บริการป้องกันเว็บรายอื่น เพื่อป้องกันการโจมตี DDoS การสแครป และทราฟฟิกที่ไม่ได้รับอนุญาต ระบบเหล่านี้อาจบล็อกครอว์เลอร์ที่ถูกต้องโดยผิดพลาด และมักส่งกลับข้อผิดพลาด 403 Forbidden เนื่องจากครอว์เลอร์ของ OpenAI อาจมีลักษณะคล้ายรูปแบบทราฟฟิกอัตโนมัติ จึงอาจถูกปฏิเสธ เว้นแต่จะถูกใส่ใน allowlist โดยเฉพาะ

คำแนะนำ: ตรวจสอบการตั้งค่าการป้องกันเว็บหรือไฟร์วอลล์ของคุณ และใส่ทราฟฟิกของครอว์เลอร์ OpenAI ใน allowlist หากทำได้ โดยควรอ้างอิงจาก user agent ของครอว์เลอร์ของเรา ทีมวิศวกรรมหรือโครงสร้างพื้นฐานของคุณควรตรวจสอบกฎลดผลกระทบจากบอตอัตโนมัติที่อาจทำให้เกิดการตรวจจับผิดพลาดด้วย

3. การยืนยันความเป็นมนุษย์ / ตรรกะป้องกันบอต

ภาพรวม: บางเว็บไซต์ใช้การตรวจสอบเพิ่มเติมในระดับแอปพลิเคชันเพื่อยืนยันว่าผู้เข้าชมเป็นมนุษย์จริง (เช่น CAPTCHA, JavaScript challenge, การวิเคราะห์พฤติกรรม หรือการตรวจสอบเซสชัน) เนื่องจากครอว์เลอร์ของ OpenAI เป็นระบบอัตโนมัติ การตรวจสอบเหล่านี้อาจบล็อกการเข้าถึงได้ แม้ว่าครอว์เลอร์จะผ่านชั้นก่อนหน้าได้สำเร็จก็ตาม

คำแนะนำ: ตรวจสอบตรรกะการยืนยันความเป็นมนุษย์หรือการป้องกันระบบอัตโนมัติที่ใช้ในแอปพลิเคชันของคุณ และตรวจสอบให้แน่ใจว่ามีข้อยกเว้นสำหรับครอว์เลอร์ของ OpenAI ตามความเหมาะสม โดยควรใส่ user agent ของครอว์เลอร์ของเราใน allowlist

หมายเหตุเกี่ยวกับช่วง IP แบบคงที่

ระบบรักษาความปลอดภัยบางระบบกำหนดให้ทราฟฟิกของครอว์เลอร์ต้องมาจากช่วง IP ที่คงที่และมีการเผยแพร่เอกสารสาธารณะก่อน จึงจะสามารถใส่ใน allowlist ได้อย่างเชื่อถือได้

เนื่องจากโครงสร้างพื้นฐานของครอว์เลอร์อาจเปลี่ยนแปลงไปตามเวลา ทีมวิศวกรรมของคุณจึงไม่ควรพึ่งพาเพียงการสังเกต IP ระยะสั้นจากล็อกเท่านั้น แต่เราแนะนำให้ตรวจสอบทราฟฟิกด้วยการผสมผสานระหว่าง: การระบุ user agent, โปรแกรม verified bot (หากรองรับ), allowlist ของไฟร์วอลล์, พฤติกรรมของ robots.txt และระบบยืนยันบอตระดับผู้ให้บริการ

หากคุณจำเป็นต้องอนุญาตรายการช่วง IP แบบคงที่ โปรดอ้างอิง:

หมายเหตุเกี่ยวกับลิมิตการใช้งาน

การอัปโหลดแบบเป็นชุดขนาดใหญ่หรือการพุ่งขึ้นอย่างฉับพลันของทราฟฟิกครอว์เลอร์ บางครั้งอาจกระตุ้นระบบลิมิตการใช้งานหรือระบบป้องกันบอตอัตโนมัติ

หากคุณสงสัยว่ากำลังเกิดลิมิตการใช้งาน ให้ขอให้ทีมวิศวกรรมของคุณตรวจสอบ:

  • รหัสตอบกลับ HTTP (โดยเฉพาะ 429 Too Many Requests)

  • ล็อกไฟร์วอลล์หรือ CDN

  • เหตุการณ์จากระบบลดผลกระทบของบอต

  • กฎการจำกัดอัตราคำขอ

  • การวิเคราะห์ทราฟฟิกรอบช่วงเวลาที่ครอว์เลอร์พยายามเข้าถึง

สิ่งนี้ช่วยระบุได้ว่าคำขอถูกทำให้ช้าลงหรือถูกบล็อกโดยเจตนาจากระบบป้องกันโครงสร้างพื้นฐานหรือไม่ 

คุณอาจพิจารณาอัปโหลดโฆษณาเป็นชุดเล็กลงในช่วงเวลาที่กระจายออกไปด้วย

หมายเหตุเกี่ยวกับ Cloudflare

ขณะนี้ OAI-AdsBot ได้รับการยืนยันอย่างเป็นทางการและอยู่ใน allowlist ของ Cloudflare แล้ว

บทความนี้มีประโยชน์หรือไม่