Pelajari lebih lanjut tentang bagaimana kami mengembangkan model-model kami dan menerapkannya dalam produk seperti ChatGPT

Model dasar OpenAI, termasuk model yang mendukung ChatGPT, dikembangkan menggunakan tiga sumber informasi utama: (1) informasi yang tersedia secara publik di internet, (2) informasi yang kami akses melalui kemitraan dengan pihak ketiga, dan (3) informasi yang disediakan atau dibuat oleh pengguna, pelatih manusia, dan peneliti kami.

Pengembangan model dasar seperti yang digunakan dalam ChatGPT melibatkan beberapa tahap, termasuk penyiapan data pelatihan, pra-pelatihan, dan pasca-pelatihan, serta evaluasi dan peningkatan berkelanjutan setelah penerapan. Berbagai jenis informasi dapat digunakan pada tahap-tahap ini untuk berbagai tujuan, termasuk meningkatkan kinerja, keandalan, dan keamanan model.

Artikel ini memberikan gambaran umum tentang informasi yang kami gunakan untuk membantu mengembangkan model ini, cara kami mengumpulkan dan menggunakan informasi tersebut sesuai dengan undang-undang privasi, serta langkah-langkah perlindungan yang kami terapkan di sepanjang proses pelatihan. Untuk memahami cara kami mengumpulkan dan menggunakan informasi dari pengguna layanan kami, termasuk cara memilih untuk tidak mengizinkan percakapan ChatGPT digunakan untuk membantu meningkatkan model kami, silakan lihat Kebijakan Privasi kami dan artikel Pusat Bantuan ini.

Apa itu ChatGPT dan bagaimana cara kerjanya?

ChatGPT adalah layanan berbasis kecerdasan buatan yang dapat Anda akses melalui internet atau aplikasi. Anda dapat menggunakan ChatGPT untuk berbagai macam tugas, termasuk mengatur dan meringkas informasi, membantu penerjemahan, mendukung pengodean, penelitian dan analisis, menyelesaikan tugas multi-langkah di berbagai alat, menganalisis atau menghasilkan gambar, menginspirasi kreativitas dan ide, serta aktivitas sehari-hari lainnya. ChatGPT dirancang untuk memahami dan merespons pertanyaan serta instruksi pengguna dengan mempelajari pola dari informasi dalam jumlah besar, termasuk teks, gambar, audio, dan video.

Selama pelatihan, model menganalisis hubungan dalam data ini—seperti bagaimana kata-kata biasanya muncul bersama dalam konteks—dan menggunakan pemahaman tersebut untuk memprediksi kata berikutnya yang paling mungkin saat menghasilkan respons, satu kata demi satu kata. Teks dapat dikonversi menjadi unit-unit yang lebih kecil, terkadang disebut “token” yang dapat mewakili kata utuh, bagian kata, atau tanda baca. Token adalah unit penyusun teks yang diproses oleh model. Demikian pula, model yang menghasilkan bentuk konten lain, seperti gambar, mempelajari pola tentang bagaimana piksel berhubungan satu sama lain dan dengan keterangan terkait dalam data pelatihan.

Misalnya, selama proses pembelajaran model (dikenal sebagai “pelatihan”), model mungkin diberi tugas untuk melengkapi kalimat seperti: “Alih-alih berbelok ke kiri, dia berbelok ke ___.” Pada tahap awal pelatihan, responsnya sebagian besar acak. Namun, seiring model memproses dan belajar dari sejumlah besar teks, model menjadi lebih baik dalam mengenali pola dan memprediksi kata selanjutnya yang paling mungkin. Proses ini diulangi pada jutaan kalimat untuk menyempurnakan pemahamannya dan meningkatkan keakuratannya.

Karena ada beberapa cara yang masuk akal untuk menyelesaikan sebuah kalimat—seperti "Alih-alih berbelok ke kiri, dia berbelok ke kanan," "berputar," atau "kembali"—terdapat unsur keacakan dalam cara model merespons. Akibatnya, pertanyaan yang sama dapat menghasilkan jawaban yang berbeda pada kueri yang berbeda.

Model pembelajaran mesin terdiri dari kumpulan besar angka, yang dikenal sebagai "bobot" atau "parameter," bersama dengan kode yang menafsirkan dan menggunakan angka-angka tersebut. Model-model ini tidak menyimpan atau menyimpan salinan data yang digunakan untuk melatih mereka. Sebaliknya, saat sebuah model belajar, nilai parameternya sedikit disesuaikan untuk mencerminkan pola yang telah diidentifikasi. Dalam contoh sebelumnya, model meningkat dari memprediksi kata-kata acak menjadi membuat prediksi yang lebih akurat—bukan dengan menyimpan kalimat pelatihan, tetapi dengan memperbarui parameter internalnya. Model tidak menyimpan salinan kalimat, gambar, atau audio yang diprosesnya selama pelatihan. ChatGPT tidak "menyalin dan menempel" dari data pelatihan—mirip dengan bagaimana seorang guru, setelah belajar secara mendalam, dapat menjelaskan konsep dengan memahami hubungan antara ide-ide tanpa menghafal atau mereproduksi materi asli secara kata demi kata. Ketika membuat respons terhadap permintaan pengguna, model menggunakan bobot yang dipelajari ini untuk memprediksi dan membuat konten baru.

Jenis informasi apa yang digunakan untuk mengajari ChatGPT?

Untuk konten internet yang tersedia secara publik, kami hanya menggunakan informasi yang dapat diakses secara bebas dan terbuka di internet. Ini dapat mencakup halaman web yang tersedia untuk umum, forum publik, blog publik, postingan publik, dan konten online lainnya yang tersedia untuk umum. Sebagai contoh, jika Anda berpartisipasi dalam forum diskusi online yang tersedia untuk umum atau memposting blog publik atau postingan lainnya, kami dapat menggunakan konten yang dapat diakses publik tersebut untuk tujuan pelatihan model. Namun, kami mengambil langkah-langkah untuk mengurangi pemrosesan informasi pribadi dalam proses pelatihan kami. Saat mengumpulkan konten internet yang tersedia untuk umum, kami tidak secara sengaja mengumpulkan data dari sumber yang diketahui berbayar atau dari dark web. Selain itu, kami menerapkan filter untuk menghapus materi yang tidak ingin dipelajari oleh model kami, seperti ujaran kebencian, konten dewasa, situs yang mengumpulkan informasi personal, dan spam. Informasi yang tersisa kemudian digunakan untuk melatih model kami.

Pemilik situs web dapat mengelola apakah konten yang tersedia secara publik dari situs mereka boleh diakses untuk digunakan dalam pelatihan dengan menggunakan kontrol web standar seperti robots.txt untuk tidak mengizinkan GPTBot, yang dapat mengakses konten yang tersedia secara publik guna membantu melatih model kami. Kami menyediakan panduan untuk membantu pemilik situs web mengelola cara situs dan konten mereka berinteraksi dengan sistem AI kami.

Kami juga menggunakan informasi dari mitra pihak ketiga untuk membantu melatih dan meningkatkan model kami. Hal ini dapat mencakup informasi dalam kumpulan data yang kami akses melalui perjanjian dengan pihak ketiga, serta informasi yang diberikan atau dihasilkan oleh pelatih manusia dan peneliti jika diizinkan berdasarkan kebijakan dan perjanjian kami. Hal ini membantu meningkatkan kualitas, keamanan, dan kinerja model kami. Sumber ini dapat mencakup teks, gambar, audio, video, atau jenis data lainnya, bergantung pada kumpulan data.

Kami juga semakin banyak menggunakan data sintetis dalam beberapa proses pelatihan. Sebagai contoh, kami dapat menggunakan informasi dan model kami untuk menghasilkan prompt sintetis, contoh multibahasa, atau materi pelatihan lainnya. Data sintetis dapat membantu meningkatkan kinerja model, termasuk dengan melengkapi data pelatihan di area yang datanya terbatas atau tidak seimbang, dan juga dapat mendukung pendekatan pengembangan model yang melindungi privasi.

Apakah informasi pribadi digunakan untuk melatih ChatGPT?

Sebagian besar konten online berisi informasi tentang orang, sehingga data pelatihan kami mungkin secara tidak sengaja mencakup informasi pribadi. Namun, kami mengambil langkah-langkah untuk mengurangi pemrosesan informasi pribadi dalam proses pelatihan kami.

Kami menggunakan data pelatihan untuk mengembangkan kemampuan model—seperti prediksi, penalaran, dan pemecahan masalah—bukan untuk membangun profil individu, menghubungi mereka, atau mempersonalisasi iklan untuk mereka.

Dalam beberapa kasus, model dapat mempelajari dari informasi pribadi untuk memahami bagaimana elemen seperti nama dan alamat berfungsi dalam bahasa, atau untuk mengenali tokoh masyarakat dan entitas terkenal. Ini membantu model buat respons yang lebih akurat dan sesuai dengan konteks.

Bagaimana informasi pribadi dilindungi selama pelatihan?

Kami mengambil langkah-langkah aktif untuk membatasi pemrosesan informasi pribadi selama pelatihan. Sebagai contoh, kami mengecualikan sumber-sumber yang diketahui menghimpun data pribadi dalam jumlah besar, menerapkan pemfilteran untuk mengurangi informasi pribadi dalam proses pelatihan, dan mengambil langkah-langkah untuk mengidentifikasi serta menghapus konten duplikat guna mengurangi risiko pengulangan data pelatihan. Selain itu, kami melatih model kami untuk menghindari menanggapi permintaan informasi pribadi atau sensitif tentang individu.

Berapa lama kami menyimpan informasi

Kami menyimpan informasi dalam data pelatihan hanya selama diperlukan secara wajar untuk tujuan yang dijelaskan dalam artikel ini dan Kebijakan Privasi kami, termasuk untuk mengembangkan dan meningkatkan model kami serta untuk tujuan penelitian ilmiah terkait. Retensi ditinjau secara berkala untuk memastikan bahwa retensi tersebut tetap diperlukan, dan bervariasi tergantung pada jenis informasi serta cara informasi tersebut digunakan. Dalam menentukan retensi, kami mempertimbangkan faktor-faktor seperti tujuan kami memproses informasi, jumlah, sifat, dan sensitivitas informasi, potensi risiko kerugian akibat penggunaan atau pengungkapan tanpa izin, serta kewajiban hukum yang harus kami patuhi.

Bagaimana pengembangan ChatGPT mematuhi undang-undang privasi?

Kami menggunakan informasi pelatihan sesuai dengan ketentuan hukum. Model dasar kami mendukung berbagai aplikasi yang bermanfaat—termasuk alat aksesibilitas, dukungan pelanggan, pengembangan perangkat lunak, pendidikan yang dipersonalisasi, dan penelitian ilmiah. Kemampuan ini bergantung pada data pelatihan skala besar, termasuk informasi yang tersedia secara publik dan informasi dari mitra pihak ketiga. Kami menerapkan langkah perlindungan di sepanjang proses pelatihan, termasuk langkah-langkah yang dirancang untuk mengurangi pemrosesan informasi pribadi dalam proses pelatihan dan untuk memitigasi risiko, sebagaimana dijelaskan dalam artikel ini. Kami mendasarkan pengumpulan dan penggunaan informasi pribadi yang termasuk dalam informasi pelatihan pada kepentingan yang sah berdasarkan undang-undang privasi seperti GDPR, termasuk untuk melatih dan meningkatkan model kami bagi pengguna dan masyarakat luas sejalan dengan misi kami untuk memastikan bahwa kecerdasan umum buatan bermanfaat bagi semua orang, sebagaimana dijelaskan secara lebih terperinci dalam Kebijakan Privasi kami. Kami telah menyelesaikan penilaian dampak perlindungan data untuk membantu memastikan bahwa kami mengumpulkan dan menggunakan informasi ini secara legal dan bertanggung jawab.

Kapan informasi dapat dibagikan atau ditransfer

Kami tidak “menjual” informasi pribadi, dan hanya mengungkapkan informasi pribadi dalam data pelatihan dalam keadaan terbatas yang dijelaskan dalam Kebijakan Privasi kami. Sebagai contoh, kami mungkin akan membagikan informasi dengan afiliasi, vendor, dan penyedia layanan yang mendukung pengembangan, pengujian, dan peningkatan model kami. Kami juga dapat mengungkapkan informasi dengan iktikad baik bahwa tindakan tersebut diperlukan untuk mematuhi kewajiban hukum atau untuk melindungi hak, keselamatan, dan keamanan kami maupun pengguna, karyawan, atau publik, sebagaimana dijelaskan dalam Kebijakan Privasi kami.

Karena infrastruktur kami bersifat global, informasi pribadi dalam data pelatihan dapat diproses di negara-negara di luar EEA, Swiss, atau Inggris Raya (termasuk di Amerika Serikat). Jika hal ini terjadi, kami menerapkan perlindungan yang sesuai, seperti keputusan kecukupan atau klausul kontraktual standar, sebagaimana dijelaskan dalam Kebijakan Privasi.

Hak-hak Anda dan cara menggunakannya

Kami merespons permintaan keberatan dan permintaan hak serupa. Sebagai hasil dari pembelajaran bahasa, respons ChatGPT terkadang dapat menyertakan informasi pribadi tentang individu yang informasi pribadinya muncul beberapa kali di internet publik (contohnya, tokoh publik). Individu di yurisdiksi tertentu dapat mengajukan keberatan terhadap pemrosesan informasi pribadi mereka oleh model kami atau mengajukan permintaan hak subjek data lainnya melalui Portal Privasi kami. Anda juga dapat menggunakan hak-hak ini dengan menghubungi privacy@openai.com.

Untuk membantu kami menilai dan menanggapi permintaan Anda, harap berikan informasi yang cukup agar kami dapat memahami informasi pribadi apa yang terkait dengan permintaan Anda, seperti nama Anda, URL yang relevan, contoh spesifik output model, atau detail lain yang membantu mengidentifikasi masalah tersebut. Dalam beberapa kasus, kami mungkin meminta Anda untuk memverifikasi identitas Anda atau mengonfirmasi bahwa informasi tersebut berkaitan dengan Anda sebelum kami dapat mengambil tindakan. Informasi lebih lanjut tentang cara mengajukan permintaan ini, termasuk praktik terbaik dan cara permintaan ditinjau, tersedia dalam artikel Pusat Bantuan kami tentang penghapusan data pribadi dari ChatGPT. Kami meninjau permintaan sesuai dengan undang-undang privasi yang berlaku dan memberikan respons dalam jangka waktu yang ditetapkan oleh hukum yang berlaku.

Perlu diketahui bahwa, sesuai dengan undang-undang privasi, beberapa hak mungkin tidak bersifat mutlak. Sebagai contoh, kami mungkin tidak dapat memenuhi permintaan jika kami tidak dapat memverifikasi informasi yang relevan, jika permintaan tersebut tidak berkaitan dengan informasi pribadi yang diproses oleh OpenAI, jika terdapat pengecualian yang berlaku, atau jika kami memiliki alasan hukum lainnya untuk tidak memenuhinya. Permintaan dinilai berdasarkan kasus per kasus dan dapat melibatkan penyeimbangan antara hak privasi dengan pertimbangan penting lainnya, seperti kebebasan berekspresi dan kepentingan publik.

Namun, kami berupaya memprioritaskan perlindungan informasi pribadi dan mematuhi semua hukum privasi yang berlaku. Jika Anda merasa kami belum menangani suatu masalah secara memadai, Anda berhak untuk mengajukan pengaduan kepada otoritas pengawas setempat.

Untuk informasi lebih lanjut tentang praktik OpenAI terkait informasi pribadi yang kami kumpulkan dari atau tentang Anda saat Anda menggunakan situs web, aplikasi, dan layanan kami, silakan lihat Kebijakan Privasi kami.

Bagaimana ChatGPT dan model dasar kami dikembangkan

Apa itu ChatGPT dan bagaimana cara kerjanya?

Jenis informasi apa yang digunakan untuk mengajari ChatGPT?

Apakah informasi pribadi digunakan untuk melatih ChatGPT?

Bagaimana pengembangan ChatGPT mematuhi undang-undang privasi?

Apakah artikel ini membantu?