OpenAI

Bagaimana ChatGPT dan model dasar kami dikembangkan

Pelajari lebih lanjut tentang bagaimana kami mengembangkan model-model kami dan menerapkannya dalam produk seperti ChatGPT

Diperbarui: 4 days ago
Catatan
: Retensi data untuk layanan tertentu mungkin terpengaruh oleh perkembangan hukum terbaru – silakan lihat

posting blog
kami untuk informasi lebih lanjut.

Model dasar OpenAI, termasuk model yang mendukung ChatGPT, dikembangkan menggunakan tiga sumber informasi utama: (1) informasi yang tersedia secara publik di internet, (2) informasi yang kami akses melalui kemitraan dengan pihak ketiga, dan (3) informasi yang disediakan atau dibuat oleh pengguna, pelatih manusia, dan peneliti kami.

Artikel ini memberikan Ringkasan tentang informasi yang tersedia untuk umum yang kami gunakan untuk membantu mengembangkan model-model ini dan bagaimana kami mengumpulkan serta menggunakan informasi tersebut sesuai dengan undang-undang privasi. Untuk memahami bagaimana kami mengumpulkan dan menggunakan informasi dari pengguna layanan kami, termasuk cara memilih untuk tidak menyertakan percakapan ChatGPT yang digunakan untuk membantu melatih model kami, silakan lihat Kebijakan Privasi kami dan artikel pusat bantuan ini.

Apa itu ChatGPT dan bagaimana cara kerjanya?

ChatGPT adalah layanan berbasis kecerdasan buatan yang dapat Anda akses melalui internet. Anda dapat menggunakan ChatGPT untuk berbagai tugas, termasuk mengatur dan meringkas informasi, membantu penerjemahan, menganalisis atau buat gambar, menginspirasi kreativitas dan ide, serta kegiatan sehari-hari lainnya. ChatGPT dirancang untuk memahami dan menanggapi pertanyaan serta instruksi pengguna dengan mempelajari pola dari sejumlah besar informasi, termasuk teks, gambar, audio, dan video. Selama pelatihan, model menganalisis hubungan dalam data ini—seperti bagaimana kata-kata biasanya muncul bersama dalam konteks—dan menggunakan pemahaman tersebut untuk memprediksi kata selanjutnya yang paling mungkin saat buat respons, satu kata pada satu waktu. Demikian pula, model yang buat bentuk konten lain, seperti gambar, mempelajari pola bagaimana piksel saling berhubungan satu sama lain dan dengan keterangan terkait dalam data pelatihan.

Misalnya, selama proses pembelajaran model (dikenal sebagai “pelatihan”), model mungkin diberi tugas untuk melengkapi kalimat seperti: “Alih-alih berbelok ke kiri, dia berbelok ke ___.” Pada tahap awal pelatihan, responsnya sebagian besar acak. Namun, seiring model memproses dan belajar dari sejumlah besar teks, model menjadi lebih baik dalam mengenali pola dan memprediksi kata selanjutnya yang paling mungkin. Proses ini diulangi pada jutaan kalimat untuk menyempurnakan pemahamannya dan meningkatkan keakuratannya.

Karena ada beberapa cara yang masuk akal untuk menyelesaikan sebuah kalimat—seperti "Alih-alih berbelok ke kiri, dia berbelok ke kanan," "berputar," atau "kembali"—terdapat unsur keacakan dalam cara model merespons. Akibatnya, pertanyaan yang sama dapat menghasilkan jawaban yang berbeda pada kueri yang berbeda.

Model pembelajaran mesin terdiri dari kumpulan besar angka, yang dikenal sebagai "bobot" atau "parameter," bersama dengan kode yang menafsirkan dan menggunakan angka-angka tersebut. Model-model ini tidak menyimpan atau menyimpan salinan data yang digunakan untuk melatih mereka. Sebaliknya, saat sebuah model belajar, nilai parameternya sedikit disesuaikan untuk mencerminkan pola yang telah diidentifikasi. Dalam contoh sebelumnya, model meningkat dari memprediksi kata-kata acak menjadi membuat prediksi yang lebih akurat—bukan dengan menyimpan kalimat pelatihan, tetapi dengan memperbarui parameter internalnya. Model tidak menyimpan salinan kalimat, gambar, atau audio yang diprosesnya selama pelatihan. ChatGPT tidak "menyalin dan menempel" dari data pelatihan—mirip dengan bagaimana seorang guru, setelah belajar secara mendalam, dapat menjelaskan konsep dengan memahami hubungan antara ide-ide tanpa menghafal atau mereproduksi materi asli secara kata demi kata. Ketika membuat respons terhadap permintaan pengguna, model menggunakan bobot yang dipelajari ini untuk memprediksi dan membuat konten baru.

Jenis informasi publik apa yang digunakan untuk mengajari ChatGPT?

Untuk konten internet yang tersedia untuk umum, kami hanya menggunakan informasi yang dapat diakses secara bebas dan terbuka di internet. Kami tidak dengan sengaja mengumpulkan data dari sumber yang diketahui berada di balik paywall atau dari web gelap. Selain itu, kami menerapkan filter untuk menghapus materi yang tidak kami inginkan dipelajari oleh model kami, seperti ujaran kebencian, konten dewasa, situs yang mengumpulkan informasi pribadi, dan spam. Informasi yang tersisa kemudian digunakan untuk melatih model-model kami.

Apakah informasi pribadi digunakan untuk melatih ChatGPT?

Sebagian besar konten online melibatkan informasi tentang orang, sehingga data pelatihan kami mungkin secara tidak sengaja menyertakan informasi pribadi. Namun, kami tidak dengan sengaja mengumpulkan informasi pribadi untuk tujuan pelatihan model kami.

Kami menggunakan data pelatihan untuk mengembangkan kemampuan model—seperti prediksi, penalaran, dan pemecahan masalah—bukan untuk membangun profil pengguna, menghubungi individu, atau sebagai bagian dari upaya iklan atau pemasaran kami.

Dalam beberapa kasus, model dapat mempelajari dari informasi pribadi untuk memahami bagaimana elemen seperti nama dan alamat berfungsi dalam bahasa, atau untuk mengenali tokoh masyarakat dan entitas terkenal. Ini membantu model buat respons yang lebih akurat dan sesuai dengan konteks.

Kami mengambil langkah-langkah aktif untuk membatasi pemrosesan informasi pribadi selama pelatihan. Misalnya, kami mengecualikan sumber yang mengumpulkan sejumlah besar data pribadi, dan kami melatih model-model kami untuk menghindari merespons permintaan informasi pribadi atau sensitif tentang individu.

Bagaimana pengembangan ChatGPT mematuhi undang-undang privasi?

Kami menggunakan informasi pelatihan secara sah. Model dasar kami mendukung berbagai aplikasi yang bermanfaat—mulai dari pembuatan konten dan dukungan pelanggan hingga pengembangan perangkat lunak, pendidikan yang dipersonalisasi, dan penelitian ilmiah. Kemampuan ini bergantung pada data pelatihan skala besar. Informasi yang digunakan untuk melatih model kami tersedia untuk umum dan tidak dimaksudkan untuk membahayakan individu. Kami mendasarkan pengumpulan dan penggunaan informasi pribadi yang termasuk dalam informasi pelatihan pada kepentingan sah berdasarkan undang-undang privasi seperti GDPR, sebagaimana dijelaskan lebih rinci dalam Kebijakan Privasi kami. Kami telah menyelesaikan penilaian dampak perlindungan data untuk membantu memastikan bahwa kami mengumpulkan dan menggunakan informasi ini secara sah dan bertanggung jawab.

Kami menanggapi permintaan keberatan dan hak-hak serupa. Sebagai hasil dari pembelajaran bahasa, respons ChatGPT kadang-kadang dapat menyertakan informasi pribadi tentang individu yang informasi pribadinya muncul beberapa kali di internet publik (misalnya, tokoh masyarakat). Individu di yurisdiksi tertentu dapat menolak pemrosesan informasi pribadi mereka oleh model kami atau mengajukan permintaan hak subjek data lainnya melalui Privacy Portal kami. Anda juga dapat menggunakan hak-hak ini dengan menghubungi dsar@openai.com.

Harap perhatikan bahwa, sesuai dengan undang-undang privasi, beberapa hak mungkin tidak bersifat mutlak. Kami dapat menolak permintaan jika kami memiliki nalar hukum untuk melakukannya. Namun, kami berusaha memprioritaskan perlindungan informasi pribadi dan mematuhi semua undang-undang privasi yang berlaku. Jika Anda merasa bahwa kami belum menangani suatu masalah dengan memadai, Anda berhak mengajukan keluhan kepada otoritas pengawas setempat Anda.

Untuk informasi lebih lanjut tentang praktik OpenAI terkait informasi pribadi yang kami kumpulkan dari atau tentang Anda saat Anda menggunakan situs web, aplikasi, dan layanan kami, silakan lihat Kebijakan Privasi.

Apakah artikel ini membantu?