Cara kerja penagihan untuk RFT

Reinforcement Fine‑Tuning (RFT) memungkinkan Anda mengoptimalkan kinerja model penalaran OpenAI menggunakan reinforcement learning. Berbeda dengan penawaran penyempurnaan dengan pengawasan atau preferensi kami, yang ditagih berdasarkan jumlah token dalam kumpulan data pelatihan, RFT ditagih berdasarkan waktu yang dihabiskan dalam mengeksekusi pelatihan Anda untuk melakukan pekerjaan inti machine learning.

Panduan ini menjelaskan apa yang termasuk dalam waktu pelatihan yang dapat ditagih, bagaimana kami menangani jeda dan pembatalan, dan bagaimana pilihan konfigurasi Anda dapat memengaruhi biaya.

Harga

Komputasi: $100 per jam waktu nyata yang dihabiskan dalam loop pelatihan inti untuk o4-mini-2025-04-16. Biaya dihitung secara prorata hingga detik dan dibulatkan ke dua tempat desimal pada faktur (misalnya, 2,55 jam).
Penggunaan model penilai: Jika Anda menggunakan model OpenAI untuk "menilai" keluaran selama pelatihan, token yang dikonsumsi oleh panggilan penilaian tersebut akan ditagih secara terpisah dengan tarif API standar kami setelah pelatihan selesai.

Kami hanya mengenakan biaya untuk pekerjaan pelatihan yang benar-benar memperbarui model Anda (yang kami sebut "kemajuan maju yang tercatat").

Apa yang kami tagihkan

Kami menagih untuk waktu yang dihabiskan oleh pekerja pelatihan Anda secara aktif melatih model Anda, secara khusus:

Membuat sampel dari model Anda selama proses penyempurnaan (dikenal sebagai "rollout")
Mengevaluasi keluaran tersebut dengan satu atau lebih pemeringkat yang telah Anda tentukan pada pekerjaan (pelajari lebih lanjut tentang pemeringkat)
Menghitung dan menerapkan pembaruan bobot berdasarkan nilai (backpropagation).
Menjalankan langkah-langkah validasi (evaluasi) yang telah Anda konfigurasikan.

Sebagian besar pemeringkat dapat dijalankan secara "gratis," yang berarti kami tidak mengenakan biaya tambahan untuk penggunaannya di luar waktu yang mereka sumbangkan untuk siklus pelatihan inti. Pengecualian untuk ini adalah pada pemeringkat model, di mana kami juga menghitung token yang dikonsumsi oleh pemeringkat tersebut selama aktivitas di atas. Token-token ini muncul sebagai item baris terpisah pada faktur Anda. Token yang dikonsumsi oleh penilai model ditagih dengan tarif inferensi normal (OpenAI pricing).

Apa yang TIDAK kami tagihkan

Kami tidak mengenakan biaya untuk waktu yang dihabiskan:

Memvalidasi atau memeriksa kumpulan data Anda sebelum pelatihan dimulai.
Pemeriksaan keamanan pada kumpulan data Anda.
Menunggu dalam antrean untuk sumber daya komputasi.
Mengunduh bobot model atau kumpulan data.
Menyiapkan (rendering) kumpulan data Anda ke dalam format pelatihan kami.
Evaluasi keselamatan pasca-pelatihan dari model yang telah disetel dengan baik.

Jika pekerjaan pelatihan hilang karena kesalahan di pihak kami (misalnya, jika pekerja mengalami kerusakan dan harus kembali ke titik pemeriksaan sebelumnya), Anda tidak akan dikenakan biaya untuk waktu komputasi yang hilang atau token penilai. Informasi lebih lanjut tentang ini ada di bagian selanjutnya.

Merekam kemajuan dan kejadian penagihan

Pelatihan terdiri dari banyak pembaruan kecil pada model Anda. Kami melacak banyaknya pembaruan ini yang berhasil diselesaikan dengan sukses. Biaya didasarkan pada waktu komputasi dan token penilai yang terkait dengan pembaruan yang berhasil ini.

Kami mengenakan biaya ketika salah satu "kejadian penagihan" berikut terjadi:

Pelatihan berhasil diselesaikan.
Anda menghentikan pelatihan.
Anda membatalkan pelatihan.
Pelatihan gagal.

Setiap biaya mencakup pekerjaan bertahap yang dilakukan sejak biaya terakhir. Sebagai contoh:

Jika Anda menghentikan sementara sebuah proses, kami akan menyimpan sebuah checkpoint dan mengenakan biaya untuk waktu komputasi dan token penilai yang digunakan sejak biaya terakhir.
Ketika Anda melanjutkan, pelatihan akan dilanjutkan dari titik pemeriksaan. Biaya selanjutnya (pada penyelesaian, jeda lain, pembatalan, atau kegagalan) hanya akan mencakup pekerjaan tambahan yang dilakukan setelah dilanjutkan.
Jika Anda membatalkan sebuah proses, kami akan menagih Anda untuk pekerjaan yang telah dilakukan hingga pembatalan.
Jika pelatihan gagal dan pekerjaan sejak penagihan terakhir hilang, Anda tidak akan dikenakan biaya untuk bagian yang hilang.

Pendekatan "kemajuan yang ditangkap" ini memastikan Anda hanya membayar untuk pekerjaan yang dipertahankan dalam model Anda atau yang sengaja Anda tinggalkan.

Melihat kemajuan pekerjaan

Pekerjaan RFT memiliki bidang yang disebut usage_metrics yang mendokumentasikan total penggunaan pekerjaan hingga langkah saat ini. Ini mencakup waktu yang dihabiskan untuk pelatihan, serta semua token yang digunakan di semua pemeringkat model selama pekerjaan. Bidang ini dapat diperiksa melalui API (GET /v1/fine_tuning/jobs/{job_id}) atau melalui dasbor penyempurnaan.

Faktor-faktor yang mempengaruhi waktu pelatihan

Karena penagihan berbasis waktu, pilihan konfigurasi Anda secara langsung memengaruhi biaya. Faktor kunci meliputi:

Kesulitan masalah: jika kumpulan data Anda terdiri dari masalah yang sulit, model kemungkinan besar akan menghabiskan lebih banyak waktu untuk menalar setiap masalah, yang meningkatkan jumlah waktu yang diperlukan untuk menghasilkan setiap sampel.
Intensitas komputasi: Hiperparameter compute_multiplier mengontrol seberapa banyak komputasi yang Anda lakukan per langkah pelatihan. Nilai yang lebih tinggi mendorong model untuk melakukan nalar lebih terrinci pada setiap titik data, yang menyebabkan setiap langkah berjalan lebih lambat.
Pengaturan Validasi:
- Kumpulan validasi yang lebih besar meningkatkan waktu yang dihabiskan untuk evaluasi.
- Meningkatkan eval_samples (jumlah keluaran model yang dinilai per contoh validasi) akan meningkatkan waktu validasi.
- Menjalankan validasi lebih sering (menurunkan eval_interval) meningkatkan proporsi waktu yang dihabiskan untuk validasi.
Kinerja pemeringkat:
- Penilai model yang lebih besar atau lebih canggih memerlukan waktu lebih lama untuk mengembalikan nilai dibandingkan dengan yang lebih kecil. Sebagai contoh, penilaian dengan model penalaran mungkin memakan waktu 10 kali lebih lama dibandingkan dengan penilaian menggunakan model non-penalaran.
- Fungsi penilaian Python yang kompleks memerlukan waktu lebih lama untuk diproses dibandingkan dengan fungsi yang sederhana.

Pengaturan ini memungkinkan Anda menyeimbangkan biaya, kecepatan, dan kualitas model. Misalnya, validasi yang sering dapat mendeteksi masalah lebih awal, tetapi meningkatkan biaya. Penggunaan model yang lebih canggih dapat secara drastis meningkatkan akurasi penilaian, tetapi akan memperlambat setiap langkah penilaian dan membuat pekerjaan lebih mahal.

Mengelola biaya

Untuk mengontrol pengeluaran Anda:

Mulailah dengan proses yang lebih pendek untuk memahami cara konfigurasi Anda memengaruhi waktu.
Gunakan jumlah yang wajar dari contoh validasi dan eval_samples. Hindari memvalidasi lebih sering daripada yang Anda perlukan.
Pilih model penilai terkecil yang memenuhi persyaratan kualitas Anda.
Pastikan pemeringkat kustom Python tetap efisien.
Sesuaikan compute_multiplier untuk menyeimbangkan kecepatan konvergensi dan biaya.
Pantau proses Anda di dasbor atau melalui API. Anda dapat menjeda atau membatalkan kapan saja.

Contoh

Proses pelatihan yang berhasil

Waktu Pelatihan	Waktu Penagihan	Status	Deskripsi
00.00	00.00	–	Pengguna membuat pekerjaan RFT melalui API
00.10	00.00	MEMVALIDASI FILE	10 menit dihabiskan untuk memvalidasi kumpulan data
00.30	00.00	MEMVALIDASI FILE	20 menit menjalankan pemeriksaan keamanan kumpulan data
01.00	00.00	DALAM ANTRIAN	30 menit menunggu pekerja yang tersedia
01.30	00.00	MEMPROSES	30 menit menyiapkan pelatihan (mengunduh bobot, prapemrosesan, dll.)
05.30	04.00	MEMPROSES	4 jam dihabiskan untuk pelatihan
06.00	04.00	MEMPROSES	30 menit menjalankan evaluasi keamanan pada model yang dihasilkan
06.00	04.00	BERHASIL	Pelatihan berakhir

Dalam hal ini, total waktu yang tercatat adalah 6 jam, tetapi hanya 4 jam yang dapat ditagih. Biayanya adalah 4 jam × $100/jam = $400.

Contoh pekerjaan yang gagal

Dalam contoh ini, proses pelatihan berlangsung selama 2 jam, menulis sebuah titik pemeriksaan, melanjutkan pelatihan selama 1 jam lagi, tetapi kemudian gagal. Hanya 2 jam pelatihan hingga titik pemeriksaan yang dapat ditagihkan.

Waktu Pelatihan	Waktu Penagihan	Status	Deskripsi
00.00	00.00	–	Pengguna membuat pekerjaan RFT melalui API
00.10	00.00	MEMVALIDASI FILE	10 menit dihabiskan untuk memvalidasi kumpulan data
00.30	00.00	MEMVALIDASI FILE	20 menit menjalankan pemeriksaan keamanan kumpulan data
01.00	00.00	DALAM ANTRIAN	30 menit menunggu pekerja yang tersedia
01.30	00.00	MEMPROSES	30 menit menyiapkan pelatihan (mengunduh bobot, prapemrosesan, dll.)
03.30	02.00	MEMPROSES	2 jam untuk pelatihan
03.30	02.00	MEMPROSES	Titik pemeriksaan yang dibuat pada langkah ke-5
04.30	02.00	MEMPROSES	Pelatihan gagal karena kesalahan internal pada langkah 8 (setelah 1 jam lagi)
04.30	02.00	MEMPROSES	30 menit mengevaluasi dan memvalidasi titik pemeriksaan
04.30	02.00	BERHASIL	Pekerjaan selesai (dengan titik pemeriksaan terbaru)

Meskipun 3 jam dihabiskan untuk pelatihan secara total, hanya 2 jam yang "tercatat" dalam titik pemeriksaan yang dapat digunakan dan ditagihkan. Jam kerja pelatihan yang hilang akibat kegagalan bukanlah tanggung jawab Anda. Biayanya adalah 2 jam × $100/jam = $200.

Pertanyaan umum

Kapan saya dikenakan biaya?

Kami menagih ketika proses Anda selesai, dijeda, dibatalkan, atau gagal. Setiap tagihan mencakup pekerjaan yang telah dilakukan sejak tagihan sebelumnya.

Apakah saya harus membayar jika sebuah proses gagal?

Jika sebuah proses gagal karena kesalahan kami dan pekerjaan pelatihan terbaru hilang, Anda tidak akan dikenakan biaya untuk bagian yang hilang tersebut. Jika Anda membatalkan sebuah proses, Anda akan dikenakan biaya untuk pekerjaan hingga saat pembatalan.

Bagaimana token model penilai dikenakan biaya?

Kami menghitung token yang digunakan oleh pemeringkat model apa pun yang Anda konfigurasikan. Setelah pelatihan selesai, kami menagih token-token tersebut dengan tarif per token standar kami.

Dapatkah saya menjeda dan melanjutkan sebuah proses?

Ya. Ketika Anda berhenti sejenak, kami simpan titik pemeriksaan dan membebankan biaya untuk pekerjaan yang telah diselesaikan sejauh ini. Ketika Anda melanjutkan, Anda hanya akan dikenakan biaya untuk pekerjaan tambahan yang dilakukan setelah Anda melanjutkan.

Jika Anda memiliki pertanyaan lain tentang penagihan Penyempurnaan Penguatan, hubungi tim dukungan kami.

Panduan penagihan untuk API Penyempurnaan Penguatan