RFT 결제 방식

강화학습 기반 파인 튜닝(RFT)은 강화학습을 통해 OpenAI의 추론 모델 성능을 최적화할 수 있도록 합니다. 훈련 데이터 세트의 토큰 수를 기준으로 결제되는 지도 또는 선호 파인 튜닝과 달리, RFT는 훈련 실행이 핵심 머신 러닝 작업을 수행하는 데 소요되는 시간을 기준으로 결제됩니다.

이 가이드는 청구 대상 훈련 시간의 기준, 일시 중지 및 취소 처리 방식, 그리고 구성 선택이 비용에 미치는 영향을 설명합니다.

가격

연산 비용: o4-mini-2025-04-16의 핵심 학습 루프에서 소비된 실제 경과 시간 기준으로 시간당 $100입니다. 요금은 초 단위로 비례 계산되며 인보이스에는 소수점 둘째 자리까지 반올림되어 표시됩니다(예: 2.55시간).
모델 채점기 사용: 훈련 중 출력 결과를 채점하기 위해 OpenAI 모델을 사용하는 경우, 해당 채점 호출에서 소비된 토큰은 훈련 완료 후 표준 API 요금으로 별도 청구됩니다.

실제로 모델을 업데이트하는 훈련 작업에 대해서만 요금을 청구합니다(이를 캡처된 전방 진행이라고 합니다).

청구 대상 항목

훈련 작업자가 모델을 실제로 훈련하는 데 소요한 시간에 대해 다음과 같은 항목을 기준으로 청구합니다.

파인 튜닝 과정 중 모델에서 샘플을 생성하는 작업(롤아웃).
작업에 정의한 하나 이상의 채점기를 사용해 해당 출력을 평가하는 작업(채점기에 대해 자세히 알아보기).
채점 결과를 기반으로 가중치 업데이트를 계산하고 적용하는 작업(역전파).
설정한 모든 검증(평가) 단계 실행.

대부분의 채점기는 '무료'로 실행되며, 핵심 학습 루프에 기여하는 시간 외에 사용되어도 추가 요금이 부과되지 않습니다. 예외적으로, 모델 채점기의 경우 위 작업 중에 소비한 토큰도 함께 집계됩니다. 이러한 토큰은 인보이스에 별도의 항목으로 표시됩니다. 모델 채점기가 소비한 토큰은 일반 추론 요금(OpenAI 가격)으로 청구됩니다.

청구되지 않는 항목

다음에 소요된 시간은 요금이 부과되지 않습니다.

훈련 시작 전 데이터 세트를 검증하거나 검사하는 시간.
데이터 세트에 대한 안전성 검사.
연산 리소스를 기다리기 위한 대기 시간.
모델 가중치나 데이터 세트를 다운로드하는 시간.
데이터 세트를 훈련 형식으로 준비(렌더링)하는 시간.
파인 튜닝된 모델에 대한 훈련 후 안전성 평가.

당사 측 오류로 인해 훈련 작업이 손실된 경우(예: 작업자가 충돌해 이전 체크포인트로 롤백되는 경우), 손실된 연산 시간이나 채점기 토큰에 대해서는 요금이 부과되지 않습니다. 자세한 내용은 다음 섹션에서 확인하세요.

캡처된 전방 진행과 결제 이벤트

훈련은 모델에 대한 다수의 작은 업데이트로 구성됩니다. 이러한 업데이트 중 성공적으로 완료된 횟수를 추적합니다. 요금은 성공적으로 완료된 업데이트에 해당하는 연산 시간과 채점기 토큰을 기준으로 산정됩니다.

다음과 같은 "결제 이벤트"가 발생하면 요금이 청구됩니다.

훈련이 성공적으로 완료된 경우.
훈련을 일시 중지한 경우.
훈련을 취소한 경우.
훈련이 실패한 경우.

각 요금은 이전 청구 이후 수행된 추가 작업을 포함합니다. 예를 들어 다음과 같습니다.

실행을 일시 중지하면 체크포인트가 저장되며, 이전 청구 이후 사용된 연산 시간과 채점기 토큰에 대해 요금이 부과됩니다.
재개하면 훈련은 해당 체크포인트에서 계속 진행됩니다. 다음 청구(완료, 추가 일시 중지, 취소 또는 실패 시)는 재개 이후 수행된 추가 작업만 포함합니다.
실행을 취소하면 취소 시점까지 수행된 작업에 대해서만 요금이 부과됩니다.
훈련이 실패해 마지막 청구 이후의 작업이 손실된 경우, 손실된 부분에 대해서는 요금이 부과되지 않습니다.

이 "캡처된 전방 진행" 방식은 모델에 유지되었거나 의도적으로 중단한 작업에 대해서만 비용을 지불하도록 보장합니다.

작업 진행 상황 확인

RFT 작업에는 현재 단계까지의 전체 사용량을 기록하는 usage_metrics 필드가 있습니다. 여기에는 학습에 소요된 시간과 작업에 사용된 모든 모델 채점기의 토큰 사용량이 포함됩니다. 이 필드는 API(GET /v1/fine_tuning/jobs/{job_id}) 또는 파인 튜닝 대시보드를 통해 확인할 수 있습니다.

훈련 시간에 영향을 미치는 요소

결제가 시간 기반이므로 설정 선택은 비용에 직접적인 영향을 미칩니다. 주요 요소는 다음과 같습니다.

문제 난이도: 데이터 세트가 어려운 문제로 구성되어 있으면 모델이 각 문제에 대해 더 많은 추론 시간을 소비하게 되어 샘플 생성 시간이 증가합니다.
연산 강도: compute_multiplier 하이퍼파라미터는 훈련 단계당 수행되는 연산량을 제어합니다. 값이 높을수록 모델이 각 데이터 포인트에 대해 더 장황하게 추론하게 되어 각 단계의 실행 속도가 느려집니다.
검증 설정:
- 검증 세트가 클수록 평가에 소요되는 시간이 증가합니다.
- eval_samples(검증 예제당 채점되는 모델 출력 수)를 늘리면 검증 시간이 증가합니다.
- 검증을 더 자주 실행할수록(eval_interval 감소) 검증에 소요되는 시간 비중이 커집니다.
채점기 성능:
- 더 크거나 성능이 높은 모델 채점기는 작은 채점기보다 채점 결과를 반환하는 데 시간이 더 걸립니다. 예를 들어 추론 모델로 채점하면 비추론 모델보다 최대 10배 더 오래 걸릴 수 있습니다.
- 복잡한 Python 채점 함수는 단순한 함수보다 실행 시간이 더 깁니다.

이러한 설정을 통해 비용, 속도, 모델 품질 간의 균형을 조정할 수 있습니다. 예를 들어 잦은 검증은 문제를 조기에 발견할 수 있지만 비용이 증가합니다. 더 고급 모델로 채점하면 정확도는 크게 향상되지만 각 채점 단계가 느려지고 작업 비용이 증가합니다.

비용 관리

지출을 관리하려면 다음을 고려하세요.

설정이 시간에 어떤 영향을 미치는지 이해하기 위해 짧은 실행부터 시작하세요.
적절한 수의 검증 예제와 eval_samples를 사용하세요. 필요 이상으로 자주 검증하지 마세요.
품질 요구 사항을 충족하는 가장 작은 채점기 모델을 선택하세요.
사용자 지정 Python 채점기는 효율적으로 유지하세요.
수렴 속도와 비용의 균형을 맞추기 위해 compute_multiplier를 조정하세요.
대시보드 또는 API를 통해 실행 상황을 모니터링하세요. 언제든지 일시 중지하거나 취소할 수 있습니다.

예시

성공적인 훈련 실행

훈련 시간	청구 시간	상태	설명
00:00	00:00	–	사용자가 API를 통해 RFT 작업을 생성
00:10	00:00	파일 검증 중	데이터 세트 검증에 10분 소요
00:30	00:00	파일 검증 중	데이터 세트 안전성 검사에 20분 소요
01:00	00:00	대기 중	사용 가능한 작업자를 기다리는 데 30분 소요
01:30	00:00	실행 중	훈련 설정(가중치 다운로드, 전처리 등)에 30분 소요
05:30	04:00	실행 중	훈련에 4시간 소요
06:00	04:00	실행 중	결과 모델에 대한 안전성 평가에 30분 소요
06:00	04:00	성공	훈련 완료

이 경우 전체 실제 경과 시간은 6시간이지만, 청구 대상은 4시간뿐입니다. 비용은 4시간 × $100/시간 = $400입니다.

실패한 작업의 예시

이 예시에서는 2시간 훈련 후 체크포인트를 기록하고, 추가로 1시간 더 훈련한 뒤 실패합니다. 체크포인트까지의 2시간 훈련만 청구 대상입니다.

훈련 시간	청구 시간	상태	설명
00:00	00:00	–	사용자가 API를 통해 RFT 작업을 생성
00:10	00:00	파일 검증 중	데이터 세트 검증에 10분 소요
00:30	00:00	파일 검증 중	데이터 세트 안전성 검사에 20분 소요
01:00	00:00	대기 중	사용 가능한 작업자를 기다리는 데 30분 소요
01:30	00:00	실행 중	훈련 설정(가중치 다운로드, 전처리 등)에 30분 소요
03:30	02:00	실행 중	훈련에 2시간 소요
03:30	02:00	실행 중	5단계에서 체크포인트 생성
04:30	02:00	실행 중	1시간 추가 훈련 후 8단계에서 내부 오류로 훈련 실패
04:30	02:00	실행 중	체크포인트 평가 및 검증에 30분 소요
04:30	02:00	성공	작업 종료(최신 체크포인트 유지)

총 3시간이 훈련에 소요되었지만, 사용 가능한 체크포인트에 "캡처된" 2시간만 청구됩니다. 실패로 인해 손실된 1시간의 훈련 작업은 책임이 아닙니다. 비용은 2시간 × $100/시간 = $200입니다.

자주 묻는 질문

언제 요금이 청구되나요?

실행이 완료되거나, 일시 중지되거나, 취소되거나, 실패할 때 요금이 청구됩니다. 각 청구서는 이전 청구 이후 수행된 작업을 포함합니다.

실행이 실패해도 비용을 지불하나요?

당사 오류로 실행이 실패하고 최근 훈련 작업이 손실된 경우, 손실된 부분에 대해서는 요금이 부과되지 않습니다. 실행을 취소하면 취소 시점까지의 작업에 대해서만 요금이 부과됩니다.

채점기 모델 토큰은 어떻게 청구되나요?

설정한 모든 모델 채점기가 사용한 토큰을 집계합니다. 훈련이 종료된 후 해당 토큰을 표준 토큰당 요금으로 청구합니다.

실행을 일시 중지했다가 다시 시작할 수 있나요?

네. 일시 중지하면 체크포인트가 저장되며, 현재까지 수행된 작업에 대해 요금이 청구됩니다. 재개 후에는 추가로 수행된 작업에 대해서만 요금이 청구됩니다.

강화 미세 조정 결제에 대해 추가 질문이 있다면 지원팀에 문의하세요.

강화 파인 튜닝 API 결제 가이드