Cómo funciona la facturación de RFT

El ajuste fino por refuerzo (RFT) te permite optimizar el rendimiento de los modelos de razonamiento de OpenAI mediante aprendizaje por refuerzo. A diferencia de nuestras opciones de ajuste fino supervisado o de preferencias, que se facturan según el número de tokens del conjunto de datos de entrenamiento, RFT se factura en función del tiempo que tu ejecución de entrenamiento dedica a realizar el trabajo principal de aprendizaje automático.

Esta guía explica qué cuenta como tiempo de entrenamiento facturable, cómo gestionamos las pausas y cancelaciones, y cómo tus opciones de configuración pueden afectar al coste.

Precios

Computación: $100 por hora de tiempo real dedicado al ciclo principal de entrenamiento para o4-mini-2025-04-16. Los cargos se prorratean por segundo y se redondean a dos decimales en la factura (p. ej., 2,55 horas).
Uso de modelos evaluadores: si usas un modelo de OpenAI para «evaluar» salidas durante el entrenamiento, los tokens consumidos por esas llamadas de evaluación se facturan por separado a nuestras tarifas estándar de API una vez finalizado el entrenamiento.

Solo cobramos por el trabajo de entrenamiento que realmente actualiza tu modelo (lo que llamamos «progreso efectivo capturado»).

Qué facturamos

Facturamos el tiempo que tu trabajador de entrenamiento dedica a entrenar activamente tu modelo, en concreto:

Generar muestras de tu modelo durante el proceso de ajuste fino (conocidas como «rollouts»)
Evaluar esas salidas con uno o varios evaluadores que hayas definido en el trabajo (más información sobre evaluadores)
Calcular y aplicar actualizaciones de pesos en función de las calificaciones (retropropagación).
Ejecutar los pasos de validación (evaluación) que hayas configurado.

La mayoría de los evaluadores son «gratuitos» de ejecutar, lo que significa que no cobramos un cargo adicional por su uso más allá del tiempo que aportan al bucle principal de entrenamiento. La excepción son los evaluadores de modelo, en los que también contabilizamos los tokens que consumen durante las actividades anteriores. Estos tokens aparecen como una partida independiente en tu factura. Los tokens consumidos por evaluadores de modelo se facturan a las tarifas normales de inferencia (precios de OpenAI).

Qué NO facturamos

No cobramos por el tiempo dedicado a:

Validar o inspeccionar tu conjunto de datos antes de que empiece el entrenamiento.
Comprobaciones de seguridad de tu conjunto de datos.
Esperar en una cola a recursos de computación.
Descargar pesos del modelo o conjuntos de datos.
Preparar (procesar) tu conjunto de datos en nuestro formato de entrenamiento.
Evaluaciones de seguridad posteriores al entrenamiento de tu modelo ajustado.

Si se pierde trabajo de entrenamiento debido a un error por nuestra parte (por ejemplo, si un worker se bloquea y tiene que volver a un checkpoint anterior), no se te cobra el tiempo de computación ni los tokens de los evaluadores perdidos. Encontrarás más detalles en la siguiente sección.

Progreso efectivo capturado y eventos de facturación

El entrenamiento consta de muchas pequeñas actualizaciones de tu modelo. Hacemos un seguimiento de cuántas de estas actualizaciones se completan correctamente. Los cargos se basan en el tiempo de computación y en los tokens de los evaluadores asociados a estas actualizaciones exitosas.

Emitimos un cargo cuando se produce uno de los siguientes «eventos de facturación»:

El entrenamiento se completa correctamente.
Pausas el entrenamiento.
Cancelas el entrenamiento.
El entrenamiento falla.

Cada cargo cubre el trabajo incremental realizado desde el último cargo. Por ejemplo:

Si pausas una ejecución, guardamos un checkpoint y te cobramos el tiempo de computación y los tokens de los evaluadores usados desde el último cargo.
Cuando reanudas, el entrenamiento continúa desde el checkpoint. El siguiente cargo (al completarse, en otra pausa, cancelación o fallo) cubrirá solo el trabajo adicional realizado tras la reanudación.
Si cancelas una ejecución, te cobramos el trabajo realizado hasta la cancelación.
Si el entrenamiento falla y se pierde el trabajo realizado desde el último cargo, no se te factura la parte perdida.

Este enfoque de «progreso efectivo capturado» garantiza que solo pagues por el trabajo que se conserva en tu modelo o que abandonas de forma intencionada.

Ver el progreso del trabajo

Los trabajos de RFT tienen un campo llamado usage_metrics que documenta el uso total del trabajo hasta el paso actual. Esto incluye el tiempo dedicado al entrenamiento y todos los tokens usados en todos los evaluadores de modelo del trabajo. Este campo se puede inspeccionar mediante la API (GET /v1/fine_tuning/jobs/{job_id}) o mediante el panel de ajuste fino.

Factores que influyen en el tiempo de entrenamiento

Dado que la facturación se basa en el tiempo, tus opciones de configuración afectan directamente al coste. Entre los factores clave se incluyen:

Dificultad del problema: si tu conjunto de datos consta de problemas difíciles, es probable que el modelo dedique más tiempo al razonamiento de cada problema, lo que aumenta el tiempo necesario para producir cada muestra.
Intensidad de cálculo: el hiperparámetro compute_multiplier controla cuánta computación realizas por paso de entrenamiento. Los valores más altos hacen que el modelo razone de forma más extensa sobre cada dato, lo que provoca que cada paso se ejecute más lentamente.
Configuración de validación:
- Un conjunto de validación más grande aumenta el tiempo dedicado a la evaluación.
- Aumentar eval_samples (el número de salidas del modelo evaluadas por ejemplo de validación) incrementa el tiempo de validación.
- Ejecutar la validación con más frecuencia (un eval_interval menor) aumenta la proporción de tiempo dedicada a la validación.
Rendimiento de los evaluadores:
- Los modelos evaluadores más grandes o más capaces tardan más en devolver una calificación que los más pequeños. Por ejemplo, evaluar con un modelo de razonamiento puede tardar 10 veces más que evaluar con un modelo que no sea de razonamiento.
- Las funciones complejas de evaluación en Python tardan más en ejecutarse que las simples.

Estos ajustes te permiten equilibrar coste, velocidad y calidad del modelo. Por ejemplo, una validación frecuente puede detectar problemas antes, pero aumenta el coste. Evaluar con un modelo más avanzado puede mejorar drásticamente la precisión de la evaluación, pero ralentizará cada paso de evaluación y hará que los trabajos sean más caros.

Gestión del coste

Para controlar tu gasto:

Empieza con ejecuciones más cortas para entender cómo tu configuración afecta al tiempo.
Usa un número razonable de ejemplos de validación y eval_samples. Evita validar con más frecuencia de la necesaria.
Elige el modelo evaluador más pequeño que cumpla tus requisitos de calidad.
Mantén eficientes los evaluadores personalizados en Python.
Ajusta compute_multiplier para equilibrar la velocidad de convergencia y el coste.
Supervisa tu ejecución en el panel o mediante la API. Puedes pausarla o cancelarla en cualquier momento.

Ejemplos

Ejecución de entrenamiento correcta

Tiempo de entrenamiento	Tiempo facturado	Estado	Descripción
00:00	00:00	–	El usuario crea un trabajo de RFT mediante la API
00:10	00:00	VALIDATING_FILES	10 minutos dedicados a validar el conjunto de datos
00:30	00:00	VALIDATING_FILES	20 minutos ejecutando comprobaciones de seguridad del conjunto de datos
01:00	00:00	QUEUED	30 minutos esperando a un trabajador disponible
01:30	00:00	RUNNING	30 minutos configurando el entrenamiento (descargando pesos, preprocesando, etc.)
05:30	04:00	RUNNING	4 horas dedicadas al entrenamiento
06:00	04:00	RUNNING	30 minutos ejecutando evaluaciones de seguridad del modelo resultante
06:00	04:00	SUCCEEDED	El entrenamiento finaliza

En este caso, el tiempo real total es de 6 horas, pero solo 4 horas son facturables. El coste sería de 4 horas × 100 $/hora = 400 $.

Ejemplo de trabajo fallido

En este ejemplo, la ejecución entrena durante 2 horas, escribe un punto de control, entrena durante 1 hora más, pero luego falla. Solo son facturables las 2 horas de entrenamiento hasta el punto de control.

Tiempo de entrenamiento	Tiempo facturado	Estado	Descripción
00:00	00:00	–	El usuario crea un trabajo de RFT mediante la API
00:10	00:00	VALIDATING_FILES	10 minutos dedicados a validar el conjunto de datos
00:30	00:00	VALIDATING_FILES	20 minutos ejecutando comprobaciones de seguridad del conjunto de datos
01:00	00:00	QUEUED	30 minutos esperando a un trabajador disponible
01:30	00:00	RUNNING	30 minutos configurando el entrenamiento (descargando pesos, preprocesando, etc.)
03:30	02:00	RUNNING	2 horas dedicadas al entrenamiento
03:30	02:00	RUNNING	Punto de control creado en el paso 5
04:30	02:00	RUNNING	El entrenamiento falla por un error interno en el paso 8 (después de 1 hora más)
04:30	02:00	RUNNING	30 minutos evaluando y validando el punto de control
04:30	02:00	SUCCEEDED	El trabajo finaliza (con el último punto de control)

Aunque se dedicaron 3 horas al entrenamiento en total, solo 2 horas quedan «capturadas» en un punto de control utilizable y se facturan. La hora de trabajo de entrenamiento perdida debido al fallo no es tu responsabilidad. El coste sería de 2 horas × 100 $/hora = 200 $.

Preguntas frecuentes

¿Cuándo se me cobra?

Facturamos cuando tu ejecución se completa, se pausa, se cancela o falla. Cada factura cubre el trabajo realizado desde la factura anterior.

¿Pago si una ejecución falla?

Si una ejecución falla por un error nuestro y se pierde trabajo de entrenamiento reciente, no se te cobra la parte perdida. Si cancelas una ejecución, se te cobra el trabajo realizado hasta la cancelación.

¿Cómo se facturan los tokens de los modelos evaluadores?

Contamos los tokens usados por cualquier evaluador de modelo que configures. Cuando finaliza el entrenamiento, facturamos esos tokens a nuestras tarifas estándar por token.

¿Puedo pausar y reanudar una ejecución?

Sí. Cuando pausas, guardamos un punto de control y cobramos el trabajo realizado hasta ese momento. Cuando reanudes, solo se te cobrará el trabajo adicional realizado después de la reanudación.

Si tienes otras preguntas sobre la facturación de Reinforcement Fine‑Tuning, contacta con nuestro equipo de soporte.

Guía de facturación de la API de ajuste fino por refuerzo