Cómo funciona la facturación de RFT
El ajuste fino por refuerzo (RFT) te permite optimizar el rendimiento de los modelos de razonamiento de OpenAI mediante aprendizaje por refuerzo. A diferencia de nuestras opciones de ajuste fino supervisado o por preferencias, que se facturan por el número de tokens del conjunto de datos de entrenamiento, RFT se factura en función del tiempo que tu ejecución de entrenamiento dedica al trabajo principal de aprendizaje automático.
Esta guía explica qué cuenta como tiempo de entrenamiento facturable, cómo gestionamos las pausas y cancelaciones, y cómo tus opciones de configuración pueden afectar al coste.
Precios
Computación: $100 por hora de tiempo real dedicado al ciclo principal de entrenamiento para
o4-mini-2025-04-16. Los cargos se prorratean por segundo y se redondean a dos decimales en la factura (p. ej., 2,55 horas).Uso de modelos evaluadores: si usas un modelo de OpenAI para «evaluar» salidas durante el entrenamiento, los tokens consumidos por esas llamadas de evaluación se facturan por separado a nuestras tarifas estándar de API una vez finalizado el entrenamiento.
Solo cobramos por el trabajo de entrenamiento que realmente actualiza tu modelo (lo que llamamos «progreso efectivo capturado»).
Qué facturamos
Facturamos el tiempo que tu worker de entrenamiento dedica a entrenar activamente tu modelo, concretamente:
Generar muestras de tu modelo durante el proceso de ajuste fino (lo que se conoce como «rollouts»)
Evaluar esas salidas con uno o más evaluadores que hayas definido en el trabajo (más información sobre los evaluadores)
Calcular y aplicar actualizaciones de pesos basadas en las calificaciones (retropropagación).
Ejecutar cualquier paso de validación (evaluación) que hayas configurado.
La mayoría de los evaluadores son «gratuitos» de ejecutar, lo que significa que no cobramos nada extra por usarlos aparte del tiempo que aportan al ciclo principal de entrenamiento. La excepción son los modelos evaluadores, en los que también contabilizamos los tokens que consumen durante las actividades anteriores. Estos tokens aparecen como una partida independiente en tu factura. Los tokens consumidos por los modelos evaluadores se facturan a las tarifas normales de inferencia (precios de OpenAI).
Qué NO facturamos
No cobramos por el tiempo dedicado a:
Validar o inspeccionar tu conjunto de datos antes de que empiece el entrenamiento.
Comprobaciones de seguridad de tu conjunto de datos.
Esperar en una cola a recursos de computación.
Descargar pesos del modelo o conjuntos de datos.
Preparar (procesar) tu conjunto de datos en nuestro formato de entrenamiento.
Evaluaciones de seguridad posteriores al entrenamiento de tu modelo ajustado.
Si se pierde trabajo de entrenamiento debido a un error por nuestra parte (por ejemplo, si un worker se bloquea y tiene que volver a un checkpoint anterior), no se te cobra el tiempo de computación ni los tokens de los evaluadores perdidos. Encontrarás más detalles en la siguiente sección.
Progreso efectivo capturado y eventos de facturación
El entrenamiento consta de muchas pequeñas actualizaciones de tu modelo. Hacemos un seguimiento de cuántas de estas actualizaciones se completan correctamente. Los cargos se basan en el tiempo de computación y en los tokens de los evaluadores asociados a estas actualizaciones exitosas.
Emitimos un cargo cuando se produce uno de los siguientes «eventos de facturación»:
El entrenamiento se completa correctamente.
Pausas el entrenamiento.
Cancelas el entrenamiento.
El entrenamiento falla.
Cada cargo cubre el trabajo incremental realizado desde el último cargo. Por ejemplo:
Si pausas una ejecución, guardamos un checkpoint y te cobramos el tiempo de computación y los tokens de los evaluadores usados desde el último cargo.
Cuando reanudas, el entrenamiento continúa desde el checkpoint. El siguiente cargo (al completarse, en otra pausa, cancelación o fallo) cubrirá solo el trabajo adicional realizado tras la reanudación.
Si cancelas una ejecución, te cobramos el trabajo realizado hasta la cancelación.
Si el entrenamiento falla y se pierde el trabajo realizado desde el último cargo, no se te factura la parte perdida.
Este enfoque de «progreso efectivo capturado» garantiza que solo pagues por el trabajo que se conserva en tu modelo o que abandonas de forma intencionada.
Ver el progreso del trabajo
Los trabajos de RFT tienen un campo llamado usage_metrics que documenta el uso total del trabajo hasta el paso actual. Esto incluye el tiempo dedicado al entrenamiento y todos los tokens usados por todos los modelos evaluadores del trabajo. Este campo puede consultarse mediante la API (GET /v1/fine_tuning/jobs/{job_id}) o a través del panel de ajuste fino.
Factores que influyen en el tiempo de entrenamiento
Dado que la facturación se basa en el tiempo, tus opciones de configuración afectan directamente al coste. Entre los factores clave se incluyen:
Dificultad del problema: si tu conjunto de datos consta de problemas difíciles, es probable que el modelo dedique más tiempo al razonamiento de cada problema, lo que aumenta el tiempo necesario para producir cada muestra.
Intensidad de cálculo: el hiperparámetro
compute_multipliercontrola cuánta computación realizas por paso de entrenamiento. Los valores más altos hacen que el modelo razone de forma más extensa sobre cada dato, lo que provoca que cada paso se ejecute más lentamente.Configuración de validación:
Un conjunto de validación más grande aumenta el tiempo dedicado a la evaluación.
Aumentar
eval_samples(el número de salidas del modelo evaluadas por ejemplo de validación) incrementa el tiempo de validación.Ejecutar la validación con más frecuencia (un
eval_intervalmenor) aumenta la proporción de tiempo dedicada a la validación.
Rendimiento de los evaluadores:
Los modelos evaluadores más grandes o más capaces tardan más en devolver una calificación que los más pequeños. Por ejemplo, evaluar con un modelo de razonamiento puede tardar 10 veces más que evaluar con un modelo que no sea de razonamiento.
Las funciones complejas de evaluación en Python tardan más en ejecutarse que las simples.
Estos ajustes te permiten equilibrar coste, velocidad y calidad del modelo. Por ejemplo, una validación frecuente puede detectar problemas antes, pero aumenta el coste. Evaluar con un modelo más avanzado puede mejorar drásticamente la precisión de la evaluación, pero ralentizará cada paso de evaluación y hará que los trabajos sean más caros.
Gestión del coste
Para controlar tu gasto:
Empieza con ejecuciones más cortas para entender cómo tu configuración afecta al tiempo.
Usa un número razonable de ejemplos de validación y
eval_samples. Evita validar con más frecuencia de la necesaria.Elige el modelo evaluador más pequeño que cumpla tus requisitos de calidad.
Mantén eficientes los evaluadores personalizados en Python.
Ajusta
compute_multiplierpara equilibrar la velocidad de convergencia y el coste.Supervisa tu ejecución en el panel o mediante la API. Puedes pausarla o cancelarla en cualquier momento.
Ejemplos
Ejecución de entrenamiento completada correctamente
| Tiempo de entrenamiento | Tiempo facturado | Estado | Descripción |
| 00 : 00 | 00 : 00 | – | El usuario crea un trabajo de RFT mediante la API |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 10 minutos dedicados a validar el conjunto de datos |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 20 minutos ejecutando comprobaciones de seguridad del conjunto de datos |
| 01 : 00 | 00 : 00 | QUEUED | 30 minutos esperando a que haya un worker disponible |
| 01 : 30 | 00 : 00 | RUNNING | 30 minutos preparando el entrenamiento (descargando pesos, preprocesando, etc.) |
| 05 : 30 | 04 : 00 | RUNNING | 4 horas dedicadas al entrenamiento |
| 06 : 00 | 04 : 00 | RUNNING | 30 minutos ejecutando evaluaciones de seguridad del modelo resultante |
| 06 : 00 | 04 : 00 | SUCCEEDED | Finaliza el entrenamiento |
En este caso, el tiempo total transcurrido es de 6 horas, pero solo 4 horas son facturables. El coste sería 4 horas × $100/hora = $400.
Ejemplo de trabajo fallido
En este ejemplo, la ejecución entrena durante 2 horas, escribe un checkpoint, entrena 1 hora más, pero luego falla. Solo son facturables las 2 horas de entrenamiento hasta el checkpoint.
| Tiempo de entrenamiento | Tiempo facturado | Estado | Descripción |
| 00 : 00 | 00 : 00 | – | El usuario crea un trabajo de RFT mediante la API |
| 00 : 10 | 00 : 00 | VALIDATING_FILES | 10 minutos dedicados a validar el conjunto de datos |
| 00 : 30 | 00 : 00 | VALIDATING_FILES | 20 minutos ejecutando comprobaciones de seguridad del conjunto de datos |
| 01 : 00 | 00 : 00 | QUEUED | 30 minutos esperando a que haya un worker disponible |
| 01 : 30 | 00 : 00 | RUNNING | 30 minutos preparando el entrenamiento (descargando pesos, preprocesando, etc.) |
| 03 : 30 | 02 : 00 | RUNNING | 2 horas dedicadas al entrenamiento |
| 03 : 30 | 02 : 00 | RUNNING | Checkpoint creado en el paso 5 |
| 04 : 30 | 02 : 00 | RUNNING | El entrenamiento falla por un error interno en el paso 8 (tras 1 hora más) |
| 04 : 30 | 02 : 00 | RUNNING | 30 minutos evaluando y validando el checkpoint |
| 04 : 30 | 02 : 00 | SUCCEEDED | Finaliza el trabajo (con el último checkpoint) |
Aunque en total se dedicaron 3 horas al entrenamiento, solo 2 horas quedan «capturadas» en un checkpoint utilizable y se facturan. La hora de trabajo de entrenamiento perdida debido al fallo no es tu responsabilidad. El coste sería 2 horas × $100/hora = $200.
Preguntas frecuentes
¿Cuándo se me cobra?
Facturamos cuando tu ejecución se completa, se pausa, se cancela o falla. Cada cargo cubre el trabajo realizado desde la factura anterior.
¿Pago si falla una ejecución?
Si una ejecución falla por un error nuestro y se pierde trabajo de entrenamiento reciente, no se te cobra la parte perdida. Si cancelas una ejecución, se te cobra el trabajo realizado hasta la cancelación.
¿Cómo se facturan los tokens de los modelos evaluadores?
Contamos los tokens usados por cualquier modelo evaluador que configures. Cuando finaliza el entrenamiento, facturamos esos tokens según nuestras tarifas estándar por token.
¿Puedo pausar y reanudar una ejecución?
Sí. Cuando pausas, guardamos un checkpoint y cobramos el trabajo realizado hasta ese momento. Cuando reanudas, solo se te cobrará el trabajo adicional realizado tras la reanudación.
Si tienes otras preguntas sobre la facturación del ajuste fino por refuerzo, contacta con nuestro equipo de soporte.
