OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Guía de facturación de la API de ajuste fino por refuerzo

Cómo funciona la facturación de la API de RFT

Actualización: 3 days ago

Cómo funciona la facturación de RFT

El ajuste fino por refuerzo (RFT) te permite optimizar el rendimiento de los modelos de razonamiento de OpenAI mediante aprendizaje por refuerzo. A diferencia de nuestras opciones de ajuste fino supervisado o por preferencias, que se facturan por el número de tokens del conjunto de datos de entrenamiento, RFT se factura en función del tiempo que tu ejecución de entrenamiento dedica al trabajo principal de aprendizaje automático.

Esta guía explica qué cuenta como tiempo de entrenamiento facturable, cómo gestionamos las pausas y cancelaciones, y cómo tus opciones de configuración pueden afectar al coste.

Precios

  • Computación: $100 por hora de tiempo real dedicado al ciclo principal de entrenamiento para o4-mini-2025-04-16. Los cargos se prorratean por segundo y se redondean a dos decimales en la factura (p. ej., 2,55 horas).

  • Uso de modelos evaluadores: si usas un modelo de OpenAI para «evaluar» salidas durante el entrenamiento, los tokens consumidos por esas llamadas de evaluación se facturan por separado a nuestras tarifas estándar de API una vez finalizado el entrenamiento.

Solo cobramos por el trabajo de entrenamiento que realmente actualiza tu modelo (lo que llamamos «progreso efectivo capturado»).

Qué facturamos

Facturamos el tiempo que tu worker de entrenamiento dedica a entrenar activamente tu modelo, concretamente:

  • Generar muestras de tu modelo durante el proceso de ajuste fino (lo que se conoce como «rollouts»)

  • Evaluar esas salidas con uno o más evaluadores que hayas definido en el trabajo (más información sobre los evaluadores)

  • Calcular y aplicar actualizaciones de pesos basadas en las calificaciones (retropropagación).

  • Ejecutar cualquier paso de validación (evaluación) que hayas configurado.

La mayoría de los evaluadores son «gratuitos» de ejecutar, lo que significa que no cobramos nada extra por usarlos aparte del tiempo que aportan al ciclo principal de entrenamiento. La excepción son los modelos evaluadores, en los que también contabilizamos los tokens que consumen durante las actividades anteriores. Estos tokens aparecen como una partida independiente en tu factura. Los tokens consumidos por los modelos evaluadores se facturan a las tarifas normales de inferencia (precios de OpenAI).

Qué NO facturamos

No cobramos por el tiempo dedicado a:

  • Validar o inspeccionar tu conjunto de datos antes de que empiece el entrenamiento.

  • Comprobaciones de seguridad de tu conjunto de datos.

  • Esperar en una cola a recursos de computación.

  • Descargar pesos del modelo o conjuntos de datos.

  • Preparar (procesar) tu conjunto de datos en nuestro formato de entrenamiento.

  • Evaluaciones de seguridad posteriores al entrenamiento de tu modelo ajustado.

Si se pierde trabajo de entrenamiento debido a un error por nuestra parte (por ejemplo, si un worker se bloquea y tiene que volver a un checkpoint anterior), no se te cobra el tiempo de computación ni los tokens de los evaluadores perdidos. Encontrarás más detalles en la siguiente sección.

Progreso efectivo capturado y eventos de facturación

El entrenamiento consta de muchas pequeñas actualizaciones de tu modelo. Hacemos un seguimiento de cuántas de estas actualizaciones se completan correctamente. Los cargos se basan en el tiempo de computación y en los tokens de los evaluadores asociados a estas actualizaciones exitosas.

Emitimos un cargo cuando se produce uno de los siguientes «eventos de facturación»:

  • El entrenamiento se completa correctamente.

  • Pausas el entrenamiento.

  • Cancelas el entrenamiento.

  • El entrenamiento falla.

Cada cargo cubre el trabajo incremental realizado desde el último cargo. Por ejemplo:

  • Si pausas una ejecución, guardamos un checkpoint y te cobramos el tiempo de computación y los tokens de los evaluadores usados desde el último cargo.

  • Cuando reanudas, el entrenamiento continúa desde el checkpoint. El siguiente cargo (al completarse, en otra pausa, cancelación o fallo) cubrirá solo el trabajo adicional realizado tras la reanudación.

  • Si cancelas una ejecución, te cobramos el trabajo realizado hasta la cancelación.

  • Si el entrenamiento falla y se pierde el trabajo realizado desde el último cargo, no se te factura la parte perdida.

Este enfoque de «progreso efectivo capturado» garantiza que solo pagues por el trabajo que se conserva en tu modelo o que abandonas de forma intencionada.

Ver el progreso del trabajo

Los trabajos de RFT tienen un campo llamado usage_metrics que documenta el uso total del trabajo hasta el paso actual. Esto incluye el tiempo dedicado al entrenamiento y todos los tokens usados por todos los modelos evaluadores del trabajo. Este campo puede consultarse mediante la API (GET /v1/fine_tuning/jobs/{job_id}) o a través del panel de ajuste fino.

Factores que influyen en el tiempo de entrenamiento

Dado que la facturación se basa en el tiempo, tus opciones de configuración afectan directamente al coste. Entre los factores clave se incluyen:

  • Dificultad del problema: si tu conjunto de datos consta de problemas difíciles, es probable que el modelo dedique más tiempo al razonamiento de cada problema, lo que aumenta el tiempo necesario para producir cada muestra.

  • Intensidad de cálculo: el hiperparámetro compute_multiplier controla cuánta computación realizas por paso de entrenamiento. Los valores más altos hacen que el modelo razone de forma más extensa sobre cada dato, lo que provoca que cada paso se ejecute más lentamente.

  • Configuración de validación:

    • Un conjunto de validación más grande aumenta el tiempo dedicado a la evaluación.

    • Aumentar eval_samples (el número de salidas del modelo evaluadas por ejemplo de validación) incrementa el tiempo de validación.

    • Ejecutar la validación con más frecuencia (un eval_interval menor) aumenta la proporción de tiempo dedicada a la validación.

  • Rendimiento de los evaluadores:

    • Los modelos evaluadores más grandes o más capaces tardan más en devolver una calificación que los más pequeños. Por ejemplo, evaluar con un modelo de razonamiento puede tardar 10 veces más que evaluar con un modelo que no sea de razonamiento.

    • Las funciones complejas de evaluación en Python tardan más en ejecutarse que las simples.

Estos ajustes te permiten equilibrar coste, velocidad y calidad del modelo. Por ejemplo, una validación frecuente puede detectar problemas antes, pero aumenta el coste. Evaluar con un modelo más avanzado puede mejorar drásticamente la precisión de la evaluación, pero ralentizará cada paso de evaluación y hará que los trabajos sean más caros.

Gestión del coste

Para controlar tu gasto:

  • Empieza con ejecuciones más cortas para entender cómo tu configuración afecta al tiempo.

  • Usa un número razonable de ejemplos de validación y eval_samples. Evita validar con más frecuencia de la necesaria.

  • Elige el modelo evaluador más pequeño que cumpla tus requisitos de calidad.

  • Mantén eficientes los evaluadores personalizados en Python.

  • Ajusta compute_multiplier para equilibrar la velocidad de convergencia y el coste.

  • Supervisa tu ejecución en el panel o mediante la API. Puedes pausarla o cancelarla en cualquier momento.

Ejemplos

Ejecución de entrenamiento completada correctamente

Tiempo de entrenamientoTiempo facturadoEstadoDescripción
00 : 0000 : 00El usuario crea un trabajo de RFT mediante la API
00 : 1000 : 00VALIDATING_FILES10 minutos dedicados a validar el conjunto de datos
00 : 3000 : 00VALIDATING_FILES20 minutos ejecutando comprobaciones de seguridad del conjunto de datos
01 : 0000 : 00QUEUED30 minutos esperando a que haya un worker disponible
01 : 3000 : 00RUNNING30 minutos preparando el entrenamiento (descargando pesos, preprocesando, etc.)
05 : 3004 : 00RUNNING4 horas dedicadas al entrenamiento
06 : 0004 : 00RUNNING30 minutos ejecutando evaluaciones de seguridad del modelo resultante
06 : 0004 : 00SUCCEEDEDFinaliza el entrenamiento

En este caso, el tiempo total transcurrido es de 6 horas, pero solo 4 horas son facturables. El coste sería 4 horas × $100/hora = $400.

Ejemplo de trabajo fallido

En este ejemplo, la ejecución entrena durante 2 horas, escribe un checkpoint, entrena 1 hora más, pero luego falla. Solo son facturables las 2 horas de entrenamiento hasta el checkpoint.

Tiempo de entrenamientoTiempo facturadoEstadoDescripción
00 : 0000 : 00El usuario crea un trabajo de RFT mediante la API
00 : 1000 : 00VALIDATING_FILES10 minutos dedicados a validar el conjunto de datos
00 : 3000 : 00VALIDATING_FILES20 minutos ejecutando comprobaciones de seguridad del conjunto de datos
01 : 0000 : 00QUEUED30 minutos esperando a que haya un worker disponible
01 : 3000 : 00RUNNING30 minutos preparando el entrenamiento (descargando pesos, preprocesando, etc.)
03 : 3002 : 00RUNNING2 horas dedicadas al entrenamiento
03 : 3002 : 00RUNNINGCheckpoint creado en el paso 5
04 : 3002 : 00RUNNINGEl entrenamiento falla por un error interno en el paso 8 (tras 1 hora más)
04 : 3002 : 00RUNNING30 minutos evaluando y validando el checkpoint
04 : 3002 : 00SUCCEEDEDFinaliza el trabajo (con el último checkpoint)

Aunque en total se dedicaron 3 horas al entrenamiento, solo 2 horas quedan «capturadas» en un checkpoint utilizable y se facturan. La hora de trabajo de entrenamiento perdida debido al fallo no es tu responsabilidad. El coste sería 2 horas × $100/hora = $200.

Preguntas frecuentes

¿Cuándo se me cobra?

Facturamos cuando tu ejecución se completa, se pausa, se cancela o falla. Cada cargo cubre el trabajo realizado desde la factura anterior.

¿Pago si falla una ejecución?

Si una ejecución falla por un error nuestro y se pierde trabajo de entrenamiento reciente, no se te cobra la parte perdida. Si cancelas una ejecución, se te cobra el trabajo realizado hasta la cancelación.

¿Cómo se facturan los tokens de los modelos evaluadores?

Contamos los tokens usados por cualquier modelo evaluador que configures. Cuando finaliza el entrenamiento, facturamos esos tokens según nuestras tarifas estándar por token.

¿Puedo pausar y reanudar una ejecución?

Sí. Cuando pausas, guardamos un checkpoint y cobramos el trabajo realizado hasta ese momento. Cuando reanudas, solo se te cobrará el trabajo adicional realizado tras la reanudación.

Si tienes otras preguntas sobre la facturación del ajuste fino por refuerzo, contacta con nuestro equipo de soporte.

¿Te ha resultado útil este artículo?