OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Solución de errores y latencia de la API

Este artículo explica cómo usar los paneles de Estado del servicio y Uso para solucionar errores comunes y problemas de latencia al usar la API de OpenAI.

Actualización: 4 days ago

Enlaces importantes

*El panel de estado del servicio actualmente solo está disponible para clientes de Enterprise API.

Empieza con los valores predeterminados correctos

Cuando abras el panel de estado del servicio, por defecto mostrará:

  • Todos los proyectos

  • Últimos 30 días

  • Resolución por hora

Esta vista solo es útil para orientarse. Un diagnóstico útil siempre requiere filtrar.


Filtra antes de investigar

Filtrar correctamente es el paso más importante. La mayoría de las interpretaciones erróneas vienen de mezclar modelos, niveles o proyectos.

Filtra por modelo (uno cada vez)

Filtra siempre a un único modelo.

Por qué:

  • Los problemas en modelos con poco tráfico pueden quedar ocultos por tráfico de mayor volumen

  • Los modelos de gran volumen pueden hacer que problemas localizados parezcan globales

  • Los distintos modelos tienen objetivos de rendimiento diferentes

Nota: seleccionar varios modelos los agrega; no alterna entre ellos.

Filtra por nivel de servicio

Si usas más de un nivel (standard, priority, scale), filtra siempre por el nivel que estás investigando.

Por qué:

  • Los niveles tienen características de rendimiento diferentes

  • Los niveles priority y scale tienen SLA definidos

  • Mezclar niveles oculta el rendimiento de los niveles de pago

Esto es especialmente importante para el análisis de latencia.

Filtra por proyecto

Por defecto, Estado del servicio muestra todos los proyectos.

Para solucionar problemas, filtra por el proyecto o los proyectos donde se observó el problema.

Por qué:

  • Un único proyecto con gran volumen puede dominar las métricas

  • Los proyectos afectados más pequeños pueden quedar ocultos por tráfico no relacionado

Deja seleccionado "Todos los proyectos" solo si crees que el problema realmente afecta a toda la organización.


Solución de errores

Usa la vista de solicitudes HTTP

Para investigar errores:

  1. Filtra por modelo y nivel

  2. Para cambiar de Tiempo de actividad a Solicitudes HTTP, haz clic en la pestaña Solicitudes HTTP

Esta vista muestra el total de solicitudes y el recuento de errores por código de estado HTTP. Amplía hasta una resolución por minuto para identificar picos o cambios detallados.

Interpreta tasas de error, no recuentos

Algunos errores son esperables en cualquier sistema de producción. Céntrate en el porcentaje de errores, no en los totales brutos.

Cuanto mayor sea tu volumen total, mayor será el número potencial de errores incluso con una tasa de error extremadamente baja.

Cuando faltan errores en Estado del servicio

Si ves errores del lado del cliente pero no hay datos correspondientes en Estado del servicio:

  • Es probable que las solicitudes no llegaran a OpenAI

  • El problema suele estar aguas arriba (tiempos de espera, proxies, red)

Esto es habitual con tiempos de espera del lado del cliente muy agresivos.


Solución de problemas de latencia

El análisis de latencia es más útil en los niveles priority y scale, que tienen SLA definidos. El nivel standard puede mostrar una variación de latencia mayor y no tiene latencia garantizada.

Métricas clave

Para ver cada una de estas métricas, haz clic en la pestaña correspondiente:

Velocidad de tokens

  • Tokens generados por segundo.

  • Independiente del tamaño del prompt.

Tiempo de solicitud

  • Duración total de la solicitud.

  • Muy afectado por el tamaño de la salida y el razonamiento.

Tiempo hasta el primer token (TTFT)

  • Tiempo hasta que se genera el primer token.

  • Muy afectado por el tamaño del prompt de entrada sin caché y el razonamiento.

Revisa siempre los percentiles P50 / P75 / P95. Los promedios pueden ocultar el impacto real en los usuarios.


6. Correlación de la latencia con el uso de tokens

Estado del servicio muestra cuándo cambió el comportamiento. Los datos de uso ayudan a explicar por qué.

En el panel de uso, haz lo siguiente para asegurarte de que estás viendo los datos relevantes para tu vista en el Panel de estado del servicio:

  • Filtra por el mismo proyecto y modelo

  • Agrupa por nivel de servicio si corresponde

  • Céntrate en los tokens de salida, que son los que más afectan a la latencia

Para un análisis más profundo, exporta los datos de actividad y examina los tokens por solicitud a lo largo del tiempo.


7. Qué compartir con Soporte (si es necesario)

Si contactas con soporte, incluye:

  • ID de organización afectados (esto es importante)

  • Puntos de acceso afectados (Chat Completions, Responses, etc.) (esto es importante)

  • Modelos afectados (esto es importante)

  • ¿Esto ocurre en el nivel scale o priority? (esto es importante)

  • Intervalos de tiempo con zona horaria para latencia o error (esto es importante)

  • x-request-id o X-Client-Request-Id relevantes (a menudo es importante; inclúyelo si es posible)

    • Marcas de tiempo con zona horaria (o al menos la fecha) de las solicitudes proporcionadas

    • Latencia: si compartes ejemplos de solicitudes lentas, indica cuánto tardó de tu lado. Lo ideal es incluir también las marcas de tiempo de cuándo se envió la solicitud y cuándo se recibió.

    • Errores: comparte el porcentaje aproximado de solicitudes fallidas/con error, el código o códigos de respuesta, los mensajes de error y cuánto tardó en llegar la respuesta de error

  • ID del proyecto relacionado con las solicitudes

  • ¿Esto afecta a solicitudes de residencia de datos? Si es así, ¿cuáles?

  • Descripciones de las tendencias que estás viendo

    • Errores: % aproximado de solicitudes fallidas/con error

    • Latencia: qué percentiles están afectados (p50 / p90 / p95 / p99) y cuánto más altos son en comparación con la referencia del cliente

    • Ambos: capturas de pantalla o tabla de datos de errores o latencia (¿Cómo determinaste que la tasa de error o la latencia es más alta de lo esperado?)


Escenarios comunes de solución de problemas

Se producen tiempos de espera, pero Estado del servicio parece normal

Posible causa: las solicitudes están agotando el tiempo de espera antes de llegar a OpenAI.

Comprueba:

  • Configuración de tiempo de espera del cliente o proxy

  • Cambios en la red local o el balanceador de carga

  • Presencia de errores 499 en el panel de Estado del servicio (pueden aparecer como errores 5xx en tus propios sistemas).


La latencia aumentó sin un despliegue

Posible causa: aumentó el tamaño de los tokens de salida o el uso de razonamiento y\o el tráfico cambió entre niveles de servicio

Comprueba:

  • Promedio de tokens de salida por solicitud en el panel de uso (requiere descargar los datos y dividir los tokens de salida entre el total de solicitudes).

  • Percentiles de Tiempo de solicitud y TTFT en el panel de Estado del servicio.


El nivel Priority o Scale parece lento

Posible causa: las métricas se están mezclando entre niveles (lo que significa que el tráfico del nivel standard está enmascarando el rendimiento de los niveles de pago)

Comprueba:

  • Los filtros están restringidos a un único nivel y modelo

  • Comparación de velocidad de tokens entre niveles


Pico de errores 5XX

Causa probable: fallos transitorios que afectan a un pequeño porcentaje del tráfico.

Comprueba:

  • Porcentaje de tasa de error

  • Si el volumen de tráfico cambió al mismo tiempo


El problema afecta solo a un proyecto

Causa probable: configuración o patrón de uso específico del proyecto.

Comprueba:

  • Filtrado a nivel de proyecto

  • Comparación con proyectos no afectados


Conclusiones finales

  • Filtra por modelo, nivel y, cuando corresponda, proyecto antes de interpretar las métricas

  • Usa percentiles, no promedios, para el análisis de latencia

  • Las tasas de error pequeñas son esperables

  • La falta de datos suele indicar problemas aguas arriba

  • Los datos de uso pueden ayudar a explicar por qué cambió la latencia; Estado del servicio ayuda a mostrar cuándo

¿Te ha resultado útil este artículo?