Enlaces importantes
*El panel de estado del servicio actualmente solo está disponible para clientes de Enterprise API.
Empieza con los valores predeterminados correctos
Cuando abras el panel de estado del servicio, por defecto mostrará:
Todos los proyectos
Últimos 30 días
Resolución por hora
Esta vista solo es útil para orientarse. Un diagnóstico útil siempre requiere filtrar.
Filtra antes de investigar
Filtrar correctamente es el paso más importante. La mayoría de las interpretaciones erróneas vienen de mezclar modelos, niveles o proyectos.
Filtra por modelo (uno cada vez)
Filtra siempre a un único modelo.
Por qué:
Los problemas en modelos con poco tráfico pueden quedar ocultos por tráfico de mayor volumen
Los modelos de gran volumen pueden hacer que problemas localizados parezcan globales
Los distintos modelos tienen objetivos de rendimiento diferentes
Nota: seleccionar varios modelos los agrega; no alterna entre ellos.
Filtra por nivel de servicio
Si usas más de un nivel (standard, priority, scale), filtra siempre por el nivel que estás investigando.
Por qué:
Los niveles tienen características de rendimiento diferentes
Los niveles priority y scale tienen SLA definidos
Mezclar niveles oculta el rendimiento de los niveles de pago
Esto es especialmente importante para el análisis de latencia.
Filtra por proyecto
Por defecto, Estado del servicio muestra todos los proyectos.
Para solucionar problemas, filtra por el proyecto o los proyectos donde se observó el problema.
Por qué:
Un único proyecto con gran volumen puede dominar las métricas
Los proyectos afectados más pequeños pueden quedar ocultos por tráfico no relacionado
Deja seleccionado "Todos los proyectos" solo si crees que el problema realmente afecta a toda la organización.
Solución de errores
Usa la vista de solicitudes HTTP
Para investigar errores:
Filtra por modelo y nivel
Para cambiar de Tiempo de actividad a Solicitudes HTTP, haz clic en la pestaña Solicitudes HTTP
Esta vista muestra el total de solicitudes y el recuento de errores por código de estado HTTP. Amplía hasta una resolución por minuto para identificar picos o cambios detallados.
Interpreta tasas de error, no recuentos
Algunos errores son esperables en cualquier sistema de producción. Céntrate en el porcentaje de errores, no en los totales brutos.
Cuanto mayor sea tu volumen total, mayor será el número potencial de errores incluso con una tasa de error extremadamente baja.
Cuando faltan errores en Estado del servicio
Si ves errores del lado del cliente pero no hay datos correspondientes en Estado del servicio:
Es probable que las solicitudes no llegaran a OpenAI
El problema suele estar aguas arriba (tiempos de espera, proxies, red)
Esto es habitual con tiempos de espera del lado del cliente muy agresivos.
Solución de problemas de latencia
El análisis de latencia es más útil en los niveles priority y scale, que tienen SLA definidos. El nivel standard puede mostrar una variación de latencia mayor y no tiene latencia garantizada.
Métricas clave
Para ver cada una de estas métricas, haz clic en la pestaña correspondiente:
Velocidad de tokens
Tokens generados por segundo.
Independiente del tamaño del prompt.
Tiempo de solicitud
Duración total de la solicitud.
Muy afectado por el tamaño de la salida y el razonamiento.
Tiempo hasta el primer token (TTFT)
Tiempo hasta que se genera el primer token.
Muy afectado por el tamaño del prompt de entrada sin caché y el razonamiento.
Revisa siempre los percentiles P50 / P75 / P95. Los promedios pueden ocultar el impacto real en los usuarios.
6. Correlación de la latencia con el uso de tokens
Estado del servicio muestra cuándo cambió el comportamiento. Los datos de uso ayudan a explicar por qué.
En el panel de uso, haz lo siguiente para asegurarte de que estás viendo los datos relevantes para tu vista en el Panel de estado del servicio:
Filtra por el mismo proyecto y modelo
Agrupa por nivel de servicio si corresponde
Céntrate en los tokens de salida, que son los que más afectan a la latencia
Para un análisis más profundo, exporta los datos de actividad y examina los tokens por solicitud a lo largo del tiempo.
7. Qué compartir con Soporte (si es necesario)
Si contactas con soporte, incluye:
ID de organización afectados (esto es importante)
Puntos de acceso afectados (Chat Completions, Responses, etc.) (esto es importante)
Modelos afectados (esto es importante)
¿Esto ocurre en el nivel scale o priority? (esto es importante)
Intervalos de tiempo con zona horaria para latencia o error (esto es importante)
x-request-id o X-Client-Request-Id relevantes (a menudo es importante; inclúyelo si es posible)
Marcas de tiempo con zona horaria (o al menos la fecha) de las solicitudes proporcionadas
Latencia: si compartes ejemplos de solicitudes lentas, indica cuánto tardó de tu lado. Lo ideal es incluir también las marcas de tiempo de cuándo se envió la solicitud y cuándo se recibió.
Errores: comparte el porcentaje aproximado de solicitudes fallidas/con error, el código o códigos de respuesta, los mensajes de error y cuánto tardó en llegar la respuesta de error
ID del proyecto relacionado con las solicitudes
¿Esto afecta a solicitudes de residencia de datos? Si es así, ¿cuáles?
Descripciones de las tendencias que estás viendo
Errores: % aproximado de solicitudes fallidas/con error
Latencia: qué percentiles están afectados (p50 / p90 / p95 / p99) y cuánto más altos son en comparación con la referencia del cliente
Ambos: capturas de pantalla o tabla de datos de errores o latencia (¿Cómo determinaste que la tasa de error o la latencia es más alta de lo esperado?)
Escenarios comunes de solución de problemas
Se producen tiempos de espera, pero Estado del servicio parece normal
Posible causa: las solicitudes están agotando el tiempo de espera antes de llegar a OpenAI.
Comprueba:
Configuración de tiempo de espera del cliente o proxy
Cambios en la red local o el balanceador de carga
Presencia de errores 499 en el panel de Estado del servicio (pueden aparecer como errores 5xx en tus propios sistemas).
La latencia aumentó sin un despliegue
Posible causa: aumentó el tamaño de los tokens de salida o el uso de razonamiento y\o el tráfico cambió entre niveles de servicio
Comprueba:
Promedio de tokens de salida por solicitud en el panel de uso (requiere descargar los datos y dividir los tokens de salida entre el total de solicitudes).
Percentiles de Tiempo de solicitud y TTFT en el panel de Estado del servicio.
El nivel Priority o Scale parece lento
Posible causa: las métricas se están mezclando entre niveles (lo que significa que el tráfico del nivel standard está enmascarando el rendimiento de los niveles de pago)
Comprueba:
Los filtros están restringidos a un único nivel y modelo
Comparación de velocidad de tokens entre niveles
Pico de errores 5XX
Causa probable: fallos transitorios que afectan a un pequeño porcentaje del tráfico.
Comprueba:
Porcentaje de tasa de error
Si el volumen de tráfico cambió al mismo tiempo
El problema afecta solo a un proyecto
Causa probable: configuración o patrón de uso específico del proyecto.
Comprueba:
Filtrado a nivel de proyecto
Comparación con proyectos no afectados
Conclusiones finales
Filtra por modelo, nivel y, cuando corresponda, proyecto antes de interpretar las métricas
Usa percentiles, no promedios, para el análisis de latencia
Las tasas de error pequeñas son esperables
La falta de datos suele indicar problemas aguas arriba
Los datos de uso pueden ayudar a explicar por qué cambió la latencia; Estado del servicio ayuda a mostrar cuándo
