Resumen general
Controlar la longitud de la respuesta de un modelo es útil por varias razones: ayuda a gestionar el coste (ya que pagas por token), mejora la latencia/el rendimiento (las respuestas más cortas se devuelven más rápido) y garantiza la relevancia al evitar salidas demasiado largas o verbosas.
Puedes lograrlo usando límites de tokens, ajustes de razonamiento y verbosidad, instrucciones claras, ejemplos y secuencias de parada. Para consultar los detalles más actuales y completos, revisa siempre la referencia oficial de la API en platform.openai.com.
Establece una longitud máxima de salida
Responses API
Se usa para los modelos GPT-5 y la mayoría de los modelos de la serie o: usa max_output_tokens para limitar el número de tokens que generará el modelo. Admite stop, pero no admite múltiples completados (n).
API para completar chats
Se usa para GPT-3.5, GPT-4o y, a veces, la serie o heredados.
Para modelos de razonamiento como o3 y o4-mini, usa
max_completion_tokens(alias demax_tokens)Para modelos anteriores o sin razonamiento,
max_tokenssigue funcionandoAdmite
stopyn(múltiples completados).
Nota: No existe un ajuste de «tokens mínimos». Si necesitas una longitud mínima, indícalo en tu prompt.
Límites de tokens por grupo de modelos
Para consultar límites de tokens, tamaños de contexto y topes de salida actualizados, consulta la documentación específica del modelo.
Ejemplos rápidos
Responses API
{ "model": "gpt-5", "input": "Resume los hallazgos en ~80 palabras.", "max_output_tokens": 120 }Chat Completions (modelo de razonamiento)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Controles específicos de los modelos GPT-5: verbosity y reasoning.effort
Estos controles solo están disponibles en modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). La serie o y los modelos heredados no los admiten.
verbosity acepta "low", "medium" (predeterminado) o "high". Influye en el nivel de detalle, pero no en límites estrictos.
{ "model": "gpt-5", "input": "Explica PageRank a alto nivel.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort controla cuántos tokens de razonamiento se generan antes de producir una respuesta. GPT-5.2 admite none,low, medium, high,and xhigh. gpt-5.2-pro solo admite medium, high,and xhigh. Los modelos de razonamiento anteriores solo admiten low, medium y high.
{ "model": "gpt-5", "input": "¿Cuánto oro haría falta para recubrir la Estatua de la Libertad con una capa de 1 mm?", "reasoning": { "effort": "minimal" } }Puedes establecer reasoning.effort en none para que el modelo se comporte como un modelo sin razonamiento en casos de uso sensibles a la latencia.
Proporciona instrucciones específicas
Pide la longitud o la forma exactas que quieras. Ejemplos:
«Enumera exactamente cinco opciones».
«Escribe un resumen de 50 palabras».
«No más de 100 tokens. Si necesitas más, di “Necesito más espacio”».
Usa ejemplos con una longitud coherente
Los ejemplos de pocos ejemplos que se ajustan a la longitud deseada ayudan al modelo a continuar el patrón.
Aplica secuencias de parada estratégicas
Usa stop para detener la generación cuando el modelo alcance un delimitador o el límite de una lista numerada.
{ "stop": ["
###", "6."] }Múltiples candidatos
Chat Completions:
ndevuelve múltiples completados en una sola llamada.Responses API:
nno es compatible; realiza varias llamadas si necesitas más de una salida.
