OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Control de la longitud de las respuestas de los modelos de OpenAI

Aprende a fijar límites de salida para modelos de OpenAI con ajustes de tokens, prompts claros, ejemplos y secuencias de parada.

Actualización: 6 days ago

Resumen general

Controlar la longitud de la respuesta de un modelo es útil por varias razones: ayuda a gestionar el coste (ya que pagas por token), mejora la latencia/el rendimiento (las respuestas más cortas se devuelven más rápido) y garantiza la relevancia al evitar salidas demasiado largas o verbosas.

Puedes lograrlo usando límites de tokens, ajustes de razonamiento y verbosidad, instrucciones claras, ejemplos y secuencias de parada. Para consultar los detalles más actuales y completos, revisa siempre la referencia oficial de la API en platform.openai.com.

Establece una longitud máxima de salida

Responses API

Se usa para los modelos GPT-5 y la mayoría de los modelos de la serie o: usa max_output_tokens para limitar el número de tokens que generará el modelo. Admite stop, pero no admite múltiples completados (n).

API para completar chats

Se usa para GPT-3.5, GPT-4o y, a veces, la serie o heredados.

  • Para modelos de razonamiento como o3 y o4-mini, usa max_completion_tokens (alias de max_tokens)

  • Para modelos anteriores o sin razonamiento, max_tokens sigue funcionando

  • Admite stop y n (múltiples completados).

Nota: No existe un ajuste de «tokens mínimos». Si necesitas una longitud mínima, indícalo en tu prompt.

Límites de tokens por grupo de modelos

Para consultar límites de tokens, tamaños de contexto y topes de salida actualizados, consulta la documentación específica del modelo.

Ejemplos rápidos

Responses API

{ "model": "gpt-5", "input": "Resume los hallazgos en ~80 palabras.", "max_output_tokens": 120 }

Chat Completions (modelo de razonamiento)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Controles específicos de los modelos GPT-5: verbosity y reasoning.effort

Estos controles solo están disponibles en modelos GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). La serie o y los modelos heredados no los admiten.

verbosity acepta "low", "medium" (predeterminado) o "high". Influye en el nivel de detalle, pero no en límites estrictos.

{ "model": "gpt-5", "input": "Explica PageRank a alto nivel.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort controla cuántos tokens de razonamiento se generan antes de producir una respuesta. GPT-5.2 admite none,low, medium, high,and xhigh. gpt-5.2-pro solo admite medium, high,and xhigh. Los modelos de razonamiento anteriores solo admiten low, medium y high.

{ "model": "gpt-5", "input": "¿Cuánto oro haría falta para recubrir la Estatua de la Libertad con una capa de 1 mm?", "reasoning": { "effort": "minimal" } }

Puedes establecer reasoning.effort en none para que el modelo se comporte como un modelo sin razonamiento en casos de uso sensibles a la latencia.

Proporciona instrucciones específicas

Pide la longitud o la forma exactas que quieras. Ejemplos:

  • «Enumera exactamente cinco opciones».

  • «Escribe un resumen de 50 palabras».

  • «No más de 100 tokens. Si necesitas más, di “Necesito más espacio”».

Usa ejemplos con una longitud coherente

Los ejemplos de pocos ejemplos que se ajustan a la longitud deseada ayudan al modelo a continuar el patrón.

Aplica secuencias de parada estratégicas

Usa stop para detener la generación cuando el modelo alcance un delimitador o el límite de una lista numerada.

{ "stop": ["
###", "6."] }

Múltiples candidatos

  • Chat Completions: n devuelve múltiples completados en una sola llamada.

  • Responses API: n no es compatible; realiza varias llamadas si necesitas más de una salida.

¿Te ha resultado útil este artículo?