Découvrez comment définir des limites de sortie pour les modèles OpenAI à l’aide de paramètres de tokens, de prompts clairs, d’exemples et de séquences d’arrêt.

Vue d’ensemble

Contrôler la longueur de la réponse d’un modèle est utile pour plusieurs raisons : cela aide à gérer les coûts (puisque vous payez par token), améliore la latence et les performances (les réponses plus courtes sont renvoyées plus rapidement), et garantit la pertinence en évitant les sorties trop longues ou verbeuses.

Vous pouvez y parvenir à l’aide de plafonds de tokens, de paramètres de raisonnement et de verbosité, d’instructions claires, d’exemples et de séquences d’arrêt. Pour obtenir les informations les plus récentes et complètes, consultez toujours la référence officielle de l’API sur platform.openai.com.

Définir une longueur de sortie maximale

API Responses

Utilisée pour les modèles GPT-5 et la plupart des modèles de la série o : utilisez max_output_tokens pour plafonner le nombre de tokens que le modèle générera. Pour les requêtes compaction_trigger, omettez max_output_tokens ou définissez-le sur au moins 20000 ; les valeurs inférieures sont rejetées. L’API Responses ne prend pas en charge les complétions multiples (n).

API Chat Completions

Utilisée pour les anciens modèles GPT-3.5, GPT-4o et parfois la série o.

Pour les modèles de raisonnement comme o3 et o4-mini, utilisez max_completion_tokens (alias de max_tokens).
Pour les modèles antérieurs ou sans raisonnement, max_tokens fonctionne toujours.
Prend en charge stop et n (complétions multiples).

Remarque : il n’existe pas de paramètre « tokens minimum ». Si vous avez besoin d’une longueur minimale, précisez-la dans votre prompt.

Limites de tokens par groupe de modèles

Pour connaître les limites de tokens, les tailles de contexte et les plafonds de sortie à jour, consultez la documentation du modèle spécifique.

Exemples rapides

API Responses

{ "model": "gpt-5", "input": "Résumez les résultats en ~80 mots.", "max_output_tokens": 120 }

Chat Completions (modèle de raisonnement)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Rédigez cinq options d’une ligne."}], "max_completion_tokens": 100 }

Contrôles spécifiques aux modèles GPT-5 : `verbosity` et `reasoning.effort`

Ces contrôles sont disponibles uniquement sur les modèles GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Les modèles de la série o et les modèles hérités ne les prennent pas en charge.

`verbosity` accepte "low", "medium" (par défaut) ou "high". Il influe sur le niveau de détail, mais pas sur les limites strictes.

{ "model": "gpt-5", "input": "Expliquez PageRank dans les grandes lignes.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` contrôle le nombre de tokens de raisonnement générés avant de produire une réponse. GPT-5.2 prend en charge none,low, medium, high,and xhigh. gpt-5.2-pro prend uniquement en charge medium, high,and xhigh. Les modèles de raisonnement antérieurs prennent uniquement en charge low, medium et high.

{ "model": "gpt-5", "input": "Quelle quantité d’or faudrait-il pour recouvrir la Statue de la Liberté d’une couche de 1 mm ?", "reasoning": { "effort": "minimal" } }

Vous pouvez définir `reasoning.effort` sur none pour que le modèle se comporte comme un modèle sans raisonnement dans les cas d’utilisation sensibles à la latence.

Fournir des instructions précises

Demandez la longueur ou la forme exacte souhaitée. Exemples :

« Listez exactement cinq options. »
« Rédigez un résumé de 50 mots. »
« Pas plus de 100 tokens. Si vous avez besoin de plus, dites : “Besoin de plus d’espace.” »

Utiliser des exemples de longueur cohérente

Des exemples few-shot correspondant à la longueur souhaitée aident le modèle à poursuivre le schéma.

Appliquer des séquences d’arrêt stratégiques

Utilisez stop pour interrompre la génération lorsque le modèle atteint un délimiteur ou la limite d’une liste numérotée.

{ "stop": ["\n###", "6."] }

Candidats multiples

Chat Completions : n renvoie plusieurs complétions en un seul appel.
API Responses : n n’est pas pris en charge ; effectuez plusieurs appels si vous avez besoin de plusieurs sorties.

Contrôler la longueur des réponses des modèles OpenAI

Vue d’ensemble

Définir une longueur de sortie maximale

API Responses

API Chat Completions

Limites de tokens par groupe de modèles

Exemples rapides

Contrôles spécifiques aux modèles GPT-5 : `verbosity` et `reasoning.effort`

Fournir des instructions précises

Utiliser des exemples de longueur cohérente

Appliquer des séquences d’arrêt stratégiques

Candidats multiples

Cet article vous a-t-il été utile ?

Contrôler la longueur des réponses des modèles OpenAI

Vue d’ensemble

Définir une longueur de sortie maximale

API Responses

API Chat Completions

Limites de tokens par groupe de modèles

Exemples rapides

Contrôles spécifiques aux modèles GPT-5 : verbosity et reasoning.effort

Fournir des instructions précises

Utiliser des exemples de longueur cohérente

Appliquer des séquences d’arrêt stratégiques

Candidats multiples

Cet article vous a-t-il été utile ?

Contrôles spécifiques aux modèles GPT-5 : `verbosity` et `reasoning.effort`