Vue d’ensemble
Contrôler la longueur de la réponse d’un modèle est utile pour plusieurs raisons : cela aide à gérer les coûts (puisque vous payez par jeton), améliore la latence/les performances (les réponses plus courtes sont renvoyées plus vite) et garantit la pertinence en évitant des sorties trop longues ou trop verbeuses.
Vous pouvez y parvenir en utilisant des plafonds de jetons, des réglages de raisonnement et de verbosité, des instructions claires, des exemples et des séquences d’arrêt. Pour les informations les plus récentes et les plus complètes, reportez-vous toujours à la référence officielle de l’API sur platform.openai.com.
Définir une longueur de sortie maximale
API Responses
Utilisée pour les modèles GPT-5 et la plupart des modèles de la série o : utilisez max_output_tokens pour plafonner le nombre de jetons que le modèle générera. Prend en charge stop, mais ne prend pas en charge les complétions multiples (n).
API Chat Completions
Utilisée pour les anciens modèles GPT-3.5, GPT-4o et parfois pour la série o.
Pour les modèles de raisonnement comme o3 et o4-mini, utilisez
max_completion_tokens(alias demax_tokens)Pour les modèles plus anciens/sans raisonnement,
max_tokensfonctionne toujoursPrend en charge
stopetn(complétions multiples).
Remarque : Il n’existe pas de paramètre « minimum de jetons ». Si vous avez besoin d’une longueur minimale, précisez-la dans votre prompt.
Limites de jetons par groupe de modèles
Pour des limites de jetons, tailles de contexte et plafonds de sortie à jour, veuillez consulter la documentation du modèle concerné.
Exemples rapides
API Responses
{ "model": "gpt-5", "input": "Résumez les conclusions en ~80 mots.", "max_output_tokens": 120 }Chat Completions (modèle de raisonnement)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Rédigez cinq options d’une ligne."}], "max_completion_tokens": 100 }Contrôles spécifiques aux modèles GPT-5 : verbosity et reasoning.effort
Ces contrôles sont disponibles uniquement sur les modèles GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Les modèles de la série o et les anciens modèles ne les prennent pas en charge.
verbosity accepte "low", "medium" (par défaut) ou "high". Cela influence le niveau de détail, mais pas les limites strictes.
{ "model": "gpt-5", "input": "Expliquez PageRank à un niveau général.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort contrôle le nombre de jetons de raisonnement générés avant de produire une réponse. GPT-5.2 prend en charge none,low, medium, high,and xhigh. gpt-5.2-pro ne prend en charge que medium, high,and xhigh. Les modèles de raisonnement plus anciens ne prennent en charge que low, medium et high.
{ "model": "gpt-5", "input": "Quelle quantité d’or faudrait-il pour recouvrir la Statue de la Liberté d’une couche de 1 mm ?", "reasoning": { "effort": "minimal" } }Vous pouvez définir reasoning.effort sur none pour que le modèle se comporte comme un modèle sans raisonnement pour les cas d’usage sensibles à la latence.
Fournir des instructions précises
Demandez la longueur ou le format exacts souhaités. Exemples :
« Listez exactement cinq options. »
« Rédigez un résumé de 50 mots. »
« Pas plus de 100 jetons. Si vous avez besoin de plus, dites “Besoin de plus de place.” »
Utiliser des exemples de longueur cohérente
Des exemples few-shot qui correspondent à la longueur souhaitée aident le modèle à poursuivre le même schéma.
Appliquer des séquences d’arrêt stratégiques
Utilisez stop pour arrêter la génération lorsque le modèle atteint un délimiteur ou la limite d’une liste numérotée.
{ "stop": ["\n###", "6."] }Plusieurs candidats
Chat Completions :
nrenvoie plusieurs complétions en un seul appel.API Responses :
nn’est pas pris en charge ; effectuez plusieurs appels si vous avez besoin de plus d’une sortie.
