OpenAI
Cette page a été traduite automatiquement. Afficher l’article original en anglais.

Contrôler la longueur des réponses des modèles OpenAI

Apprenez à définir des limites de sortie pour les modèles OpenAI à l’aide des paramètres de jetons, d’instructions claires, d’exemples et de séquences d’arrêt.

Dernière mise à jour : 6 days ago

Vue d’ensemble

Contrôler la longueur de la réponse d’un modèle est utile pour plusieurs raisons : cela aide à gérer les coûts (puisque vous payez par jeton), améliore la latence/les performances (les réponses plus courtes sont renvoyées plus vite) et garantit la pertinence en évitant des sorties trop longues ou trop verbeuses.

Vous pouvez y parvenir en utilisant des plafonds de jetons, des réglages de raisonnement et de verbosité, des instructions claires, des exemples et des séquences d’arrêt. Pour les informations les plus récentes et les plus complètes, reportez-vous toujours à la référence officielle de l’API sur platform.openai.com.

Définir une longueur de sortie maximale

API Responses

Utilisée pour les modèles GPT-5 et la plupart des modèles de la série o : utilisez max_output_tokens pour plafonner le nombre de jetons que le modèle générera. Prend en charge stop, mais ne prend pas en charge les complétions multiples (n).

API Chat Completions

Utilisée pour les anciens modèles GPT-3.5, GPT-4o et parfois pour la série o.

  • Pour les modèles de raisonnement comme o3 et o4-mini, utilisez max_completion_tokens (alias de max_tokens)

  • Pour les modèles plus anciens/sans raisonnement, max_tokens fonctionne toujours

  • Prend en charge stop et n (complétions multiples).

Remarque : Il n’existe pas de paramètre « minimum de jetons ». Si vous avez besoin d’une longueur minimale, précisez-la dans votre prompt.

Limites de jetons par groupe de modèles

Pour des limites de jetons, tailles de contexte et plafonds de sortie à jour, veuillez consulter la documentation du modèle concerné.

Exemples rapides

API Responses

{ "model": "gpt-5", "input": "Résumez les conclusions en ~80 mots.", "max_output_tokens": 120 }

Chat Completions (modèle de raisonnement)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Rédigez cinq options d’une ligne."}], "max_completion_tokens": 100 }

Contrôles spécifiques aux modèles GPT-5 : verbosity et reasoning.effort

Ces contrôles sont disponibles uniquement sur les modèles GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, etc.). Les modèles de la série o et les anciens modèles ne les prennent pas en charge.

verbosity accepte "low", "medium" (par défaut) ou "high". Cela influence le niveau de détail, mais pas les limites strictes.

{ "model": "gpt-5", "input": "Expliquez PageRank à un niveau général.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort contrôle le nombre de jetons de raisonnement générés avant de produire une réponse. GPT-5.2 prend en charge none,low, medium, high,and xhigh. gpt-5.2-pro ne prend en charge que medium, high,and xhigh. Les modèles de raisonnement plus anciens ne prennent en charge que low, medium et high.

{ "model": "gpt-5", "input": "Quelle quantité d’or faudrait-il pour recouvrir la Statue de la Liberté d’une couche de 1 mm ?", "reasoning": { "effort": "minimal" } }

Vous pouvez définir reasoning.effort sur none pour que le modèle se comporte comme un modèle sans raisonnement pour les cas d’usage sensibles à la latence.

Fournir des instructions précises

Demandez la longueur ou le format exacts souhaités. Exemples :

  • « Listez exactement cinq options. »

  • « Rédigez un résumé de 50 mots. »

  • « Pas plus de 100 jetons. Si vous avez besoin de plus, dites “Besoin de plus de place.” »

Utiliser des exemples de longueur cohérente

Des exemples few-shot qui correspondent à la longueur souhaitée aident le modèle à poursuivre le même schéma.

Appliquer des séquences d’arrêt stratégiques

Utilisez stop pour arrêter la génération lorsque le modèle atteint un délimiteur ou la limite d’une liste numérotée.

{ "stop": ["\n###", "6."] }

Plusieurs candidats

  • Chat Completions : n renvoie plusieurs complétions en un seul appel.

  • API Responses : n n’est pas pris en charge ; effectuez plusieurs appels si vous avez besoin de plus d’une sortie.

Cet article vous a-t-il été utile ?