Overzicht
De lengte van het antwoord van een model beheren is om verschillende redenen nuttig: het helpt de kosten te beheersen (omdat je per token betaalt), verbetert latentie/prestaties (kortere antwoorden worden sneller teruggegeven) en waarborgt de relevantie door te lange of te uitvoerige output te voorkomen.
Je kunt dit bereiken met tokenlimieten, instellingen voor redenering en uitvoerigheid, duidelijke instructies, voorbeelden en stopsequenties. Raadpleeg voor de meest actuele en volledige informatie altijd de officiële API-referentie op platform.openai.com.
Stel een maximale uitvoerlengte in
Responses-API
Wordt gebruikt voor GPT-5-modellen en de meeste modellen uit de o-serie: gebruik max_output_tokens om het aantal tokens dat het model genereert te begrenzen. Laat bij compaction_trigger-verzoeken max_output_tokens weg of stel dit in op ten minste 20000; kleinere waarden worden geweigerd. De Responses-API ondersteunt geen meerdere voltooiingen (n).
Chat Completions-API
Wordt gebruikt voor oudere GPT-3.5-modellen, GPT-4o en soms modellen uit de o-serie.
Gebruik voor redenerende modellen zoals o3 en o4-mini
max_completion_tokens(alias vanmax_tokens)Voor eerdere/niet-redenerende modellen werkt
max_tokensnog steedsOndersteunt
stopenn(meerdere voltooiingen).
Opmerking: Er is geen instelling voor ‘minimale tokens’. Als je een minimumlengte nodig hebt, specificeer die dan in je prompt.
Tokenlimieten per modelgroep
Raadpleeg voor actuele tokenlimieten, contextgroottes en uitvoerlimieten de documentatie voor het specifieke model.
Korte voorbeelden
Responses-API
{ "model": "gpt-5", "input": "Vat de bevindingen samen in ~80 woorden.", "max_output_tokens": 120 }Chat Completions (redenerend model)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Specifieke instellingen voor GPT-5-modellen: verbosity en reasoning.effort
Deze instellingen zijn alleen beschikbaar voor GPT-5-modellen (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, enz.). Modellen uit de o-serie en oudere modellen ondersteunen ze niet.
`verbosity` accepteert "low", "medium" (standaard) of "high". Het beïnvloedt het detailniveau, maar geen harde limieten.
{ "model": "gpt-5", "input": "Leg PageRank op hoofdlijnen uit.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` bepaalt hoeveel redeneringstokens er worden gegenereerd voordat er een antwoord komt. GPT-5.2 ondersteunt none,low, medium, high,and xhigh. gpt-5.2-pro ondersteunt alleen medium, high,and xhigh. Eerdere redenerende modellen ondersteunen alleen low, medium en high.
{ "model": "gpt-5", "input": "Hoeveel goud zou er nodig zijn om het Vrijheidsbeeld met een laag van 1 mm te bedekken?", "reasoning": { "effort": "minimal" } }Je kunt `reasoning.effort` instellen op none, zodat het model zich bij latentiegevoelige toepassingen gedraagt als een niet-redenerend model.
Geef specifieke instructies
Vraag om de exacte lengte of vorm die je wilt. Voorbeelden:
“Noem precies vijf opties.”
“Schrijf een samenvatting van 50 woorden.”
“Niet meer dan 100 tokens. Als je meer nodig hebt, zeg dan: ‘Meer ruimte nodig.’”
Gebruik voorbeelden met een consistente lengte
Few-shot-voorbeelden die overeenkomen met je gewenste lengte helpen het model het patroon voort te zetten.
Strategische stopsequenties toepassen
Gebruik stop om de generatie te stoppen wanneer het model een scheidingsteken of de grens van een genummerde lijst bereikt.
{ "stop": ["
###", "6."] }Meerdere kandidaten
Chat Completions:
nretourneert meerdere voltooiingen in één aanroep.Responses-API:
nwordt niet ondersteund; doe meerdere aanroepen als je meer dan één output nodig hebt.
