Ontdek hoe je outputlimieten voor OpenAI-modellen instelt met tokeninstellingen, duidelijke prompts, voorbeelden en stopsequenties.

Overzicht

De lengte van het antwoord van een model beheren is om verschillende redenen nuttig: het helpt de kosten te beheersen (omdat je per token betaalt), verbetert latentie/prestaties (kortere antwoorden worden sneller teruggegeven) en waarborgt de relevantie door te lange of te uitvoerige output te voorkomen.

Je kunt dit bereiken met tokenlimieten, instellingen voor redenering en uitvoerigheid, duidelijke instructies, voorbeelden en stopsequenties. Raadpleeg voor de meest actuele en volledige informatie altijd de officiële API-referentie op platform.openai.com.

Stel een maximale uitvoerlengte in

Responses-API

Wordt gebruikt voor GPT-5-modellen en de meeste modellen uit de o-serie: gebruik max_output_tokens om het aantal tokens dat het model genereert te begrenzen. Laat bij compaction_trigger-verzoeken max_output_tokens weg of stel dit in op ten minste 20000; kleinere waarden worden geweigerd. De Responses-API ondersteunt geen meerdere voltooiingen (n).

Chat Completions-API

Wordt gebruikt voor oudere GPT-3.5-modellen, GPT-4o en soms modellen uit de o-serie.

Gebruik voor redenerende modellen zoals o3 en o4-mini max_completion_tokens (alias van max_tokens)
Voor eerdere/niet-redenerende modellen werkt max_tokens nog steeds
Ondersteunt stop en n (meerdere voltooiingen).

Opmerking: Er is geen instelling voor ‘minimale tokens’. Als je een minimumlengte nodig hebt, specificeer die dan in je prompt.

Tokenlimieten per modelgroep

Raadpleeg voor actuele tokenlimieten, contextgroottes en uitvoerlimieten de documentatie voor het specifieke model.

Korte voorbeelden

Responses-API

{ "model": "gpt-5", "input": "Vat de bevindingen samen in ~80 woorden.", "max_output_tokens": 120 }

Chat Completions (redenerend model)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Specifieke instellingen voor GPT-5-modellen: `verbosity` en `reasoning.effort`

Deze instellingen zijn alleen beschikbaar voor GPT-5-modellen (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, enz.). Modellen uit de o-serie en oudere modellen ondersteunen ze niet.

`verbosity` accepteert "low", "medium" (standaard) of "high". Het beïnvloedt het detailniveau, maar geen harde limieten.

{ "model": "gpt-5", "input": "Leg PageRank op hoofdlijnen uit.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` bepaalt hoeveel redeneringstokens er worden gegenereerd voordat er een antwoord komt. GPT-5.2 ondersteunt none,low, medium, high,and xhigh. gpt-5.2-pro ondersteunt alleen medium, high,and xhigh. Eerdere redenerende modellen ondersteunen alleen low, medium en high.

{ "model": "gpt-5", "input": "Hoeveel goud zou er nodig zijn om het Vrijheidsbeeld met een laag van 1 mm te bedekken?", "reasoning": { "effort": "minimal" } }

Je kunt `reasoning.effort` instellen op none, zodat het model zich bij latentiegevoelige toepassingen gedraagt als een niet-redenerend model.

Geef specifieke instructies

Vraag om de exacte lengte of vorm die je wilt. Voorbeelden:

“Noem precies vijf opties.”
“Schrijf een samenvatting van 50 woorden.”
“Niet meer dan 100 tokens. Als je meer nodig hebt, zeg dan: ‘Meer ruimte nodig.’”

Gebruik voorbeelden met een consistente lengte

Few-shot-voorbeelden die overeenkomen met je gewenste lengte helpen het model het patroon voort te zetten.

Strategische stopsequenties toepassen

Gebruik stop om de generatie te stoppen wanneer het model een scheidingsteken of de grens van een genummerde lijst bereikt.

{ "stop": ["
###", "6."] }

Meerdere kandidaten

Chat Completions: n retourneert meerdere voltooiingen in één aanroep.
Responses-API: n wordt niet ondersteund; doe meerdere aanroepen als je meer dan één output nodig hebt.

De lengte van reacties van OpenAI-modellen regelen

Overzicht

Stel een maximale uitvoerlengte in

Responses-API

Chat Completions-API

Tokenlimieten per modelgroep

Korte voorbeelden

Specifieke instellingen voor GPT-5-modellen: `verbosity` en `reasoning.effort`

Geef specifieke instructies

Gebruik voorbeelden met een consistente lengte

Strategische stopsequenties toepassen

Meerdere kandidaten

Was dit artikel nuttig?

De lengte van reacties van OpenAI-modellen regelen

Overzicht

Stel een maximale uitvoerlengte in

Responses-API

Chat Completions-API

Tokenlimieten per modelgroep

Korte voorbeelden

Specifieke instellingen voor GPT-5-modellen: verbosity en reasoning.effort

Geef specifieke instructies

Gebruik voorbeelden met een consistente lengte

Strategische stopsequenties toepassen

Meerdere kandidaten

Was dit artikel nuttig?

Specifieke instellingen voor GPT-5-modellen: `verbosity` en `reasoning.effort`