Panoramica
Controllare la lunghezza della risposta di un modello è utile per diversi motivi: aiuta a gestire i costi (dato che paghi per token), migliora latenza/prestazioni (le risposte più brevi arrivano più velocemente) e garantisce pertinenza evitando output eccessivamente lunghi o prolissi.
Puoi farlo usando limiti di token, impostazioni di ragionamento e verbosità, istruzioni chiare, esempi e sequenze di stop. Per i dettagli più aggiornati e completi, fai sempre riferimento alla documentazione API ufficiale su platform.openai.com.
Impostare una lunghezza massima di output
Responses API
Usata per i modelli GPT-5 e la maggior parte dei modelli della serie o: usa max_output_tokens per limitare il numero di token che il modello genererà. Supporta stop, ma non supporta completamenti multipli (n).
Chat Completions API
Usata per i legacy GPT-3.5, GPT-4o e talvolta per la serie o.
Per i modelli di ragionamento come o3 e o4-mini, usa
max_completion_tokens(alias dimax_tokens)Per i modelli precedenti/non di ragionamento,
max_tokenscontinua a funzionareSupporta
stopen(completamenti multipli).
Nota: non esiste un’impostazione per i “token minimi”. Se ti serve una lunghezza minima, specificala nel prompt.
Limiti di token per gruppo di modelli
Per limiti di token, dimensioni del contesto e limiti di output aggiornati, consulta la documentazione del modello specifico.
Esempi rapidi
Responses API
{ "model": "gpt-5", "input": "Riassumi i risultati in ~80 parole.", "max_output_tokens": 120 }Chat Completions (modello di ragionamento)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Scrivi cinque opzioni su una sola riga."}], "max_completion_tokens": 100 }Controlli specifici dei modelli GPT-5: verbosity e reasoning.effort
Questi controlli sono disponibili solo sui modelli GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, ecc.). La serie o e i modelli legacy non li supportano.
verbosity accetta "low", "medium" (predefinito) o "high". Influenza il livello di dettaglio ma non i limiti rigidi.
{ "model": "gpt-5", "input": "Spiega PageRank ad alto livello.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }reasoning.effort controlla quanti token di ragionamento vengono generati prima di produrre una risposta. GPT-5.2 supporta none,low, medium, high,and xhigh. gpt-5.2-pro supporta solo medium, high,and xhigh. I modelli di ragionamento precedenti supportano solo low, medium e high.
{ "model": "gpt-5", "input": "Quanto oro servirebbe per rivestire la Statua della Libertà con uno strato di 1 mm?", "reasoning": { "effort": "minimal" } }Puoi impostare reasoning.effort su none per fare in modo che il modello si comporti come un modello non di ragionamento in casi d’uso sensibili alla latenza.
Fornisci istruzioni specifiche
Chiedi esattamente la lunghezza o la struttura che desideri. Esempi:
“Elenca esattamente cinque opzioni.”
“Scrivi un riassunto di 50 parole.”
“Non più di 100 token. Se ti serve di più, di’ ‘Serve più spazio.’”
Usa esempi con lunghezza coerente
Esempi few-shot che corrispondono alla lunghezza desiderata aiutano il modello a continuare il pattern.
Applica sequenze di stop in modo strategico
Usa stop per interrompere la generazione quando il modello raggiunge un delimitatore o il confine di un elenco numerato.
{ "stop": ["\n###", "6."] }Più candidate
Chat Completions:
nrestituisce più completamenti in un’unica chiamata.Responses API:
nnon è supportato; esegui più chiamate se ti serve più di un output.
