OpenAI
Questa pagina è stata tradotta automaticamente. Visualizza l'articolo originale in inglese.

Controllare la lunghezza delle risposte dei modelli OpenAI

Scopri come impostare limiti di output per i modelli OpenAI usando impostazioni dei token, prompt chiari, esempi e sequenze di stop.

Aggiornato: 7 days ago

Panoramica

Controllare la lunghezza della risposta di un modello è utile per diversi motivi: aiuta a gestire i costi (dato che paghi per token), migliora latenza/prestazioni (le risposte più brevi arrivano più velocemente) e garantisce pertinenza evitando output eccessivamente lunghi o prolissi.

Puoi farlo usando limiti di token, impostazioni di ragionamento e verbosità, istruzioni chiare, esempi e sequenze di stop. Per i dettagli più aggiornati e completi, fai sempre riferimento alla documentazione API ufficiale su platform.openai.com.

Impostare una lunghezza massima di output

Responses API

Usata per i modelli GPT-5 e la maggior parte dei modelli della serie o: usa max_output_tokens per limitare il numero di token che il modello genererà. Supporta stop, ma non supporta completamenti multipli (n).

Chat Completions API

Usata per i legacy GPT-3.5, GPT-4o e talvolta per la serie o.

  • Per i modelli di ragionamento come o3 e o4-mini, usa max_completion_tokens (alias di max_tokens)

  • Per i modelli precedenti/non di ragionamento, max_tokens continua a funzionare

  • Supporta stop e n (completamenti multipli).

Nota: non esiste un’impostazione per i “token minimi”. Se ti serve una lunghezza minima, specificala nel prompt.

Limiti di token per gruppo di modelli

Per limiti di token, dimensioni del contesto e limiti di output aggiornati, consulta la documentazione del modello specifico.

Esempi rapidi

Responses API

{ "model": "gpt-5", "input": "Riassumi i risultati in ~80 parole.", "max_output_tokens": 120 }

Chat Completions (modello di ragionamento)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Scrivi cinque opzioni su una sola riga."}], "max_completion_tokens": 100 }

Controlli specifici dei modelli GPT-5: verbosity e reasoning.effort

Questi controlli sono disponibili solo sui modelli GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro, ecc.). La serie o e i modelli legacy non li supportano.

verbosity accetta "low", "medium" (predefinito) o "high". Influenza il livello di dettaglio ma non i limiti rigidi.

{ "model": "gpt-5", "input": "Spiega PageRank ad alto livello.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

reasoning.effort controlla quanti token di ragionamento vengono generati prima di produrre una risposta. GPT-5.2 supporta none,low, medium, high,and xhigh. gpt-5.2-pro supporta solo medium, high,and xhigh. I modelli di ragionamento precedenti supportano solo low, medium e high.

{ "model": "gpt-5", "input": "Quanto oro servirebbe per rivestire la Statua della Libertà con uno strato di 1 mm?", "reasoning": { "effort": "minimal" } }

Puoi impostare reasoning.effort su none per fare in modo che il modello si comporti come un modello non di ragionamento in casi d’uso sensibili alla latenza.

Fornisci istruzioni specifiche

Chiedi esattamente la lunghezza o la struttura che desideri. Esempi:

  • “Elenca esattamente cinque opzioni.”

  • “Scrivi un riassunto di 50 parole.”

  • “Non più di 100 token. Se ti serve di più, di’ ‘Serve più spazio.’”

Usa esempi con lunghezza coerente

Esempi few-shot che corrispondono alla lunghezza desiderata aiutano il modello a continuare il pattern.

Applica sequenze di stop in modo strategico

Usa stop per interrompere la generazione quando il modello raggiunge un delimitatore o il confine di un elenco numerato.

{ "stop": ["\n###", "6."] }

Più candidate

  • Chat Completions: n restituisce più completamenti in un’unica chiamata.

  • Responses API: n non è supportato; esegui più chiamate se ti serve più di un output.

Questo articolo è stato utile?