Omówienie
Kontrolowanie długości odpowiedzi modelu jest przydatne z kilku powodów: pomaga zarządzać kosztami (ponieważ płacisz za token), poprawia opóźnienia i wydajność (krótsze odpowiedzi są zwracane szybciej) oraz zapewnia trafność, zapobiegając zbyt długim lub rozwlekłym wynikom.
Możesz to osiągnąć za pomocą limitów tokenów, ustawień rozumowania i szczegółowości, jasnych instrukcji, przykładów oraz sekwencji zatrzymania. Najbardziej aktualne i kompletne informacje zawsze znajdziesz w oficjalnej dokumentacji API na platform.openai.com.
Ustaw maksymalną długość danych wyjściowych
Interfejs API Responses
Używany w modelach GPT-5 i większości modeli z serii o: użyj max_output_tokens, aby ograniczyć liczbę tokenów generowanych przez model. W przypadku żądań compaction_trigger pomiń max_output_tokens albo ustaw je na co najmniej 20000; mniejsze wartości są odrzucane. Interfejs API Responses nie obsługuje wielu zakończeń (n).
API zakończenia czatu
Używane w przypadku starszych modeli GPT-3.5 i GPT-4o, a czasem modeli z serii o.
W przypadku modeli rozumujących, takich jak o3 i o4-mini, użyj
max_completion_tokens(aliasumax_tokens)W przypadku wcześniejszych modeli lub modeli nierozumujących
max_tokensnadal działaObsługuje
stopin(wiele zakończeń).
Uwaga: Nie ma ustawienia „minimalna liczba tokenów”. Jeśli potrzebujesz minimalnej długości, określ to w poleceniu.
Limity tokenów według grup modeli
Aktualne limity tokenów, rozmiary kontekstu i limity danych wyjściowych znajdziesz w dokumentacji konkretnego modelu.
Szybkie przykłady
Interfejs API Responses
{ "model": "gpt-5", "input": "Podsumuj ustalenia w ~80 słowach.", "max_output_tokens": 120 }Zakończenia czatu (model rozumujący)
{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }Ustawienia właściwe dla modeli GPT-5: verbosity i reasoning.effort
Te ustawienia są dostępne tylko w modelach GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro itd.). Modele serii O i starsze modele ich nie obsługują.
`verbosity` przyjmuje wartości "low", "medium" (domyślnie) lub "high". Wpływa na poziom szczegółowości, ale nie na sztywne limity.
{ "model": "gpt-5", "input": "Wyjaśnij ogólnie, czym jest PageRank.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }`reasoning.effort` określa, ile tokenów rozumowania jest generowanych przed przygotowaniem odpowiedzi. GPT-5.2 obsługuje none,low, medium, high,and xhigh. gpt-5.2-pro obsługuje tylko medium, high,and xhigh. Wcześniejsze modele rozumujące obsługują tylko low, medium i high.
{ "model": "gpt-5", "input": "Ile złota potrzeba, aby pokryć Statuę Wolności warstwą o grubości 1 mm?", "reasoning": { "effort": "minimal" } }Możesz ustawić `reasoning.effort` na none, aby model działał jak model nierozumujący w zastosowaniach wrażliwych na opóźnienia.
Podaj konkretne instrukcje
Poproś o dokładnie taką długość lub formę, jakiej potrzebujesz. Przykłady:
„Wymień dokładnie pięć opcji”.
„Napisz podsumowanie na 50 słów”.
„Nie więcej niż 100 tokenów. Jeśli potrzebujesz więcej miejsca, napisz: ‚Potrzebuję więcej miejsca.’”
Używaj przykładów o spójnej długości
Kilka przykładów dopasowanych do oczekiwanej długości pomaga modelowi kontynuować wzorzec.
Stosuj strategiczne sekwencje zatrzymania
Użyj stop, aby zatrzymać generowanie, gdy model dotrze do separatora lub granicy listy numerowanej.
{ "stop": ["
###", "6."] }Wiele wariantów
Zakończenia czatu:
nzwraca wiele zakończeń w jednym wywołaniu.Interfejs API Responses:
nnie jest obsługiwane; jeśli potrzebujesz więcej niż jednego wyniku, wykonaj wiele wywołań.
