OpenAI
Ta strona została przetłumaczona maszynowo. Wyświetl oryginalny artykuł w języku angielskim.

Kontrolowanie długości odpowiedzi modeli OpenAI

Dowiedz się, jak ustawiać limity długości odpowiedzi modeli OpenAI za pomocą ustawień tokenów, jasnych poleceń, przykładów i sekwencji stop.

Zaktualizowano: 5 days ago

Omówienie

Kontrolowanie długości odpowiedzi modelu jest przydatne z kilku powodów: pomaga zarządzać kosztami (ponieważ płacisz za token), poprawia opóźnienia i wydajność (krótsze odpowiedzi są zwracane szybciej) oraz zapewnia trafność, zapobiegając zbyt długim lub rozwlekłym wynikom.

Możesz to osiągnąć za pomocą limitów tokenów, ustawień rozumowania i szczegółowości, jasnych instrukcji, przykładów oraz sekwencji zatrzymania. Najbardziej aktualne i kompletne informacje zawsze znajdziesz w oficjalnej dokumentacji API na platform.openai.com.

Ustaw maksymalną długość danych wyjściowych

Interfejs API Responses

Używany w modelach GPT-5 i większości modeli z serii o: użyj max_output_tokens, aby ograniczyć liczbę tokenów generowanych przez model. W przypadku żądań compaction_trigger pomiń max_output_tokens albo ustaw je na co najmniej 20000; mniejsze wartości są odrzucane. Interfejs API Responses nie obsługuje wielu zakończeń (n).

API zakończenia czatu

Używane w przypadku starszych modeli GPT-3.5 i GPT-4o, a czasem modeli z serii o.

  • W przypadku modeli rozumujących, takich jak o3 i o4-mini, użyj max_completion_tokens (aliasu max_tokens)

  • W przypadku wcześniejszych modeli lub modeli nierozumujących max_tokens nadal działa

  • Obsługuje stop i n (wiele zakończeń).

Uwaga: Nie ma ustawienia „minimalna liczba tokenów”. Jeśli potrzebujesz minimalnej długości, określ to w poleceniu.

Limity tokenów według grup modeli

Aktualne limity tokenów, rozmiary kontekstu i limity danych wyjściowych znajdziesz w dokumentacji konkretnego modelu.

Szybkie przykłady

Interfejs API Responses

{ "model": "gpt-5", "input": "Podsumuj ustalenia w ~80 słowach.", "max_output_tokens": 120 }

Zakończenia czatu (model rozumujący)

{ "model": "o3-mini", "messages": [{"role": "user", "content": "Write five one-line options."}], "max_completion_tokens": 100 }

Ustawienia właściwe dla modeli GPT-5: verbosity i reasoning.effort

Te ustawienia są dostępne tylko w modelach GPT-5 (gpt-5.2, gpt-5.2-chat-latest, gpt-5.2 pro itd.). Modele serii O i starsze modele ich nie obsługują.

`verbosity` przyjmuje wartości "low", "medium" (domyślnie) lub "high". Wpływa na poziom szczegółowości, ale nie na sztywne limity.

{ "model": "gpt-5", "input": "Wyjaśnij ogólnie, czym jest PageRank.", "text": { "verbosity": "low" }, "max_output_tokens": 200 }

`reasoning.effort` określa, ile tokenów rozumowania jest generowanych przed przygotowaniem odpowiedzi. GPT-5.2 obsługuje none,low, medium, high,and xhigh. gpt-5.2-pro obsługuje tylko medium, high,and xhigh. Wcześniejsze modele rozumujące obsługują tylko low, medium i high.

{ "model": "gpt-5", "input": "Ile złota potrzeba, aby pokryć Statuę Wolności warstwą o grubości 1 mm?", "reasoning": { "effort": "minimal" } }

Możesz ustawić `reasoning.effort` na none, aby model działał jak model nierozumujący w zastosowaniach wrażliwych na opóźnienia.

Podaj konkretne instrukcje

Poproś o dokładnie taką długość lub formę, jakiej potrzebujesz. Przykłady:

  • „Wymień dokładnie pięć opcji”.

  • „Napisz podsumowanie na 50 słów”.

  • „Nie więcej niż 100 tokenów. Jeśli potrzebujesz więcej miejsca, napisz: ‚Potrzebuję więcej miejsca.’”

Używaj przykładów o spójnej długości

Kilka przykładów dopasowanych do oczekiwanej długości pomaga modelowi kontynuować wzorzec.

Stosuj strategiczne sekwencje zatrzymania

Użyj stop, aby zatrzymać generowanie, gdy model dotrze do separatora lub granicy listy numerowanej.

{ "stop": ["
###", "6."] }

Wiele wariantów

  • Zakończenia czatu: n zwraca wiele zakończeń w jednym wywołaniu.

  • Interfejs API Responses: n nie jest obsługiwane; jeśli potrzebujesz więcej niż jednego wyniku, wykonaj wiele wywołań.

Czy ten artykuł był pomocny?