Oferujemy teraz przetwarzanie priorytetowe klientom Enterprise API, którzy chcą uzyskać dostęp do szybszej i bardziej spójnej wydajności w wybranych modelach. Poniżej znajdują się odpowiedzi na częste pytania o to, jak to działa, ceny, dostępność modeli, limity zapytań, niezawodność, zasady i kwalifikowalność.
Dowiedz się więcej tutaj.
Dostęp
Kto może uzyskać dostęp do przetwarzania priorytetowego?
Przetwarzanie priorytetowe jest obecnie dostępne dla klientów Enterprise.
Czy przetwarzanie priorytetowe jest dostępne we wszystkich regionach?
Dostępność przetwarzania priorytetowego zależy od obowiązujących przepisów prawa i regulacji w każdej jurysdykcji. Jeśli masz pytania dotyczące dostępności w swoim regionie, skontaktuj się ze swoim Account Director.
Cennik
Jak zacząć korzystać z przetwarzania priorytetowego?
Klienci mogą kierować ruch do przetwarzania priorytetowego dla każdego żądania z osobna, używając istniejącego parametru service_tier z opcją service_tier="priority".
Jak to współdziała z ofertą Skalowaną?
Oferta Skalowana pozostanie oddzielna od przetwarzania priorytetowego. Żądania wysyłane do przetwarzania priorytetowego będą rozliczane oddzielnie i nie będą wliczać się do zakupionych pakietów TPM oferty Skalowanej.
Czy mogę automatycznie wysyłać ruch nadmiarowy z oferty Skalowanej do przetwarzania priorytetowego?
Nie. Ruch wysłany do oferty Skalowanej nie zostanie automatycznie przekierowany jako nadmiarowy do przetwarzania priorytetowego.
Jak rozliczane jest przetwarzanie priorytetowe?
Tokeny obsłużone przez przetwarzanie priorytetowe będą rozliczane na podstawie liczby tokenów, według stawek premium względem stawek za przetwarzanie standardowe.
Czy moje roczne zobowiązanie jest powiązane z konkretnym trybem przetwarzania?
Nie. Wszystkie tryby przetwarzania wliczają się do rocznego zobowiązania wydatków w planie Enterprise.
Czy nadal otrzymuję zniżkę na tokeny danych wejściowych z pamięci podręcznej?
Tak! Dane wejściowe z pamięci podręcznej otrzymują tę samą zniżkę 50–75% co w przypadku przetwarzania standardowego.
Jak wyświetlić użycie i wydatki dotyczące przetwarzania priorytetowego?
Aby wyświetlić tokeny przetworzone przez przetwarzanie priorytetowe, przejdź do pulpitu Użycie, wybierz Chat Completions lub Responses i opcję Grupuj według poziomu planu. Aby wyświetlić koszt przetwarzania priorytetowego, przejdź do pulpitu Użycie i wybierz opcję Grupuj według pozycji.
Modele
Czy przetwarzanie priorytetowe jest dostępne dla długiego kontekstu, dostrojonych modeli, osadzeń itp.?
Nie w tej chwili. W przyszłości ocenimy, czy oferować przetwarzanie priorytetowe w dodatkowych produktach wykraczających poza nasze najnowsze modele.
Jak inne modalności działają z przetwarzaniem priorytetowym?
Przetwarzanie priorytetowe obsługuje te same możliwości multimodalne, które są dostępne w Standard. W szczególności obrazy mogą być używane jako dane wejściowe do przetwarzania priorytetowego i są przetwarzane z takim samym krótkim czasem opóźnienia.
Czy przyszłe modele będą obsługiwane?
Planujemy oferować przetwarzanie priorytetowe w nowych modelach GPT, ale nie gwarantujemy, że każdy model będzie obsługiwany.
Limity zapytań
Jakie są limity zapytań?
Zużycie przetwarzania priorytetowego jest traktowane na potrzeby limitów zapytań tak samo jak standardowy ruch API.
Czym są limity zapytań przy zwiększaniu ruchu?
Przetwarzanie priorytetowe ma limity zapytań przy zwiększaniu ruchu, aby zapewnić stale wysoką wydajność wszystkim klientom, a jednocześnie oferować elastyczne ceny na żądanie. Jeśli (a) wydajność przetwarzania priorytetowego ulegnie pogorszeniu ORAZ (b) ruch klienta rośnie zbyt szybko, w rzadkich przypadkach niektóre żądania priorytetowe mogą zostać zamiast tego obniżone do przetwarzania standardowego.
Obecny limit zapytań przy zwiększaniu ruchu dla przetwarzania priorytetowego jest zdefiniowany w naszej głównej dokumentacji tutaj.
Najlepsze praktyki pozostawania w ramach limitu zapytań przy zwiększaniu ruchu
Stopniowo zwiększaj ruch podczas zmiany modeli. Na przykład, jeśli Twoja aplikacja przechodzi z poprzedniego snapshotu na nowy, użyj flagi funkcji, aby przenosić ruch w ciągu kilku godzin, zamiast robić to naraz.
Unikaj uruchamiania dużych zadań przetwarzania danych lub zadań asynchronicznych w przetwarzaniu priorytetowym. Te zadania mogą bardzo szybko zwiększać ruch i często nie wymagają lepszej wydajności przetwarzania priorytetowego.
Jeśli regularnie napotykasz limity zapytań przy zwiększaniu ruchu, rozważ zamiast tego zakup limitu oferty Skalowanej.
Czy limity zapytań przy zwiększaniu ruchu są współdzielone między moimi projektami lub organizacjami?
Tak, cały Twój ruch przyczynia się do tego samego limitu zapytań przy zwiększaniu ruchu.
Zasady
Co się stanie, jeśli przetwarzanie priorytetowe nie spełnia docelowego czasu opóźnienia?
W razie pytań lub wątpliwości skontaktuj się ze swoim AD. Umowy SLA dotyczące przetwarzania priorytetowego będą traktowane tak samo jak umowy SLA oferty Skalowanej; kredyty za usługi będą oferowane, jeśli nie spełnimy tych umów SLA dla klientów na umowach Enterprise w danym oknie czasowym.
Czy przetwarzanie priorytetowe jest zgodne z rezydencją danych?
Tak.
Czy przetwarzanie priorytetowe jest zgodne z ZDR i BAA?
Tak.
