Ora offriamo l’elaborazione prioritaria ai clienti Enterprise dell’API che desiderano prestazioni più rapide e più costanti su alcuni modelli. Di seguito trovi le risposte alle domande più comuni su come funziona, prezzi, disponibilità dei modelli, limiti di velocità, affidabilità, policy e idoneità.

Scopri di più qui.

Accesso

Chi può accedere all’elaborazione prioritaria?

L’elaborazione prioritaria è attualmente disponibile per i clienti Enterprise.

L’elaborazione prioritaria è disponibile in tutte le regioni?

La disponibilità dell’elaborazione prioritaria dipende dalle leggi e dai regolamenti applicabili in ciascuna giurisdizione. Contatta il tuo Account Director se hai domande sulla disponibilità nella tua regione.

Prezzi

Come posso iniziare a usare l’elaborazione prioritaria?

I clienti possono indirizzare il traffico verso l’elaborazione prioritaria per singola richiesta usando il parametro esistente service_tier, con l’opzione service_tier="priority".

Come interagisce con Scale Tier?

Scale Tier rimarrà separato dall’elaborazione prioritaria. Le richieste inviate all’elaborazione prioritaria saranno fatturate separatamente e non verranno conteggiate rispetto ai bundle TPM di Scale Tier acquistati.

Posso inviare automaticamente all’elaborazione prioritaria il traffico in overflow di Scale Tier?

No. Il traffico inviato a Scale Tier non andrà automaticamente in overflow verso l’elaborazione prioritaria.

Come viene fatturata l’elaborazione prioritaria?

I token serviti dall’elaborazione prioritaria saranno fatturati per token, con un prezzo premium rispetto alle tariffe di elaborazione Standard.

Il mio impegno annuale è legato a una modalità di elaborazione specifica?

No. Tutte le modalità di elaborazione concorrono al tuo impegno annuale di spesa Enterprise.

Ricevo ancora lo sconto sui token di input in cache?

Sì! Gli input in cache ricevono lo stesso sconto del 50–75% che ricevono nell’elaborazione Standard.

Come posso visualizzare l’utilizzo e la spesa dell’elaborazione prioritaria?

Per visualizzare i token elaborati dall’elaborazione prioritaria, vai alla dashboard di utilizzo, seleziona Chat Completions o Responses e raggruppa per Service Tier. Per visualizzare il costo dell’elaborazione prioritaria, vai alla dashboard di utilizzo e seleziona Raggruppa per Line Item.

Modelli

L’elaborazione prioritaria è disponibile per contesti lunghi, modelli fine-tuned, embeddings, ecc.?

Non al momento. In futuro valuteremo se offrire l’elaborazione prioritaria su prodotti aggiuntivi oltre ai nostri modelli più recenti.

Come funzionano le altre modalità con l’elaborazione prioritaria?

L’elaborazione prioritaria supporta le stesse capacità multimodali disponibili nello Standard. In particolare, le immagini possono essere utilizzate come input per l’elaborazione prioritaria e vengono elaborate con la stessa latenza ridotta.

I modelli futuri saranno supportati?

Prevediamo di offrire l’elaborazione prioritaria sui nuovi modelli GPT, ma non garantiamo che ogni modello sarà supportato.

Limiti di velocità

Quali sono i limiti di velocità?

Il consumo dell’elaborazione prioritaria viene trattato allo stesso modo del traffico API standard ai fini dei limiti di velocità.

Quali sono i limiti di ramp rate?

L’elaborazione prioritaria prevede limiti di ramp rate per garantire prestazioni costantemente elevate per tutti i clienti, offrendo al contempo prezzi flessibili on-demand. Se (a) le prestazioni dell’elaborazione prioritaria sono degradate E (b) il traffico di un cliente aumenta troppo rapidamente, allora in rari casi alcune richieste Priority possono essere invece declassate all’elaborazione Standard.

L’attuale limite di ramp rate dell’elaborazione prioritaria è definito nella nostra documentazione principale qui.

Best practice per rimanere entro il tuo limite di ramp rate

Aumenta gradualmente il traffico quando cambi modello. Per esempio, se la tua applicazione sta passando da uno snapshot precedente a uno nuovo, usa un feature flag per trasferire il traffico nell’arco di alcune ore, invece che tutto insieme.
Evita di eseguire grandi elaborazioni di dati o job asincroni nell’elaborazione prioritaria. Questi job possono far crescere il traffico molto rapidamente e spesso non hanno bisogno delle prestazioni migliorate dell’elaborazione prioritaria.
Se ti imbatti spesso nei limiti di ramp rate, valuta invece l’acquisto di quota Scale tier.

I limiti di ramp rate sono condivisi tra i miei progetti o le mie organizzazioni?

Sì, tutto il tuo traffico contribuisce allo stesso limite di ramp rate.

Policy

Cosa succede se l’elaborazione prioritaria non rispetta l’obiettivo di latenza?

Contatta il tuo AD per qualsiasi domanda o dubbio. Gli SLA dell’elaborazione prioritaria saranno trattati allo stesso modo degli SLA di Scale Tier; verranno offerti crediti di servizio qualora non riuscissimo a rispettare tali SLA per i clienti con accordi Enterprise durante una determinata finestra temporale.

L’elaborazione prioritaria è compatibile con Data Residency?

Sì.

L’elaborazione prioritaria è compatibile con ZDR e la BAA?

Sì.

FAQ sull’elaborazione prioritaria