OpenAI
Questa pagina è stata tradotta automaticamente. Visualizza l'articolo originale in inglese.

FAQ dell’API Audio

Domande generali su Whisper, speech-to-text e API Audio

Aggiornato: 7 days ago

L’API Audio supporta due endpoint speech-to-text:

  • transcriptions

  • translations

Per iniziare con l’API Audio, leggi la nostra documentazione per sviluppatori sullo speech-to-text.

Quanto costa utilizzare l’API Audio?

Consulta la nostra pagina dei prezzi per i dettagli.

Quali lingue sono supportate?

Visualizza l’elenco delle lingue supportate qui.

Come possiamo gestire file audio di grandi dimensioni?

Per i caricamenti di trascrizioni nell’API Audio legacy/whisper-1, la dimensione massima della richiesta è 25 MiB. Le route di trascrizione gpt-4o più recenti possono usare una convalida diversa, come limiti di durata o di token, quindi controlla la documentazione specifica del modello quando gestisci input audio lunghi degli utenti.

Quali metodi di streaming sono disponibili?

Esistono due modi per trasmettere in streaming la trascrizione, a seconda del caso d’uso e del fatto che tu voglia trascrivere una registrazione audio già completata o gestire un flusso audio in corso e usare OpenAI per il rilevamento dei turni:

Tieni presente che lo streaming non è supportato con il modello whisper-1.

Quali formati di file sono supportati?

I formati di file supportati sono inclusi nella nostra documentazione API.

Posso inviare link a file audio all’API Audio?

No, devi inviare un file in uno dei formati audio supportati.

Questo articolo è stato utile?