L’API Audio supporta due endpoint speech-to-text:
transcriptionstranslations
Per iniziare con l’API Audio, leggi la nostra documentazione per sviluppatori sullo speech-to-text.
Quanto costa utilizzare l’API Audio?
Consulta la nostra pagina dei prezzi per i dettagli.
Quali lingue sono supportate?
Visualizza l’elenco delle lingue supportate qui.
Come possiamo gestire file audio di grandi dimensioni?
Per i caricamenti di trascrizioni nell’API Audio legacy/whisper-1, la dimensione massima della richiesta è 25 MiB. Le route di trascrizione gpt-4o più recenti possono usare una convalida diversa, come limiti di durata o di token, quindi controlla la documentazione specifica del modello quando gestisci input audio lunghi degli utenti.
Quali metodi di streaming sono disponibili?
Esistono due modi per trasmettere in streaming la trascrizione, a seconda del caso d’uso e del fatto che tu voglia trascrivere una registrazione audio già completata o gestire un flusso audio in corso e usare OpenAI per il rilevamento dei turni:
Streaming della trascrizione di una registrazione audio completata
Streaming della trascrizione di una registrazione audio in corso
Tieni presente che lo streaming non è supportato con il modello whisper-1.
Quali formati di file sono supportati?
I formati di file supportati sono inclusi nella nostra documentazione API.
Posso inviare link a file audio all’API Audio?
No, devi inviare un file in uno dei formati audio supportati.
