FAQ de l’API Audio

Questions générales sur Whisper, la conversion de la parole en texte et l’API Audio

L’API Audio prend en charge deux endpoints de conversion de la parole en texte :

transcriptions
translations

Pour commencer avec l’API Audio, veuillez lire notre documentation développeur sur la conversion de la parole en texte.

Combien coûte l’utilisation de l’API Audio ?

Consultez notre page de tarification pour plus de détails.

Quelles langues sont prises en charge ?

Consultez une liste des langues prises en charge ici.

Comment gérer les fichiers audio volumineux ?

Pour les téléversements de transcription de l’API Audio legacy/whisper-1, la taille maximale de requête est de 25 Mio. Les routes de transcription gpt-4o plus récentes peuvent utiliser une validation différente, par exemple des limites de durée ou de tokens ; consultez donc la documentation propre au modèle lorsque vous traitez de longues entrées audio provenant d’utilisateurs.

Quelles méthodes de streaming sont disponibles ?

Vous pouvez diffuser votre transcription en streaming de deux manières, selon votre cas d’usage et selon que vous essayez de transcrire un enregistrement audio déjà terminé ou de traiter un flux audio en cours et d’utiliser OpenAI pour la détection des tours de parole :

Notez que le streaming n’est pas pris en charge avec le modèle whisper-1.

Quels formats de fichiers sont pris en charge ?

Les formats de fichiers pris en charge sont indiqués dans notre documentation API.

Puis-je envoyer des liens vers des fichiers audio à l’API Audio ?

Non, vous devez envoyer un fichier dans l’un des formats audio pris en charge.

Cet article vous a-t-il été utile ?