L’API Audio prend en charge deux endpoints de conversion de la parole en texte :
transcriptionstranslations
Pour démarrer avec l’API Audio, veuillez consulter notre documentation développeur sur la conversion de la parole en texte.
Combien coûte l’utilisation de l’API Audio ?
Consultez notre page de tarification pour plus de détails.
Quelles langues sont prises en charge ?
Consultez la liste des langues prises en charge ici.
Comment gérer les fichiers audio volumineux ?
Pour les téléversements de transcription vers l’API Audio legacy/whisper-1, la taille maximale de la requête est de 25 Mio. Les routes de transcription gpt-4o plus récentes peuvent utiliser une validation différente, comme des limites de durée ou de tokens ; consultez donc la documentation propre au modèle lorsque vous traitez de longues entrées audio d’utilisateurs.
Quelles méthodes de streaming sont disponibles ?
Il existe deux façons de diffuser votre transcription selon votre cas d’usage et selon que vous essayez de transcrire un enregistrement audio déjà terminé ou de gérer un flux audio en cours et d’utiliser OpenAI pour la détection des tours de parole :
Notez que le streaming n’est pas pris en charge avec le modèle whisper-1.
Quels formats de fichier sont pris en charge ?
Les formats de fichier pris en charge sont indiqués dans notre documentation API.
Puis-je envoyer des liens vers des fichiers audio à l’API Audio ?
Non, vous devez envoyer un fichier dans l’un des formats audio pris en charge.
