OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Preguntas frecuentes sobre la API de audio

Preguntas generales sobre Whisper, voz a texto y la API de audio

Actualización: 6 days ago

La API de audio admite dos puntos de acceso de voz a texto:

  • transcriptions

  • translations

Para empezar a usar la API de audio, consulta nuestra documentación para desarrolladores sobre voz a texto.

¿Cuánto cuesta usar la API de audio?

Consulta nuestra página de precios para obtener más información.

¿Qué idiomas se admiten?

Consulta aquí la lista de idiomas admitidos.

¿Cómo podemos gestionar archivos de audio grandes?

Para las cargas de transcripción en la Audio API de legacy/whisper-1, el tamaño máximo de la solicitud es de 25 MiB. Las rutas de transcripción más recientes de gpt-4o pueden usar una validación distinta, como límites de duración o de tokens, así que consulta la documentación específica del modelo al gestionar entradas de audio largas de los usuarios.

¿Qué métodos de streaming están disponibles?

Hay dos formas de transmitir tu transcripción, según tu caso de uso y si intentas transcribir una grabación de audio ya finalizada o gestionar un flujo de audio en curso y usar OpenAI para la detección de turnos:

Ten en cuenta que el streaming no es compatible con el modelo whisper-1.

¿Qué formatos de archivo se admiten?

Los formatos de archivo admitidos se incluyen en nuestra documentación de la API.

¿Puedo enviar enlaces a archivos de audio a la API de audio?

No, debes enviar un archivo en uno de los formatos de audio admitidos.

¿Te ha resultado útil este artículo?