OpenAI
Ta strona została przetłumaczona maszynowo. Wyświetl oryginalny artykuł w języku angielskim.

FAQ dotyczące Audio API

Ogólne pytania o Whisper, zamianę mowy na tekst i Audio API

Zaktualizowano: 8 days ago

Audio API obsługuje dwa punkty końcowe zamiany mowy na tekst:

  • transcriptions

  • translations

Aby rozpocząć pracę z Audio API, przeczytaj naszą dokumentację dla deweloperów dotyczącą zamiany mowy na tekst.


Ile kosztuje korzystanie z Audio API?

Szczegóły znajdziesz na naszej stronie z cennikiem.


Jakie języki są obsługiwane?

Zobacz listę obsługiwanych języków tutaj.


Jak możemy obsługiwać duże pliki audio?

W przypadku przesyłania transkrypcji do starszej wersji Audio API legacy/whisper-1 maksymalny rozmiar żądania wynosi 25 MiB. Nowsze trasy transkrypcji gpt-4o mogą używać innej walidacji, na przykład limitów czasu trwania lub tokenów, dlatego podczas obsługi długich wejść audio od użytkowników sprawdź dokumentację właściwą dla modelu.


Jakie metody strumieniowania są dostępne?

Transkrypcję można strumieniować na dwa sposoby, w zależności od przypadku użycia oraz od tego, czy chcesz transkrybować już ukończone nagranie audio, czy obsługiwać trwający strumień audio i używać OpenAI do wykrywania tur:

Pamiętaj, że strumieniowanie nie jest obsługiwane w modelu whisper-1.

Jakie formaty plików są obsługiwane?

Obsługiwane formaty plików są wymienione w naszej dokumentacji API.


Czy mogę wysyłać linki do plików audio do Audio API?

Nie, musisz wysłać plik w jednym z obsługiwanych formatów audio.

Czy ten artykuł był pomocny?