OpenAI
Esta página se tradujo automáticamente. Ver el artículo original en inglés.

Preguntas frecuentes sobre embeddings

Preguntas frecuentes sobre los nuevos y mejorados modelos de embeddings

Actualización: 6 days ago

El 25 de enero de 2024 lanzamos dos nuevos modelos de embeddings: text-embedding-3-small y text-embedding-3-large. Estos son nuestros modelos de embeddings más recientes y con mejor rendimiento, con costes más bajos, mejor rendimiento multilingüe y un nuevo parámetro para acortar los embeddings. Más información.

¿Qué diferencia hay en los modelos de embeddings más recientes?

Nuestros últimos modelos v3 ofrecen un mejor rendimiento en pruebas comparativas habituales a un precio menor. Puedes leer más sobre las mejoras de rendimiento en la entrada del blog de anuncio y en la documentación para desarrolladores.

¿Cómo puedo saber cuántos tokens tendrá una cadena antes de intentar generar sus embeddings?

Puedes usar el paquete Tiktoken de OpenAI para comprobar cuántos tokens tendrá una cadena. Más información en nuestra guía para desarrolladores sobre embeddings.

¿Cómo puedo recuperar rápidamente los K vectores de embeddings más cercanos?

Para buscar rápidamente entre muchos vectores, recomendamos usar una base de datos vectorial.

¿Qué función de distancia debo usar?

Las salidas de embeddings de la API de OpenAI se normalizan con L2 a longitud 1 de forma predeterminada, incluso después de acortarlas con el parámetro dimensions, lo que significa que:

Los embeddings de OpenAI se normalizan a longitud 1, lo que significa que:

  • La similitud del coseno puede calcularse un poco más rápido usando solo un producto escalar

  • La similitud del coseno y la distancia euclídea darán como resultado clasificaciones idénticas

¿Te ha resultado útil este artículo?