FAQ sugli embeddings

Il 25 gennaio 2024 abbiamo rilasciato due nuovi modelli di embedding: text-embedding-3-small e text-embedding-3-large. Questi sono i nostri modelli di embedding più recenti e più performanti, con costi inferiori, prestazioni multilingue più elevate e un nuovo parametro per accorciare gli embeddings. Scopri di più.

Cosa cambia negli ultimi modelli di embedding?

I nostri ultimi modelli v3 offrono prestazioni migliori nei benchmark comuni a un prezzo inferiore. Puoi leggere di più sui miglioramenti delle prestazioni nel post di annuncio sul blog e nella documentazione per sviluppatori.

Come posso sapere quanti token avrà una stringa prima di provare a incorporarla?

Puoi usare il pacchetto Tiktoken di OpenAI per verificare quanti token avrà una stringa. Scopri di più nella nostra guida per sviluppatori sugli embeddings.

Come posso recuperare rapidamente K vettori di embedding più vicini?

Per cercare rapidamente tra molti vettori, consigliamo di usare un database vettoriale.

Quale funzione di distanza dovrei usare?

Per impostazione predefinita, gli output di embedding dell'API di OpenAI sono normalizzati L2 a lunghezza 1, anche dopo l'accorciamento con il parametro dimensions, il che significa che:

Gli embeddings di OpenAI sono normalizzati a lunghezza 1, il che significa che:

La similarità coseno può essere calcolata leggermente più velocemente usando solo un prodotto scalare
La similarità coseno e la distanza euclidea produrranno classifiche identiche

Cosa cambia negli ultimi modelli di embedding?

Come posso sapere quanti token avrà una stringa prima di provare a incorporarla?

Come posso recuperare rapidamente K vettori di embedding più vicini?

Quale funzione di distanza dovrei usare?

Questo articolo è stato utile?