Am 25. Januar 2024 haben wir zwei neue Embedding-Modelle veröffentlicht: text-embedding-3-small und text-embedding-3-large. Dies sind unsere neuesten und leistungsstärksten Embedding-Modelle mit geringeren Kosten, höherer mehrsprachiger Leistung und einem neuen Parameter zum Kürzen von Embeddings. Mehr erfahren.
Was ist bei den neuesten Embedding-Modellen anders?
Unsere neuesten v3-Modelle bieten bessere Leistung bei gängigen Benchmarks zu einem günstigeren Preis. Mehr über die Leistungsverbesserungen erfahren Sie im Ankündigungs-Blogbeitrag und in der Entwicklerdokumentation.
Wie kann ich erkennen, wie viele Token eine Zeichenfolge haben wird, bevor ich versuche, sie einzubetten?
Sie können OpenAIs Tiktoken-Paket verwenden, um zu prüfen, wie viele Token eine Zeichenfolge haben wird. Erfahren Sie mehr in unserem Entwicklerleitfaden zu Embeddings.
Wie kann ich K nächste Embedding-Vektoren schnell abrufen?
Für die schnelle Suche über viele Vektoren empfehlen wir die Verwendung einer Vektordatenbank.
Welche Distanzfunktion sollte ich verwenden?
Die Embedding-Ausgaben der OpenAI API sind standardmäßig auf die Länge 1 L2-normalisiert, auch nach dem Kürzen mit dem Parameter dimensions, was bedeutet, dass:
OpenAI-Embeddings sind auf die Länge 1 normalisiert, was bedeutet, dass:
Die Kosinusähnlichkeit mit nur einem Skalarprodukt etwas schneller berechnet werden kann
Die Kosinusähnlichkeit und die euklidische Distanz zu identischen Rangfolgen führen
