OpenAI
Diese Seite wurde maschinell übersetzt. Den Originalartikel auf Englisch ansehen.

FAQ zu Embeddings

FAQ zu den neuen und verbesserten Embedding-Modellen

Aktualisiert: 6 days ago

Am 25. Januar 2024 haben wir zwei neue Embedding-Modelle veröffentlicht: text-embedding-3-small und text-embedding-3-large. Dies sind unsere neuesten und leistungsstärksten Embedding-Modelle mit geringeren Kosten, höherer mehrsprachiger Leistung und einem neuen Parameter zum Kürzen von Embeddings. Mehr erfahren.

Was ist bei den neuesten Embedding-Modellen anders?

Unsere neuesten v3-Modelle bieten bessere Leistung bei gängigen Benchmarks zu einem günstigeren Preis. Mehr über die Leistungsverbesserungen erfahren Sie im Ankündigungs-Blogbeitrag und in der Entwicklerdokumentation.

Wie kann ich erkennen, wie viele Token eine Zeichenfolge haben wird, bevor ich versuche, sie einzubetten?

Sie können OpenAIs Tiktoken-Paket verwenden, um zu prüfen, wie viele Token eine Zeichenfolge haben wird. Erfahren Sie mehr in unserem Entwicklerleitfaden zu Embeddings.

Wie kann ich K nächste Embedding-Vektoren schnell abrufen?

Für die schnelle Suche über viele Vektoren empfehlen wir die Verwendung einer Vektordatenbank.

Welche Distanzfunktion sollte ich verwenden?

Die Embedding-Ausgaben der OpenAI API sind standardmäßig auf die Länge 1 L2-normalisiert, auch nach dem Kürzen mit dem Parameter dimensions, was bedeutet, dass:

OpenAI-Embeddings sind auf die Länge 1 normalisiert, was bedeutet, dass:

  • Die Kosinusähnlichkeit mit nur einem Skalarprodukt etwas schneller berechnet werden kann

  • Die Kosinusähnlichkeit und die euklidische Distanz zu identischen Rangfolgen führen

War dieser Artikel hilfreich?