OpenAI
Deze pagina is automatisch vertaald. Bekijk het oorspronkelijke Engelstalige artikel.

Hoe kan ik zien hoeveel tokens een tekenreeks heeft voordat ik die probeer te embedden?

Tokens voor een embedding berekenen/schatten

Bijgewerkt: 7 days ago

Voordat je een string voor embedding verzendt, kun je schatten hoeveel tokens deze zal gebruiken door OpenAI’s tiktoken-tokenizerbibliotheek toe te passen.

Dit is vooral handig omdat embeddingmodellen (zoals text-embedding-3-small) maximale tokenlimieten hebben waar je binnen moet blijven.

---

Tokens tellen met Tiktoken

Je kunt het Python-pakket tiktoken gebruiken om het aantal tokens te berekenen dat een string zal genereren.

Hier is een voorbeeld van een codefragment:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Geeft het aantal tokens in een tekenreeks terug."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens

# Voorbeeldgebruik
num_tokens = num_tokens_from_string("tiktoken is geweldig!", "cl100k_base")
print(num_tokens)

Belangrijk:

  • Voor embeddingmodellen van de derde generatie (bijv. text-embedding-3-small of text-embedding-3-large) moet je de codering "cl100k_base" gebruiken.

  • Verschillende modellen kunnen verschillende coderingen vereisen — raadpleeg bij twijfel altijd de modeldocumentatie.

---

Waarom token-telling belangrijk is

  • Als je string de maximale invoergrootte van het model overschrijdt, mislukt je API-aanvraag.

  • Door tokens vooraf nauwkeurig te tellen, verlopen embeddingworkflows soepeler en voorkom je fouten tijdens de verwerking.

---

Was dit artikel nuttig?