Voordat je een string voor embedding verzendt, kun je schatten hoeveel tokens deze zal gebruiken door OpenAI’s tiktoken-tokenizerbibliotheek toe te passen.
Dit is vooral handig omdat embeddingmodellen (zoals text-embedding-3-small) maximale tokenlimieten hebben waar je binnen moet blijven.
---
Tokens tellen met Tiktoken
Je kunt het Python-pakket tiktoken gebruiken om het aantal tokens te berekenen dat een string zal genereren.
Hier is een voorbeeld van een codefragment:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Geeft het aantal tokens in een tekenreeks terug."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Voorbeeldgebruik
num_tokens = num_tokens_from_string("tiktoken is geweldig!", "cl100k_base")
print(num_tokens)Belangrijk:
Voor embeddingmodellen van de derde generatie (bijv.
text-embedding-3-smalloftext-embedding-3-large) moet je de codering"cl100k_base"gebruiken.Verschillende modellen kunnen verschillende coderingen vereisen — raadpleeg bij twijfel altijd de modeldocumentatie.
---
Waarom token-telling belangrijk is
Als je string de maximale invoergrootte van het model overschrijdt, mislukt je API-aanvraag.
Door tokens vooraf nauwkeurig te tellen, verlopen embeddingworkflows soepeler en voorkom je fouten tijdens de verwerking.
---
