Prima di inviare una stringa per l’embedding, puoi stimare quanti token utilizzerà applicando la libreria tokenizer tiktoken di OpenAI.
Questo è particolarmente utile perché i modelli di embedding (come text-embedding-3-small) hanno limiti massimi di token entro cui devi rimanere.
Come contare i token con Tiktoken
Puoi usare il pacchetto Python tiktoken per calcolare il numero di token che una stringa genererà.
Ecco un esempio di snippet di codice:
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)Importante:
Per i modelli di embedding di terza generazione (ad es.
text-embedding-3-smallotext-embedding-3-large), dovresti usare l’encoding"cl100k_base".Modelli diversi possono richiedere encoding diversi: in caso di dubbi, fai sempre riferimento alla documentazione del modello.
Perché contare i token è importante
Se la tua stringa supera la dimensione massima di input del modello, la richiesta API fallirà.
Contare con precisione i token in anticipo garantisce flussi di lavoro di embedding più fluidi e previene errori durante l’elaborazione.
