Questa pagina è stata tradotta automaticamente. Visualizza l'articolo originale in inglese.

Come posso sapere quanti token avrà una stringa prima di provare a incorporarla?

Calcolare/stimare i token per un embedding

Aggiornato: 6 days ago

Prima di inviare una stringa per l’embedding, puoi stimare quanti token utilizzerà applicando la libreria tokenizer tiktoken di OpenAI.

Questo è particolarmente utile perché i modelli di embedding (come text-embedding-3-small) hanno limiti massimi di token entro cui devi rimanere.

Come contare i token con Tiktoken

Puoi usare il pacchetto Python tiktoken per calcolare il numero di token che una stringa genererà.

Ecco un esempio di snippet di codice:

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

# Example usage
num_tokens = num_tokens_from_string("tiktoken is great!", "cl100k_base")
print(num_tokens)

Importante:

Per i modelli di embedding di terza generazione (ad es. text-embedding-3-small o text-embedding-3-large), dovresti usare l’encoding "cl100k_base".
Modelli diversi possono richiedere encoding diversi: in caso di dubbi, fai sempre riferimento alla documentazione del modello.

Perché contare i token è importante

Se la tua stringa supera la dimensione massima di input del modello, la richiesta API fallirà.
Contare con precisione i token in anticipo garantisce flussi di lavoro di embedding più fluidi e previene errori durante l’elaborazione.

Link utili

Questo articolo è stato utile?