Innehållsförteckning:
Definition - Vad betyder Tokenisering?
Tokenisering är handlingen att bryta upp en sekvens av strängar i delar som ord, nyckelord, fraser, symboler och andra element som kallas tokens. Tokens kan vara enskilda ord, fraser eller till och med hela meningar. I processen med tokenisering kastas vissa tecken som skiljetecken. Tokens blir ingången till en annan process som tolkning och textbrytning.
Tokenisering används inom datavetenskap, där det spelar en stor roll i processen för lexikalisk analys.
Techopedia förklarar Tokenization
Tokenisering förlitar sig mest på enkla heuristik för att separera tokens genom att följa några steg:
- Tecken eller ord separeras med blanksteg, skiljetecken eller rader
- Vitt utrymme eller skiljetecken kan inkluderas eller inte, beroende på behov
- Alla karaktärer i sammanhängande strängar är en del av symbolen. Tokens kan bestå av alla alfabetecken, alfanumeriska tecken eller numeriska tecken.
Tokens själva kan också vara separatorer. På de flesta programmeringsspråk kan till exempel identifierare placeras tillsammans med aritmetiska operatörer utan vita mellanslag. Även om det verkar som om detta skulle verka som ett enda ord eller ett symbol, betraktar språkets grammatik faktiskt den matematiska operatören (ett token) som en separator, så även om flera tokens samlas ihop kan de fortfarande separeras via det matematiska operatör.
