Language Technology:tokenise

From Tieteen termipankki
Jump to: navigation, search

tokenize | tokenise

tokenize (luo nimityssivu)
tokenise
Definition Juokseva teksti saneistetaan jakamalla se sanakirjahakua taimorfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu taierotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneidenkaltaisina yksiköinään jatkokäsittelylle.
Definition (en) Splitting a runnig text into tokens consisting of words or punctuation.
Explanation (en) Tokenisation is needed as a preprocessing stage for morphological or syntactic analysis. Sometimes punctuation is represented as separate tokens and sometimes as parts of the words.

Equivalents

ordsegmentera (luo nimityssivu)ruotsi(subst. ordsegmentering)
saneistaasuomi



References

Lähdeviittaus tähän sivuun:
Tieteen termipankki 21.10.2019: Language Technology:tokenise. (Tarkka osoite: https://tieteentermipankki.fi/wiki/Language Technology:tokenise.)


Siirry tarkastelemaan sivun muokkaushistoriaa →