Language Technology:tokenise

Tieteen termipankista

tokenize | tokenise

tokenize (luo nimityssivu)
tokenise
Määritelmä Juokseva teksti saneistetaan jakamalla se sanakirjahakua taimorfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu taierotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneidenkaltaisina yksiköinään jatkokäsittelylle.
Määritelmä (en) Splitting a runnig text into tokens consisting of words or punctuation.
Selite (en) Tokenisation is needed as a preprocessing stage for morphological or syntactic analysis. Sometimes punctuation is represented as separate tokens and sometimes as parts of the words.

Erikieliset vastineet

ordsegmentera (luo nimityssivu)ruotsi (svenska)(subst. ordsegmentering)
saneistaasuomi (suomi)


Alaviitteet

Lähdeviittaus tähän sivuun:
Tieteen termipankki 23.12.2024: Language Technology:tokenise. (Tarkka osoite: https://tieteentermipankki.fi/wiki/Language Technology:tokenise.)