Language Technology:tokenise
Ulkoasu
tokenize | tokenise
| tokenize (luo nimityssivu) | |||
| tokenise |
Määritelmä (fi)
Juokseva teksti saneistetaan jakamalla se sanakirjahakua taimorfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu taierotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneidenkaltaisina yksiköinään jatkokäsittelylle.
Määritelmä (en)
Splitting a runnig text into tokens consisting of words or punctuation.
Selite (en)
Tokenisation is needed as a preprocessing stage for morphological or syntactic analysis. Sometimes punctuation is represented as separate tokens and sometimes as parts of the words.
Erikieliset vastineet
| ordsegmentera (luo nimityssivu) | ruotsi (svenska) | (subst. ordsegmentering) |
| saneistaa | suomi (suomi) |
Alaviitteet
Lähdeviittaus tähän sivuun:
Tieteen termipankki 7.2.2026: Language Technology:tokenise. (Tarkka osoite: https://tieteentermipankki.fi/wiki/Language Technology:tokenise.)