Language Technology:tokenise
tokenize | tokenise
tokenize (luo nimityssivu) | |||
tokenise |
Määritelmä
Juokseva teksti saneistetaan jakamalla se sanakirjahakua taimorfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu taierotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneidenkaltaisina yksiköinään jatkokäsittelylle.
Määritelmä (en)
Splitting a runnig text into tokens consisting of words or punctuation.
Selite (en)
Tokenisation is needed as a preprocessing stage for morphological or syntactic analysis. Sometimes punctuation is represented as separate tokens and sometimes as parts of the words.
Erikieliset vastineet
ordsegmentera (luo nimityssivu) | ruotsi (svenska) | (subst. ordsegmentering) |
saneistaa | suomi (suomi) |
Alaviitteet
Lähdeviittaus tähän sivuun:
Tieteen termipankki 5.11.2024: Language Technology:tokenise. (Tarkka osoite: https://tieteentermipankki.fi/wiki/Language Technology:tokenise.)