Language Technology:tokenise

    Tieteen termipankista

    tokenize | tokenise

    tokenize (luo nimityssivu)
    tokenise
    Määritelmä Juokseva teksti saneistetaan jakamalla se sanakirjahakua taimorfologista analyysia varten soveltuviksi saneksi, jotka on normalisoitu ja puhdistettu taierotettu välimerkeistä. Saneistus voi antaa välimerkit omina saneidenkaltaisina yksiköinään jatkokäsittelylle.
    Määritelmä (en) Splitting a runnig text into tokens consisting of words or punctuation.
    Selite (en) Tokenisation is needed as a preprocessing stage for morphological or syntactic analysis. Sometimes punctuation is represented as separate tokens and sometimes as parts of the words.

    Erikieliset vastineet

    ordsegmentera (luo nimityssivu)ruotsi (svenska)(subst. ordsegmentering)
    saneistaasuomi (suomi)


    Alaviitteet

    Lähdeviittaus tähän sivuun:
    Tieteen termipankki 23.4.2024: Language Technology:tokenise. (Tarkka osoite: https://tieteentermipankki.fi/wiki/Language Technology:tokenise.)