Tekstin automaattinen morfosyntaktinen jäsentäminen

Uutta: Kielipankin jäsentimiä voi nyt käyttää helposti myös Myllyn kautta!

Kielipankin sovelluspalvelimelle asennetulla finnish-parse-työkalulla voi jäsentää haluamansa suomenkielisen tekstitiedoston seuraavasti:

  • Muunna analysoitava tiedosto tarvittaessa etukäteen raakatekstiksi (plain text) ja Unicode-muotoon (UTF-8). On myös turvallisinta, ettei tiedoston nimessä ole välilyöntejä tai ääkkösiä.
  • Siirrä käsiteltävä tiedosto omalta koneeltasi sovelluspalvelimella olevaan kotihakemistoosi (ohje tiedoston siirtämiseksi WinSCP-ohjelmalla (vaihda palvelimen nimeksi taito.csc.fi). Tiedoston voi vaihtoehtoisesti siirtää myös Tutkijan käyttöliittymästä löytyvällä Omat tiedostot -palvelulla.
  • Kirjaudu sovelluspalvelimelle (taito-shell.csc.fi).
  • Kirjoita (tai copy-pastea) komentoriville seuraava komentorimpsu. Vaihda teksti.txt:n tilalle oman tekstitiedostosi nimi ja tuloste.txt:n tilalle tarvittaessa jokin muu nimi.
cat teksti.txt | finnish-parse > tuloste.txt
  • Paina lopuksi enteriä, jolloin jäsennys alkaa. Odottele rauhassa. Huomaa, että jäsentimen käynnistyminen kestää hetken riippumatta siitä, kuinka pitkä teksti on kyseessä, mutta itse jäsennys tapahtuu suhteellisen nopeasti.
  • Kun näet komentorivillä taas normaalin kehotteen, pitäisi kotihakemistoosi olla ilmestynyt tiedosto tuloste.txt, jossa alkuperäinen teksti on jäsennettynä. Voit tarkistaa tiedoston sisällön komennolla
less tuloste.txt
  • Poistu less-selailutilasta Q-näppäintä painamalla.
    Huom. Jos less-työkalu näyttää ääkkösten paikalla monen merkin pituisia omituisia rimpsuja, less-ohjelman merkistöasetus on väärä. Jos mitään ääkkösiä sisältävää sanaa ei ole jäsennetty, komentotulkin merkistöasetus on väärä. Kummassakin tapauksessa kannattaa luultavasti määritellä vielä sovelluspalvelimen oletusmerkistöt ja kokeilla sitten ajaa jäsennys uudelleen.
  • Siirrä valmis tiedosto tarvittaessa sovelluspalvelimelta takaisin omalle koneellesi.

Jäsentimen käyttämä annotaatiomuoto

finnish-parse -skripti tuottaa oletuksena Universal Dependencies -järjestelmän version 1 mukaista muotoa.

Esimerkki:

echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse

1    Kielipankki    kieli#pankki    NOUN    _    Case=Nom|Number=Sing    nsubj:cop    _    _
2    on    olla    VERB    _    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act    6    cop    _    _
3    kieliaineistoja    kieli#aineisto    NOUN    _    Case=Par|Number=Plur    dobj    _    _
4    käyttävien    käyttää    VERB    _    Case=Gen|Degree=Pos|Number=Plur|PartForm=Pres|VerbForm=Part|Voice=Act    5    acl    _    _
5    tutkijoiden    tutkija    NOUN    _    Case=Gen|Number=Plur    6    nmod:poss    _    _
6    palvelukokonaisuus    palvelu#kokonaisuus    NOUN    _    Case=Nom|Number=Sing    0    root    _    _
7    .    .    PUNCT    _    _    6    punct    _    _

Universal Dependencies (UD) -järjestelmästä on olemassa myös päivitetty versio 2, mutta sen toteutus finnish-parse-jäsentimeen ei ole vielä täysin valmis. UD2-muoto tulee käyttöön lähitulevaisuudessa. Tarvittaessa jäsentimellä voi myös jatkossa tuottaa ykkösversion mukaista muotoa käyttämällä komennon perässä valitsinta –ud1.

Mikäli haluat saada jäsentimen tuottamaan Korp-palvelussa laajimmin käytettyä muotoa, voit käyttää komennon perässä valitsinta: finnish-parse –stanford. Kuvaukset –stanford -kytkimen tuottamista tageista löytyvät Korpin korpusannotaatiosivulta.

Esimerkki:

echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse --stanford

1    Kielipankki    kieli|pankki    N    NUM_Sg|CASE_Nom|CASECHANGE_Up    6    nsubj-cop
2    on    olla    V    PRS_Sg3|VOICE_Act|TENSE_Prs|MOOD_Ind    6    cop
3    kieliaineistoja    kieli|aineisto    N    NUM_Pl|CASE_Par    4    dobj
4    käyttävien    käyttää    V    NUM_Pl|CASE_Gen|VOICE_Act|PCP_PrsPrc|CMP_Pos    5    partmod
5    tutkijoiden    tutkija    N    NUM_Pl|CASE_Gen    6    poss
6    palvelukokonaisuus    palvelu|kokonaisuus    N    NUM_Sg|CASE_Nom    0    ROOT
7    .    .    Punct    _    6    punct

Interaktiivinen käyttö

finnish-parse-työkalua voi käyttää myös interaktiivisesti jättämällä pois tiedoston nimen. Komento

finnish-parse

lukee käyttäjän kirjoittamaa syötettä rivi kerrallaan (jokaisen rivin jälkeen pitää painaa enteriä kaksi kertaa) ja tulostaa analyysin. Näppäinyhdistelmällä ctrl–D tai ctrl–C voi poistua ohjelmasta.

Sovelluspalvelimen käyttöohjeita