Tekstin automaattinen morfosyntaktinen jäsentäminen

Uutta: Kielipankin jäsentimiä voi nyt käyttää helposti myös Myllyn kautta!

CSC:n laskentaympäristöön asennetulla finnish-parse-työkalulla voi jäsentää haluamansa suomenkielisen tekstitiedoston seuraavasti:

 • Muunna analysoitava tiedosto tarvittaessa etukäteen raakatekstiksi (plain text) ja Unicode-muotoon (UTF-8). On myös turvallisinta, ettei tiedoston nimessä ole välilyöntejä tai ääkkösiä.
 • Siirrä käsiteltävä tiedosto omalta koneeltasi CSC:n laskentaympäristössä olevaan kotihakemistoosi (ohje tiedoston siirtämiseksi WinSCP-ohjelmalla.
 • Kirjaudu laskentaympäristöön.
 • Kirjoita (tai copy-pastea) komentoriville seuraava komentorimpsu. Vaihda teksti.txt:n tilalle oman tekstitiedostosi nimi ja tuloste.txt:n tilalle tarvittaessa jokin muu nimi.
cat teksti.txt | finnish-parse > tuloste.txt
 • Paina lopuksi enteriä, jolloin jäsennys alkaa. Odottele rauhassa. Huomaa, että jäsentimen käynnistyminen kestää hetken riippumatta siitä, kuinka pitkä teksti on kyseessä, mutta itse jäsennys tapahtuu suhteellisen nopeasti.
 • Kun näet komentorivillä taas normaalin kehotteen, pitäisi kotihakemistoosi olla ilmestynyt tiedosto tuloste.txt, jossa alkuperäinen teksti on jäsennettynä. Voit tarkistaa tiedoston sisällön komennolla
less tuloste.txt
 • Poistu less-selailutilasta Q-näppäintä painamalla.
  Huom. Jos less-työkalu näyttää ääkkösten paikalla monen merkin pituisia omituisia rimpsuja, less-ohjelman merkistöasetus on väärä. Jos mitään ääkkösiä sisältävää sanaa ei ole jäsennetty, komentotulkin merkistöasetus on väärä. Kummassakin tapauksessa kannattaa luultavasti määritellä vielä laskentaympäristön oletusmerkistöt ja kokeilla sitten ajaa jäsennys uudelleen.
 • Siirrä valmis tiedosto tarvittaessa laskentaympäristöstä takaisin omalle koneellesi.

Jäsentimen käyttämä annotaatiomuoto

finnish-parse -skripti tuottaa oletuksena Universal Dependencies -järjestelmän version 1 mukaista muotoa.

Esimerkki:

echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse

1  Kielipankki  kieli#pankki  NOUN  _  Case=Nom|Number=Sing  nsubj:cop  _  _
2  on  olla  VERB  _  Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act  6  cop  _  _
3  kieliaineistoja  kieli#aineisto  NOUN  _  Case=Par|Number=Plur  dobj  _  _
4  käyttävien  käyttää  VERB  _  Case=Gen|Degree=Pos|Number=Plur|PartForm=Pres|VerbForm=Part|Voice=Act  5  acl  _  _
5  tutkijoiden  tutkija  NOUN  _  Case=Gen|Number=Plur  6  nmod:poss  _  _
6  palvelukokonaisuus  palvelu#kokonaisuus  NOUN  _  Case=Nom|Number=Sing  0  root  _  _
7  .  .  PUNCT  _  _  6  punct  _  _

Universal Dependencies (UD) -järjestelmästä on olemassa myös päivitetty versio 2, mutta sen toteutus finnish-parse-jäsentimeen ei ole vielä täysin valmis. UD2-muoto tulee käyttöön lähitulevaisuudessa. Tarvittaessa jäsentimellä voi myös jatkossa tuottaa ykkösversion mukaista muotoa käyttämällä komennon perässä valitsinta –ud1.

Mikäli haluat saada jäsentimen tuottamaan Korp-palvelussa laajimmin käytettyä muotoa, voit käyttää komennon perässä valitsinta: finnish-parse –stanford. Kuvaukset –stanford -kytkimen tuottamista tageista löytyvät Korpin korpusannotaatiosivulta.

Esimerkki:

echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse --stanford

1  Kielipankki  kieli|pankki  N  NUM_Sg|CASE_Nom|CASECHANGE_Up  6  nsubj-cop
2  on  olla  V  PRS_Sg3|VOICE_Act|TENSE_Prs|MOOD_Ind  6  cop
3  kieliaineistoja  kieli|aineisto  N  NUM_Pl|CASE_Par  4  dobj
4  käyttävien  käyttää  V  NUM_Pl|CASE_Gen|VOICE_Act|PCP_PrsPrc|CMP_Pos  5  partmod
5  tutkijoiden  tutkija  N  NUM_Pl|CASE_Gen  6  poss
6  palvelukokonaisuus  palvelu|kokonaisuus  N  NUM_Sg|CASE_Nom  0  ROOT
7  .  .  Punct  _  6  punct

Interaktiivinen käyttö

finnish-parse-työkalua voi käyttää myös interaktiivisesti jättämällä pois tiedoston nimen. Komento

finnish-parse

lukee käyttäjän kirjoittamaa syötettä rivi kerrallaan (jokaisen rivin jälkeen pitää painaa enteriä kaksi kertaa) ja tulostaa analyysin. Näppäinyhdistelmällä ctrl–D tai ctrl–C voi poistua ohjelmasta.

Laskentaympäristön käyttöohjeita