Myllyn käyttöohjeet

Mylly on kieliaineiston käsittelyyn ja tutkimiseen tarkoitettu alusta. Voit viedä Myllyyn omia kieliaineistojasi ja käsitellä ja analysoida niitä erilaisilla työkaluilla helppokäyttöisessä työtilassa. Myllyssä voit esimerkiksi jäsentää tekstiä automaattisesti. Myllystä käsin voi myös tehdä hakuja joihinkin Korp-konkordanssityökalun suojaamattomiin aineistoihin ja Korpista saatuja hakutuloksia voi käsitellä edelleen Myllyssä.

Kuva Myllystä Kirjaudu Myllyyn omalla HAKA-käyttäjätunnuksellasi tai CSC:n tunnuksella. Palvelun käyttö edellyttää affiliaatiota suomalaiseen yliopistoon tai CSC-projektiin.

Käynnistä Mylly:
https://mylly.rahtiapp.fi

Mylly pohjautuu CSC – Tieteen tietotekniikan keskuksen kehittämään Chipster-teknologiaan. Mylly on päivittynyt keväällä 2019. Aiempi Java-pohjainen versio on poistunut käytöstä.

Myllyn pikaohje

  1. Kirjaudu omalla HAKA/CSC-tunnuksellasi osoitteessa
    https://mylly.rahtiapp.fi
  2. Lataa käsiteltävä(t) tiedosto(t) palveluun.
  3. Valitse käsiteltävä tiedosto vasemman reunan tiedostonäkymästä.
  4. Valitse tarvitsemasi työkalu valikosta ja paina Run.
  5. Näet Myllyssä syntyvät uudet tiedostot ja tekemäsi työvaiheet vasemmassa reunassa kaaviona tai listana.
  6. Tulokseksi saamiasi uusia tiedostoja voit tarkastella ja jatkokäsitellä muilla Myllyyn kytketyillä työkaluilla tai tallentaa omalle koneelle.

Työkaluja erilaisiin työvaiheisiin ja eri muotoisille tiedostoille

Esimerkiksi raakatekstiä (plain text) sisältävää aineistoa on mahdollista esikäsitellä Myllyssä, jotta saadaan aikaan erilaisten analyysityökalujen tarvitsema tekstin rakenne. Tekstin segmentointityökalulla tekstistä voidaan automaattisesti etsiä ja merkitä esimerkiksi kappaleenvaihtokohdat, ja näin syntyy HRT-muotoisia tekstitiedostoja. HRT-tiedoston käsittelyä puolestaan voidaan jatkaa saneistamalla eli ”tokenisoimalla” se VRT-muotoiseksi (VeRticalized Text). VRT-tiedostossa jokainen alkuperäisessä tekstissä esiintynyt sane kirjataan omalle rivilleen. Suomen-, ruotsin- tai englanninkielistä raakatekstiä voi jäsentää useilla jäsentimillä suoraan Myllyssä ja suomenkieliseen aineistoon voi käyttää myös automaattista nimiluokitinta.

Toinen Myllyn työkaluryhmä sisältää VRT-muotoisen tekstin käsittelyyn tarkoitettuja työkaluja. Jos tai kun tekstisi on VRT-muotoista, voit validoida sen Myllyssä. Sen jälkeen voit esimerkiksi tehdä siitä hakuja. Voit tarvittaessa nimetä uudelleen tulostiedostosi sarakkeita jatkokäyttöä varten. Tässä vaiheessa voit myös käyttää nimiluokitinta ja jäsentää aineiston kahdella eri jäsentimellä.

Monet Myllyssä olevat työkalut tuottavat TSV-muotoisia tekstitiedostoja (Tab-separated values). TSV-tiedosto voidaan näyttää taulukkona, jonka sarakkeet on TSV-tiedostossa erotettu toisistaan sarkainmerkeillä. TSV-muotoisena tiedostona voidaan käsitellä vaikkapa jostakin aineistosta haettu tietyn ilmauksen konkordanssi tai muuta taulukkomuotoista sisältöä. TSV-tiedoston voi myös helposti ladata Myllystä omalle koneelle ja tuoda sisällön esimerkiksi Excel-taulukkoon tai tilasto-ohjelmaan jatkokäsiteltäväksi.

Mylly-palvelun esittelyvideo (vanha Mylly-versio)

Lyhyitä esimerkkejä Myllyn käytöstä (PDF, esitelmä Kielitieteen päivillä 2017; vanha Mylly-versio)

Tekstin automaattinen perusmuotoistaminen, jäsentäminen ja muut merkkaukset

Tekstin sisältöä voidaan automaattisesti esikäsitellä ja annotoida monin tavoin. Tässä on muutamia esimerkkejä saatavilla olevista työkaluista. Tutkimuskäytössä on toki hyvä muistaa, etteivät menetelmät ole virheettömiä.

Suomen kielen tilastollisen dependenssijäsentimen (finnish-parse) käyttö CSC:n laskentaympäristössä

CSC:n laskentaympäristöön asennetulla finnish-parse-työkalulla voi jäsentää haluamansa suomenkielisen tekstitiedoston. Kielipankin jäsentimiä voi käyttää myös Myllyn kautta.

CSC:n laskentaympäristössä jäsennys onnistuu seuraavasti:

  • Muunna analysoitava tiedosto tarvittaessa etukäteen raakatekstiksi (plain text) ja Unicode-muotoon (UTF-8). On myös turvallisinta, ettei tiedoston nimessä ole välilyöntejä tai ääkkösiä.
  • Siirrä käsiteltävä tiedosto omalta koneeltasi CSC:n laskentaympäristössä olevaan kotihakemistoosi (ohje tiedoston siirtämiseksi WinSCP-ohjelmalla.
  • Kirjaudu laskentaympäristöön.
  • Kirjoita (tai copy-pastea) komentoriville seuraava komentorimpsu. Vaihda teksti.txt:n tilalle oman tekstitiedostosi nimi ja tuloste.txt:n tilalle tarvittaessa jokin muu nimi.
cat teksti.txt | finnish-parse > tuloste.txt
  • Paina lopuksi enteriä, jolloin jäsennys alkaa. Odottele rauhassa. Huomaa, että jäsentimen käynnistyminen kestää hetken riippumatta siitä, kuinka pitkä teksti on kyseessä, mutta itse jäsennys tapahtuu suhteellisen nopeasti.
  • Kun näet komentorivillä taas normaalin kehotteen, pitäisi kotihakemistoosi olla ilmestynyt tiedosto tuloste.txt, jossa alkuperäinen teksti on jäsennettynä. Voit tarkistaa tiedoston sisällön komennolla
less tuloste.txt
  • Poistu less-selailutilasta Q-näppäintä painamalla.
    Huom. Jos less-työkalu näyttää ääkkösten paikalla monen merkin pituisia omituisia rimpsuja, less-ohjelman merkistöasetus on väärä. Jos mitään ääkkösiä sisältävää sanaa ei ole jäsennetty, komentotulkin merkistöasetus on väärä. Kummassakin tapauksessa kannattaa luultavasti määritellä vielä laskentaympäristön oletusmerkistöt ja kokeilla sitten ajaa jäsennys uudelleen.
  • Siirrä valmis tiedosto tarvittaessa laskentaympäristöstä takaisin omalle koneellesi.

Jäsentimen käyttämä annotaatiomuoto

finnish-parse -skripti tuottaa oletuksena Universal Dependencies -järjestelmän version 1 mukaista muotoa.

Esimerkki:

echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse

1    Kielipankki    kieli#pankki    NOUN    _    Case=Nom|Number=Sing    nsubj:cop    _    _
2    on    olla    VERB    _    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act    6    cop    _    _
3    kieliaineistoja    kieli#aineisto    NOUN    _    Case=Par|Number=Plur    dobj    _    _
4    käyttävien    käyttää    VERB    _    Case=Gen|Degree=Pos|Number=Plur|PartForm=Pres|VerbForm=Part|Voice=Act    5    acl    _    _
5    tutkijoiden    tutkija    NOUN    _    Case=Gen|Number=Plur    6    nmod:poss    _    _
6    palvelukokonaisuus    palvelu#kokonaisuus    NOUN    _    Case=Nom|Number=Sing    0    root    _    _
7    .    .    PUNCT    _    _    6    punct    _    _

Universal Dependencies (UD) -järjestelmästä on olemassa myös päivitetty versio 2, mutta sen toteutus finnish-parse-jäsentimeen ei ole vielä täysin valmis. UD2-muoto tulee käyttöön lähitulevaisuudessa. Tarvittaessa jäsentimellä voi myös jatkossa tuottaa ykkösversion mukaista muotoa käyttämällä komennon perässä valitsinta –ud1.

Mikäli haluat saada jäsentimen tuottamaan Korp-palvelussa laajimmin käytettyä muotoa, voit käyttää komennon perässä valitsinta: finnish-parse –stanford. Kuvaukset –stanford -kytkimen tuottamista tageista löytyvät Korpin korpusannotaatiosivulta.

Esimerkki:

echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse --stanford

1    Kielipankki    kieli|pankki    N    NUM_Sg|CASE_Nom|CASECHANGE_Up    6    nsubj-cop
2    on    olla    V    PRS_Sg3|VOICE_Act|TENSE_Prs|MOOD_Ind    6    cop
3    kieliaineistoja    kieli|aineisto    N    NUM_Pl|CASE_Par    4    dobj
4    käyttävien    käyttää    V    NUM_Pl|CASE_Gen|VOICE_Act|PCP_PrsPrc|CMP_Pos    5    partmod
5    tutkijoiden    tutkija    N    NUM_Pl|CASE_Gen    6    poss
6    palvelukokonaisuus    palvelu|kokonaisuus    N    NUM_Sg|CASE_Nom    0    ROOT
7    .    .    Punct    _    6    punct

Interaktiivinen käyttö

finnish-parse-työkalua voi käyttää myös interaktiivisesti jättämällä pois tiedoston nimen. Komento

finnish-parse

lukee käyttäjän kirjoittamaa syötettä rivi kerrallaan (jokaisen rivin jälkeen pitää painaa enteriä kaksi kertaa) ja tulostaa analyysin. Näppäinyhdistelmällä ctrl–D tai ctrl–C voi poistua ohjelmasta.

Laskentaympäristön käyttöohjeita

Hae Kielipankki-portaalista:
Marjatta Palander
Kuukauden tutkija: Marjatta Palander

 

Tulevat tapahtumat

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot