Myllyn käyttöohjeet

Mylly on kieliaineiston käsittelyyn ja tutkimiseen tarkoitettu alusta. Voit viedä Myllyyn omia kieliaineistojasi ja käsitellä ja analysoida niitä erilaisilla työkaluilla helppokäyttöisessä työtilassa. Myllyssä voit esimerkiksi jäsentää tekstiä automaattisesti. Myllystä käsin voi myös tehdä hakuja joihinkin Korp-konkordanssityökalun suojaamattomiin aineistoihin ja Korpista saatuja hakutuloksia voi käsitellä edelleen Myllyssä.

Kuva Myllystä Kirjaudu Myllyyn omalla HAKA-käyttäjätunnuksellasi tai CSC:n tunnuksella. Palvelun käyttö edellyttää affiliaatiota suomalaiseen yliopistoon tai CSC-projektiin.

Käynnistä Mylly:
https://mylly.rahtiapp.fi

Mylly pohjautuu CSC – Tieteen tietotekniikan keskuksen kehittämään Chipster-teknologiaan. Mylly on päivittynyt keväällä 2019. Aiempi Java-pohjainen versio on poistunut käytöstä.

Myllyn pikaohje

  1. Kirjaudu omalla HAKA/CSC-tunnuksellasi osoitteessa
    https://mylly.rahtiapp.fi
  2. Lataa käsiteltävä(t) tiedosto(t) palveluun.
  3. Valitse käsiteltävä tiedosto vasemman reunan tiedostonäkymästä.
  4. Valitse tarvitsemasi työkalu valikosta ja paina Run.
  5. Näet Myllyssä syntyvät uudet tiedostot ja tekemäsi työvaiheet vasemmassa reunassa kaaviona tai listana.
  6. Tulokseksi saamiasi uusia tiedostoja voit tarkastella ja jatkokäsitellä muilla Myllyyn kytketyillä työkaluilla tai tallentaa omalle koneelle.

Työkaluja erilaisiin työvaiheisiin ja eri muotoisille tiedostoille

Esimerkiksi raakatekstiä (plain text) sisältävää aineistoa on mahdollista esikäsitellä Myllyssä, jotta saadaan aikaan erilaisten analyysityökalujen tarvitsema tekstin rakenne. Tekstin segmentointityökalulla tekstistä voidaan automaattisesti etsiä ja merkitä esimerkiksi kappaleenvaihtokohdat, ja näin syntyy HRT-muotoisia tekstitiedostoja. HRT-tiedoston käsittelyä puolestaan voidaan jatkaa saneistamalla eli ”tokenisoimalla” se VRT-muotoiseksi (VeRticalized Text). VRT-tiedostossa jokainen alkuperäisessä tekstissä esiintynyt sane kirjataan omalle rivilleen. Suomen-, ruotsin- tai englanninkielistä raakatekstiä voi jäsentää useilla jäsentimillä suoraan Myllyssä ja suomenkieliseen aineistoon voi käyttää myös automaattista nimiluokitinta.

Toinen Myllyn työkaluryhmä sisältää VRT-muotoisen tekstin käsittelyyn tarkoitettuja työkaluja. Jos tai kun tekstisi on VRT-muotoista, voit validoida sen Myllyssä. Sen jälkeen voit esimerkiksi tehdä siitä hakuja. Voit tarvittaessa nimetä uudelleen tulostiedostosi sarakkeita jatkokäyttöä varten. Tässä vaiheessa voit myös käyttää nimiluokitinta ja jäsentää aineiston kahdella eri jäsentimellä.

Monet Myllyssä olevat työkalut tuottavat TSV-muotoisia tekstitiedostoja (Tab-separated values). TSV-tiedosto voidaan näyttää taulukkona, jonka sarakkeet on TSV-tiedostossa erotettu toisistaan sarkainmerkeillä. TSV-muotoisena tiedostona voidaan käsitellä vaikkapa jostakin aineistosta haettu tietyn ilmauksen konkordanssi tai muuta taulukkomuotoista sisältöä. TSV-tiedoston voi myös helposti ladata Myllystä omalle koneelle ja tuoda sisällön esimerkiksi Excel-taulukkoon tai tilasto-ohjelmaan jatkokäsiteltäväksi.

Mylly-palvelun esittelyvideo (vanha Mylly-versio)

Lyhyitä esimerkkejä Myllyn käytöstä (PDF, esitelmä Kielitieteen päivillä 2017; vanha Mylly-versio)

Hae Kielipankki-portaalista:
Kuukauden tutkija: Sam Hardwick

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317