Korp-käyttöliittymän käyttöohjeet

Korp on verkkopohjainen työkalu, jolla voidaan tehdä konkordanssihakuja kieliopillisesti jäsennetyistä tekstikorpuksista. Korpin kautta pääsee käyttämään mm. laajoja suomen ja suomenruotsin aineistoja.

Suuri osa korpuksista on käytettävissä suoraan ilman kirjautumista, mutta jotkut niistä edellyttävät kirjautumista sekä mahdollisesti myös henkilökohtaista käyttöoikeutta (hakuohjeet).

Nämä käyttöohjeet pätevät Kielipankissa olevaan Korp-versioon. Korp-työkalua kehitetään Ruotsissa, Göteborgin Språkbankenissa, jossa olevasta Korpista löytyy etenkin ruotsinkielisiä aineistoja. Norjalaisesta Korp-versiosta puolestaan löytyy norjan- ja saamenkielisiä korpuksia. Ruotsin Språkbankenin Korp-version käyttöohje (ruotsinkielinen; huom. ei välttämättä päde kaikilta osin suomalaiseen Korp-versioon).

Käynnistä Korp:
https://www.kielipankki.fi/korp

Yleistä

Korp-korpushakuliittymä toimii WWW-selaimella. Korp toimii parhaiten Firefoxilla ja Chromella; osa Korpin ominaisuuksista ei toimi Internet Explorerissa. Selaimessa tulee olla JavaScript-tuki kytkettynä päälle.

Korpustilan (osaston) valitseminen

Korp-ikkunan vasemmassa yläreunassa on linkkejä, joista voi vaihtaa korpustilaa eli osastoa. Eri tiloissa on käytettävissä erilaisia korpuksia. Myös korpustilojen hakuominaisuuksissa on joitakin eroja.

Tällä hetkellä käytettävissä ovat seuraavat tilat:

Suomi: kirjoitetun ja puhutun nykysuomen sekä varhaisnykysuomen ja vanhan kirjasuomen aineistoja
Ruotsi: erityisesti suomenruotsin tekstiaineistoja sekä eräiden rinnakkaiskorpusten ruotsinkielisiä osia
Muut kielet: mm. suomalais-ugrilaisten kielten aineistoja sekä rinnakkaiskorpusten erikielisiä osia
Rinnakkaistekstit: rinnakkaiskorpuksia eli kaksi- tai monikielisiä aineistoja, joissa hakutulokset näytetään käännösvastineidensa kanssa

Korpuksen valitseminen

Korp-logon oikealla puolella on korpusten valintapalkki, josta voi valita korpukset, joihin haut kohdistuvat. Siinä lukee esim.

4 / 923 korpusta valittuina – 76.53M / 8,74G sanetta

Valintapalkkia napauttamalla saa näkyviin valintaikkunan, jossa voi rastia haluamansa korpukset. Korpukset on järjestetty puumaiseen rakenteeseen: puun haaran voi avata napauttamalla rivin alussa olevaa kolmiota.

Hiiren kohdistimen pitäminen korpuksen tai korpuspuun haaran kohdalla näyttää korpuksen sisältämien virkkeiden ja saneiden määrän. Saneiden määrä sisältää myös välimerkit.

Korpusten valintaikkunan yläreunassa oleva ”Valitse kaikki” valitsee kaikki korpukset ja ”Tyhjennä kaikki” poistaa kaikki valinnat.

Älä kuitenkaan valitse kaikkia korpuksia suomen tai rinnakkaistekstien osastossa, sillä nykyisellään konkordanssihaku ei toimi, jos kaikki korpukset ovat valittuina. Haku toimii, jos valitsee esimerkiksi kaikki muut korpukset paitsi ”1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä”.

Haku toimii parhaiten, kun kaikissa valituissa korpuksissa on käytetty samanlaista annotointia.

Kielivalinta

Korp-ikkunan oikeassa yläreunassa on kielilinkit, joista voi vaihtaa Korp-käyttöliittymän kielen. Nämä ohjeet kuvaavat suomenkielistä käyttöliittymää. Toistaiseksi vain suomi toimii kaikilta osin suomenkielisten korpusten kanssa.

Hakutyypit

Korpissa on kolme hakutyyppiä: yksinkertainen, laajennettu ja edistynyt. Hakutyyppi valitaan välilehteä napauttamalla. Yksinkertainen haku hakee yhden sanan perusteella; laajennetussa haussa hakukriteerissä voi viitata useampiin sanoihin ja niiden ominaisuuksiin; ja edistyneessä haussa voi kirjoittaa suoraan CQP-hakulausekkeen. Sanakuvaominaisuus toimii vain yksinkertaisen haun tuloksille.

Yksinkertainen haku

Yksinkertaisessa haussa hakusanakentään voi syöttää haettavan sananmuodon. Hakusanakentässä on täydennysominaisuus, joka näyttää (sanaluokka-analysoiduille korpuksille) kenttän kirjoitetun sanan täydennyksiä sekä niiden sanaluokkia. Täydennyslistassa näkyvät harmaina sanat, joita ei löydy valituista korpuksista. Jos valitsee täydennetyn, sanaluokkamerkityn sanan, hakutulokseen tulevat mukaan kaikki sanat, jotka ovat saaneet kyseisen sanan perusmuodoksi ja kyseisen sanaluokan. Sanakuvaominaisuus edellyttää tällaisen sanaluokkamerkityn sanan valitsemista; ei riitä, että itse kirjoittaa hakusanakenttään sanan ja sen sanaluokan.

Yksinkertaisessa haussa ovat rastittavissa seuraavat valinnat:

alkuosa: Hae myös sananmuodot, jotka alkavat haetulla sanalla (merkkijonolla)
loppuosa: Hae myös sananmuodot, jotka päättyvät haettuun sanaan (merkkijonoon)
samaista pien- ja suuraakkoset: Hae sananmuotoja riippumatta niiden merkkitasosta

Laajennettu haku

Laajennetussa haussa voi etsiä joko yksittäisiä sananmuotoja tai useamman peräkkäisen sanan jonoja. Kullekin etsittävässä sanajonossa esiintyvälle sanalle voidaan määritellä haluttuja ominaisuuksia.

Hakuesimerkkejä

Katso myös ruutukaapaukset tässä: Extended Search examples (toistaiseksi vain englanniksi).

Valitse ensin korpusvalikosta aineisto, johon haluat haun kohdistaa.

Kaikki olla-verbin esiintymät: valitse perusmuoto on ja kirjoita hakusanaksi olla
Minkä tahansa adjektiivin mikä tahansa muoto: valitse sanaluokka on adjektiivi
Sanan talo illatiivimuotoiset esiintymät (taloon, taloihin, taloomme jne.) jostakin Turku Dependency Treebank (TDT) -jäsentimellä annotoidusta korpuksesta (esim. KLK):
1. valitse perusmuoto on ja kirjoita tekstikenttään talo
2. paina +-merkkiä sanalaatikon vasemmasta alanurkasta lisätäksesi ylimääräisen hakukriteerin
3. valitse morfologinen analyysi sisältää ja kirjoita tekstikenttään Ill

Sananmuotoa koskevassa piirrevalikossa voi olla perusmuodon lisäksi paljon muitakin sanojen ominaisuuksia, joita voi hyödyntää haun määrittelyssä. Käytettävissä olevat hakukriteerit ovat korpuskohtaisia. Jotta hakutuloksia olisi helpompi tulkita, kannattaa yleensä tehdä hakuja vain yhdestä korpuksesta kerrallaan tai varmistaa, että valituissa korpuksissa on käytetty samaa annotointitapaa.

Kohdesanalle voi määritellä lisäkriteerejä klikkaamalla sanalaatikon vasemmasta alakulmasta +-merkkiä (jolloin kohdesanan täytyy täyttää molemmat hakukriteerit) tai klikkaamalla sanalaatikon vasemmassa alakulmassa olevaa tai-linkkiä (jolloin kohdesanan täytyy täyttää jompikumpi hakukriteereistä).

Usean sanan jonot

Haettavaan sanajonoon voi lisätä sanoja painamalla ketjun viimeisen sanalaatikon oikealla puolella olevaa +-merkkiä. Kullekin jonoon kuuluvalle kohdesanalle voi määritellä halutut ominaisuudet erikseen. Sanajonoon lisätyn sanan voi tarvittaessa poistaa painamalla ruksia sanalaatikon oikeassa yläkulmassa.

Haettavan sanajonon mikä tahansa elementti voi toistua. Valitse sanalaatikon oikean alanurkan ratasvalikosta ”toista” ja valitse sallittujen toistojen lukumäärä sen vasemmalta puolelta. Esim. ”toista 0 – 1 kertaa” tarkoittaa, että kyseinen muoto saa esiintyä kussakin hakuosumassa joko yhden kerran tai ei ollenkaan. Toistuva yksikkö voi myös olla mikä tahansa sana (määrittele pudotusvalikoista sana on ja jätä tekstilaatikko tyhjäksi). Näin voit etsiä ilmauksia, joiden osien väliin saa tekstissä jäädä muita sanoja.

Huomaa, että haku saattaa toisinaan hidastua tai jäädä jumiin, mikäli määrittelemäsi hakulauseke on hyvin monimutkainen ja valittuna on laaja korpus.

Vinkki: Laajennetun haun välilehdellä määritelty hakulauseke tulee automaattisesti näkyviin Edistynyt haku -välilehdellä (ks. alla), jossa voit halutessasi jatkaa sen tarkentamista.

Edistynyt haku

Edistyneessä haussa kirjoitetaan hakuehto CQP-hakulausekkeena. Siinä voi mm. hakea dependenssijäsennetyistä korpuksista dependenssisuhteita tavoilla, jotka eivät ole mahdollisia laajennetussa haussa: esim. yhden verbin subjektin ja objektin tai määriteketjuja.

Ohjeita ja esimerkkejä edistyneen haun CQP-hakulausekkeista

Korpuksiin liittyvän syntaktisen ja morfologisen annotaation kuvaukset

Annotaatiossa käytettävät tagit ovat korpuskohtaisia.
Osa Korpissa näkyvistä aineistoista on annotoimattomia, ts. niistä voidaan tehdä hakuja ainoastaan tekstisisällön perusteella.
Turku Dependency Treebank (TDT) -jäsentimellä on jäsennetty automaattisesti monet Korpissa saatavilla olevat korpukset, esimerkiksi KLK (Kansalliskirjaston lehtikokoelma). Huomaathan, että automaattisessa jäsennyksessä voi esiintyä virheitä.
FinnTreeBank-aineistossa käytetty muoto poikkeaa hieman TDT-jäsennysmuodosta.
Muihin aineistoihin liittyvän annotaation kuvaukset löytyvät yleensä kyseisen korpuksen kuvailutiedoista.

Hakutulosnäkymät

Hakutulosnäkymän voi valita välilehdistä ”Konkordanssi”, ”Tilastoja” ja ”Sanakuva”.

Konkordanssi

Konkordanssinäkymässä näkyvät hakuehtoon täsmänneitä sanoja sisältävät virkkeet niin, että hakuehtoon täsmännyt sana tai täsmänneet sanat näkyvät lihavoituina. Oletusnäkymä on KWIC-konkordanssi (keyword in context), jossa jokainen virke on yhdellä rivillä ja täsmännyt sana näkyy aina keskellä näyttöä. Pitkien virkkeiden kohdalla näyttöä voi vierittää sivusuunnassa. Näkymän yläreunassa olevasta kohdasta ”Näytä rivitettynä” voi valita näkymän, jossa hakutulokset näkyvät rivitettyinä; tällöin hakuehtoon täsmänneet sanat näkyvät lihavoituina, mutta eivät allekkain.

Jos samassa virkkeessä on useampi osuma, kukin niistä näkyy omana hakutuloksenaan.

Konkordanssinäkymän yläreunassa näkyy hakutulosten lukumäärä valituissa korpuksissa. Sen oikealla puolella on vaakasuora väripalkki, joka kuvaa osumien määrää eri korpuksissa. Viemällä hiiren jonkin palkin osan kohdalle saa näkyviin kyseisestä korpuksesta löytyvien osumien määrän. Napauttamalla kyseistä palkin osaa pääsee ensimmäiselle hakutulossivulle, jolla on kyseisestä korpuksesta löytyviä hakutuloksia. Väripalkin alapuolella olevasta numeropalkista voi siirtyä tietylle hakutulossivulle.

Konkordanssinäkymän oikeassa reunassa olevassa laatikossa näkyvät hakutuloksissa korostettuna (tummalla pohjalla) näkyvän sanan ominaisuudet sekä virkkeen sisältävän tekstin (tai virkkeen) ominaisuudet. Korostettua sanaa voi siirtää napauttamalla toista sanaa tai nuolinäppäimillä. Dependenssijäsennetyissä aineistoissa korostetun sanan pääsana näkyy hakutuloksessa vaaleanpunaisella pohjalla.

Tilastonäkymä ja trendikuvaaja

Korpin tilastonäkymässä (välilehti ”Tilastoja”) näkyvät hakuehtoon täsmänneiden sanojen tai ilmausten määrät jaoteltuina valitun sanan tai tekstin ominaisuuden mukaan sekä yhteensä että kussakin (ali)korpuksessa erikseen.

Tilastojen laskennassa käytettävät ominaisuudet valitaan ennen haun käynnistämistä Tilastoja: -tekstin oikealla puolella näkyvästä pudotusvalikosta. Ne ominaisuudet, joiden perusteella tilastoja voidaan laskea, vaihtelevat korpuskohtaisesti, sillä eri aineistoissa yksittäisille sanaesiintymille tai teksteille on merkitty erilaisia piirteitä. Oletusvalintana on ”sana”, jossa tilasto lasketaan pelkästään hakuosumien sisältämien merkkijonojen perusteella. Jos valitaan useita tilastointiperusteita, tilastonäkymän taulukkoon tulevat kaikki valittujen ominaisuuksien erilaiset yhdistelmät, joita kohteena olevassa korpuksessa esiintyy.

Tilastonäkymässä hakuosumien määrät näytetään suhteellisina frekvensseinä miljoonaa sanetta kohti sekä (sulkeissa) absoluuttisina frekvensseinä.

Tilastovälilehdellä olevalla painikkeella voi frekvenssitiedoista piirtää myös trendikuvaajan. Trendikuvaajassa tietyllä ajanjaksolla (esim. vuosi, kuukausi tai päivä) näkyvä suhteellinen frekvenssi on kyseisen ajanjakson sisältämien hakuosumien määrä jaettuna kyseisen ajanjakson kokonaissanemäärällä kaikissa valittuina olevissa aineistoissa, kerrottuna miljoonalla. Sanemäärä sisältää myös mm. välimerkit.

Jos valitut aineistot sisältävät ajoitustietoja eri tarkkuuksilla, esim. osa vuoden ja osa päivän tarkkuudella, ja jos tarkentaa trendikuvaajan päivän tarkkuudelle, vuoden tarkkuudella olevasta aineistosta tuleva frekvenssi tulee vuoden vuoden jokaiselle päivälle.
Esimerkiksi jos vuoden tarkkuudella olevasta aineistossa A on vuodelle 2016 10 osumaa yhteensä 10 000 saneesta ja päivän tarkkuudella olevasta aineiosta B on 3.7.2016 2 osumaa yhteensä 1000 saneesta ja muilta vuoden 2016 päiviltä ei lainkaan saneita, päivän tarkkuudelle tarkennettu trendikuvaaja näyttää seuraavasti:

3.7.2016:
abs. osumia: 12 (= 10 + 2)
suht. osumia: 1090,91 (= (10 + 2) / (10 000 + 1000) * 1 000 000)

muut vuoden 2016 päivät:
abs. osumia: 10
suht. osumia: 1000,00 (= 10 / 10 000 * 1 000 000)

Sanakuva

Sanakuvanäkymä näyttää haettuun sanaan tyypillisimmin liittyviä sanoja dependenssisuhteiden perusteella kaikissa valittuna olevissa korpuksissa. Sanojen tyypillisyys ei perustu tässä suoraan niiden frekvenssiin vaan ns. keskinäiseen informaatioon (mutual information), josta alla tarkemmin.

Sanakuvaominaisuus toimii vain seuraavilla ehdoilla:

valittuna olevat korpukset on dependenssianalysoitu, ja
käytössä on yksinkertainen haku, jossa joko haetaan yksittäistä sananmuotoa tai on valittu täydennysvalikosta sanaluokkamerkitty sana (ei siis riitä, että itse kirjoittaa hakusanakenttään sanan ja sen sanaluokan).

Huomaa, että aineistojen dependenssijäsennys on tehty ohjelmallisesti, joten siinä on myös virheitä. Jäsennysvirheiden lisäksi virheitä aiheuttavat esimerkiksi sanat, joita jäsennin ei ole tunnistanut eikä ole osannut perusmuotoistaa tai jotka jäsennin on tunnistanut virheellisesti, jolloin esimerkiksi sanan sanaluokka voi olla virheellinen.

Sanakuvassa näkyvät dependenssisuhteet riippuvat haetun sanan sanaluokasta. Kunkin eri dependenssisuhteen tyypillisimmät sanat (keskinäisen informaation perusteella) näkyvät omanvärisessään ”laatikossa”: esimerkiksi verbeillä subjekti, objekti ja adverbiaali, ja substantiiveilla etumäärite ja jälkimäärite sekä verbit, joiden subjektina (”Sana verbi”) tai objektina (”verbi sana”) sana esiintyy. Kustakin sanasta näkyy järjestysluku, itse sana ja sanan absoluuttinen yhteisfrekvenssi valituissa korpuksissa.

Absoluuttisen frekvenssin jäljessä olevasta dokumenttikuvakkeesta avautuu uusi konkordanssitulosvälilehti, jossa näkyvät ne virkkeet, joissa sana on kyseisessä dependenssisuhteessa alkuperäiseen hakusanaan. Siitä voi siis nähdä, millaisiin rakenteisiin sanakuvan tiedot perustuvat. Sanojen järjestyksen pohjana oleva keskinäisen informaation arvo näkyy työkaluvinkkinä viemällä hiiren kohdistin absoluuttisen frekvenssin päälle (esim. ”mi: 58,35”).

Sanakuvanäkymän oikeasta laidasta voi valita, näkyykö sanojen yhteydessä niiden (summittainen) sanaluokka, sekä kussakin dependenssisuhteessa näytettävien sanojen enimmäismäärän.

Korpin sanakuvassa keskinäinen informaatio mittaa sitä, miten tyypillisesti eri sanat ovat tietyssä dependenssisuhteessa hakusanaan, esim. haetun verbin subjekteja. Jos jokin sana on yleinen subjekti monille verbeille, sen keskinäinen informaatio suhteessa haettuun verbiin voi olla pienempi kuin jonkin toisen sanan, joka ei ole yhtä yleinen haetunkaan verbin subjektina mutta joka kuitenkin esiintyy huomattavasti useammin haetun verbin kuin muiden verbien subjektina.

Sanakuva käyttää ”leksikografin keskinäiseksi informaatioksi” (Lexicographer’s Mutual Information, LMI) kutsuttua kaavaa, joka pyrkii pienentämään pienifrekvenssisten sanojen painoarvoa verrattuna tavanomaiseen keskinäisen informaation laskukaavaan. Tyypillisesti (leksikografin) keskinäinen informaatio lasketaan koko korpuksen sanojen frekvenssien perusteella, ja sitä käytetään yhtenä mittarina kollokaatioiden (tyypillisesti yhdessä esiintyvien sanojen) etsimisessä (ks. esim. täältä tai täältä).

Korpin sanakuvaa varten kahden sanan A ja B välinen keskinäinen informaatio LMI(A,B) lasketaan kuitenkin sanakuvan yhdessä laatikossa (esim. verbin subjekti) olevien sanojen kesken eli yhtä dependenssisuhdetyyppiä Rel kohti seuraavasti ((x, Rel, y) tarkoittaa sanaa x dependenssisuhteessa Rel sanan y kanssa):

n = ”laatikkoa” vastaavien dependenssisuhteiden (x, Rel, y) yhteisfrekvenssi valituissa korpuksissa (mille tahansa sanoille x ja y)
n_A = dependenssisuhteiden (A, Rel, y) yhteisfrekvenssi valituissa korpuksissa, eli sana A relaatiossa Rel minkä tahansa sanan y kanssa
n_B = dependenssisuhteiden (x, Rel, B) yhteisfrekvenssi valituissa korpuksissa, eli mikä tahansa sana x relaatiossa Rel sanan B kanssa
n_AB = dependenssisuhteiden (A, Rel, B) yhteisfrekvenssi valituissa korpuksissa: montako kertaa sana A esiintyy relaatiossa Rel juuri sanan B kanssa

LMI(A,B) = n_AB * log₂ ((n * n_AB) / (n_A * n_B))

(log₂ on 2-kantainen logaritmi.)

Dependenssisuhdetyypistä riippuen joko A tai B voi olla haettu sana ja toinen on jokin sanakuvalaatikkoon mahdollisesti tuleva sana.

Hakutulosten esittäminen

Varsinaisen hakuehtokentän alapuolella on kolme pudotusvalikkoa, joilla voi vaikuttaa hakutuloksen esittämiseen. Kaksi ensimmäistä vaikuttavat konkordanssinäkymään:

osumia sivulla: Montako osumaa Korp näyttää yhdellä kerralla (25–1000, oletuksena 25)
järjestä korpuksen sisällä: Miten Korp järjestää konkordanssissa näkyvät hakutulokset (yhden korpuksen osalta); valittavina ovat seuraavat vaihtoehdot:
- järjestämätön: hakutulokset ovat siinä järjestyksessä kuin ne ovat korpuksessa (oletus)
- täsmänneet sanat: hakuehtoon täsmänneiden sanojen mukaan nousevassa aakkosjärjestyksessä
- vasen konteksti: hakuehtoon täsmänneiden sanojen vasemmanpuoleisen kontekstin mukaan nousevassa aakkosjärjestyksessä
- oikea konteksti: hakuehtoon täsmänneiden sanojen oikeanpuoleisen kontekstin mukaan nousevassa aakkosjärjestyksessä
- satunnaisesti: satunnainen järjestys (huomaa, että järjestys on satunnainen vain kunkin valitun korpuksen sisällä, ei korpusten välillä)

Kolmas valikko vaikuttaa tilastonäkymään. Siinä voi valita sanan tai tekstin ominaisuuden, jonka suhteen tilasto lasketaan. Oletuksena on laskea tilastot sanan (sananmuodon) perusteella, jolloin tilastotaulukko näyttää jakauman hakuosumien sananmuodoista. Esim. valitsemalla ”sanaluokka” saa jakauman hakuosumien sanaluokista.

Ohjeita Korpissa julkaistavan aineiston muodosta

Haluatko siirtää oman aineistosi Korpiin? Lue ohjeet aineiston formaatista.

Hae Kielipankki-portaalista:

Kuukauden tutkija: Aku Rouhe

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot