Korp-käyttöliittymän käyttöohjeet

Korp on verkkopohjainen työkalu, jolla voidaan tehdä konkordanssihakuja kieliopillisesti jäsennetyistä tekstikorpuksista. Korpin kautta pääsee käyttämään mm. laajoja suomen ja suomenruotsin aineistoja.

Suuri osa korpuksista on käytettävissä suoraan ilman kirjautumista, mutta jotkut niistä edellyttävät kirjautumista sekä mahdollisesti myös henkilökohtaista käyttöoikeutta (hakuohjeet).

Nämä käyttöohjeet pätevät Kielipankissa olevaan Korp-versioon. Korp-työkalua kehitetään Ruotsissa, Göteborgin Språkbankenissa, jossa olevasta Korpista löytyy etenkin ruotsinkielisiä aineistoja. Norjalaisesta Korp-versiosta puolestaan löytyy norjan- ja saamenkielisiä korpuksia. Ruotsin Språkbankenin Korp-version käyttöohje (ruotsinkielinen; huom. ei välttämättä päde kaikilta osin suomalaiseen Korp-versioon).

Korp Käynnistä Korp:
https://korp.csc.fi

Yleistä

Korp-korpushakuliittymä toimii WWW-selaimella. Korp toimii parhaiten Firefoxilla ja Chromella; osa Korpin ominaisuuksista ei toimi Internet Explorerissa. Selaimessa tulee olla JavaScript-tuki kytkettynä päälle.

Korpustilan (osaston) valitseminen

Korp-ikkunan vasemmassa yläreunassa on linkkejä, joista voi vaihtaa korpustilaa eli osastoa. Eri tiloissa on käytettävissä erilaisia korpuksia. Myös korpustilojen hakuominaisuuksissa on joitakin eroja.

Tällä hetkellä käytettävissä ovat seuraavat tilat:

  • Suomi: kirjoitetun ja puhutun nykysuomen sekä varhaisnykysuomen ja vanhan kirjasuomen aineistoja
  • Ruotsi: erityisesti suomenruotsin tekstiaineistoja sekä eräiden rinnakkaiskorpusten ruotsinkielisiä osia
  • Muut kielet: mm. suomalais-ugrilaisten kielten aineistoja sekä rinnakkaiskorpusten erikielisiä osia
  • Rinnakkaistekstit: rinnakkaiskorpuksia eli kaksi- tai monikielisiä aineistoja, joissa hakutulokset näytetään käännösvastineidensa kanssa

Korpuksen valitseminen

Korp-logon oikealla puolella on korpusten valintapalkki, josta voi valita korpukset, joihin haut kohdistuvat. Siinä lukee esim.

4 / 923 korpusta valittuina – 76.53M / 8,74G sanetta

Valintapalkkia napauttamalla saa näkyviin valintaikkunan, jossa voi rastia haluamansa korpukset. Korpukset on järjestetty puumaiseen rakenteeseen: puun haaran voi avata napauttamalla rivin alussa olevaa kolmiota.

Hiiren kohdistimen pitäminen korpuksen tai korpuspuun haaran kohdalla näyttää korpuksen sisältämien virkkeiden ja saneiden määrän. Saneiden määrä sisältää myös välimerkit.

Korpusten valintaikkunan yläreunassa oleva ”Valitse kaikki” valitsee kaikki korpukset ja ”Tyhjennä kaikki” poistaa kaikki valinnat.

Älä kuitenkaan valitse kaikkia korpuksia suomen tai rinnakkaistekstien osastossa, sillä nykyisellään konkordanssihaku ei toimi, jos kaikki korpukset ovat valittuina. Haku toimii, jos valitsee esimerkiksi kaikki muut korpukset paitsi ”1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä”.

Haku toimii parhaiten, kun kaikissa valituissa korpuksissa on käytetty samanlaista annotointia.

Kielivalinta

Korp-ikkunan oikeassa yläreunassa on kielilinkit, joista voi vaihtaa Korp-käyttöliittymän kielen. Nämä ohjeet kuvaavat suomenkielistä käyttöliittymää. Toistaiseksi vain suomi toimii kaikilta osin suomenkielisten korpusten kanssa.

Hakutyypit

Korpissa on kolme hakutyyppiä: yksinkertainen, laajennettu ja edistynyt. Hakutyyppi valitaan välilehteä napauttamalla. Yksinkertainen haku hakee yhden sanan perusteella; laajennetussa haussa hakukriteerissä voi viitata useampiin sanoihin ja niiden ominaisuuksiin; ja edistyneessä haussa voi kirjoittaa suoraan CQP-hakulausekkeen. Sanakuvaominaisuus toimii vain yksinkertaisen haun tuloksille.

Yksinkertainen haku

Yksinkertaisessa haussa hakusanakentään voi syöttää haettavan sananmuodon. Hakusanakentässä on täydennysominaisuus, joka näyttää (sanaluokka-analysoiduille korpuksille) kenttän kirjoitetun sanan täydennyksiä sekä niiden sanaluokkia. Täydennyslistassa näkyvät harmaina sanat, joita ei löydy valituista korpuksista. Jos valitsee täydennetyn, sanaluokkamerkityn sanan, hakutulokseen tulevat mukaan kaikki sanat, jotka ovat saaneet kyseisen sanan perusmuodoksi ja kyseisen sanaluokan. Sanakuvaominaisuus edellyttää tällaisen sanaluokkamerkityn sanan valitsemista; ei riitä, että itse kirjoittaa hakusanakenttään sanan ja sen sanaluokan.

Yksinkertaisessa haussa ovat rastittavissa seuraavat valinnat:

  • alkuosa: Hae myös sananmuodot, jotka alkavat haetulla sanalla (merkkijonolla)
  • loppuosa: Hae myös sananmuodot, jotka päättyvät haettuun sanaan (merkkijonoon)
  • samaista pien- ja suuraakkoset: Hae sananmuotoja riippumatta niiden merkkitasosta

Laajennettu haku

Laajennetussa haussa voi etsiä joko yksittäisiä sananmuotoja tai useamman peräkkäisen sanan jonoja. Kullekin etsittävässä sanajonossa esiintyvälle sanalle voidaan määritellä haluttuja ominaisuuksia.

Hakuesimerkkejä

Katso myös ruutukaapaukset tässä: Extended Search examples (toistaiseksi vain englanniksi).

Valitse ensin korpusvalikosta aineisto, johon haluat haun kohdistaa.

  • Kaikki olla-verbin esiintymät: valitse perusmuoto on ja kirjoita hakusanaksi olla
  • Minkä tahansa adjektiivin mikä tahansa muoto: valitse sanaluokka on adjektiivi
  • Sanan talo illatiivimuotoiset esiintymät (taloon, taloihin, taloomme jne.) jostakin Turku Dependency Treebank (TDT) -jäsentimellä annotoidusta korpuksesta (esim. KLK):
    1. valitse perusmuoto on ja kirjoita tekstikenttään talo
    2. paina +-merkkiä sanalaatikon vasemmasta alanurkasta lisätäksesi ylimääräisen hakukriteerin
    3. valitse morfologinen analyysi sisältää ja kirjoita tekstikenttään Ill

Sananmuotoa koskevassa piirrevalikossa voi olla perusmuodon lisäksi paljon muitakin sanojen ominaisuuksia, joita voi hyödyntää haun määrittelyssä. Käytettävissä olevat hakukriteerit ovat korpuskohtaisia. Jotta hakutuloksia olisi helpompi tulkita, kannattaa yleensä tehdä hakuja vain yhdestä korpuksesta kerrallaan tai varmistaa, että valituissa korpuksissa on käytetty samaa annotointitapaa.

Kohdesanalle voi määritellä lisäkriteerejä klikkaamalla sanalaatikon vasemmasta alakulmasta +-merkkiä (jolloin kohdesanan täytyy täyttää molemmat hakukriteerit) tai klikkaamalla sanalaatikon vasemmassa alakulmassa olevaa tai-linkkiä (jolloin kohdesanan täytyy täyttää jompikumpi hakukriteereistä).

Usean sanan jonot

Haettavaan sanajonoon voi lisätä sanoja painamalla ketjun viimeisen sanalaatikon oikealla puolella olevaa +-merkkiä. Kullekin jonoon kuuluvalle kohdesanalle voi määritellä halutut ominaisuudet erikseen. Sanajonoon lisätyn sanan voi tarvittaessa poistaa painamalla ruksia sanalaatikon oikeassa yläkulmassa.

Haettavan sanajonon mikä tahansa elementti voi toistua. Valitse sanalaatikon oikean alanurkan ratasvalikosta ”toista” ja valitse sallittujen toistojen lukumäärä sen vasemmalta puolelta. Esim. ”toista 0 – 1 kertaa” tarkoittaa, että kyseinen muoto saa esiintyä kussakin hakuosumassa joko yhden kerran tai ei ollenkaan. Toistuva yksikkö voi myös olla mikä tahansa sana (määrittele pudotusvalikoista sana on ja jätä tekstilaatikko tyhjäksi). Näin voit etsiä ilmauksia, joiden osien väliin saa tekstissä jäädä muita sanoja.

Huomaa, että haku saattaa toisinaan hidastua tai jäädä jumiin, mikäli määrittelemäsi hakulauseke on hyvin monimutkainen ja valittuna on laaja korpus.

Vinkki: Laajennetun haun välilehdellä määritelty hakulauseke tulee automaattisesti näkyviin Edistynyt haku -välilehdellä (ks. alla), jossa voit halutessasi jatkaa sen tarkentamista.

Edistynyt haku

Edistyneessä haussa kirjoitetaan hakuehto CQP-hakulausekkeena. Siinä voi mm. hakea dependenssijäsennetyistä korpuksista dependenssisuhteita tavoilla, jotka eivät ole mahdollisia laajennetussa haussa: esim. yhden verbin subjektin ja objektin tai määriteketjuja.

Ohjeita ja esimerkkejä edistyneen haun CQP-hakulausekkeista

Korpuksiin liittyvän syntaktisen ja morfologisen annotaation kuvaukset

  • Annotaatiossa käytettävät tagit ovat korpuskohtaisia.
  • Osa Korpissa näkyvistä aineistoista on annotoimattomia, ts. niistä voidaan tehdä hakuja ainoastaan tekstisisällön perusteella.
  • Turku Dependency Treebank (TDT) -jäsentimellä on jäsennetty automaattisesti monet Korpissa saatavilla olevat korpukset, esimerkiksi KLK (Kansalliskirjaston lehtikokoelma). Huomaathan, että automaattisessa jäsennyksessä voi esiintyä virheitä.
  • FinnTreeBank-aineistossa käytetty muoto poikkeaa hieman TDT-jäsennysmuodosta.
  • Muihin aineistoihin liittyvän annotaation kuvaukset löytyvät yleensä kyseisen korpuksen kuvailutiedoista.

Hakutulosnäkymät

Hakutulosnäkymän voi valita välilehdistä ”Konkordanssi”, ”Tilastoja” ja ”Sanakuva”.

Konkordanssi

Konkordanssinäkymässä näkyvät hakuehtoon täsmänneitä sanoja sisältävät virkkeet niin, että hakuehtoon täsmännyt sana tai täsmänneet sanat näkyvät lihavoituina. Oletusnäkymä on KWIC-konkordanssi (keyword in context), jossa jokainen virke on yhdellä rivillä ja täsmännyt sana näkyy aina keskellä näyttöä. Pitkien virkkeiden kohdalla näyttöä voi vierittää sivusuunnassa. Näkymän yläreunassa olevasta kohdasta ”Näytä rivitettynä” voi valita näkymän, jossa hakutulokset näkyvät rivitettyinä; tällöin hakuehtoon täsmänneet sanat näkyvät lihavoituina, mutta eivät allekkain.

Jos samassa virkkeessä on useampi osuma, kukin niistä näkyy omana hakutuloksenaan.

Konkordanssinäkymän yläreunassa näkyy hakutulosten lukumäärä valituissa korpuksissa. Sen oikealla puolella on vaakasuora väripalkki, joka kuvaa osumien määrää eri korpuksissa. Viemällä hiiren jonkin palkin osan kohdalle saa näkyviin kyseisestä korpuksesta löytyvien osumien määrän. Napauttamalla kyseistä palkin osaa pääsee ensimmäiselle hakutulossivulle, jolla on kyseisestä korpuksesta löytyviä hakutuloksia. Väripalkin alapuolella olevasta numeropalkista voi siirtyä tietylle hakutulossivulle.

Konkordanssinäkymän oikeassa reunassa olevassa laatikossa näkyvät hakutuloksissa korostettuna (tummalla pohjalla) näkyvän sanan ominaisuudet sekä virkkeen sisältävän tekstin (tai virkkeen) ominaisuudet. Korostettua sanaa voi siirtää napauttamalla toista sanaa tai nuolinäppäimillä. Dependenssijäsennetyissä aineistoissa korostetun sanan pääsana näkyy hakutuloksessa vaaleanpunaisella pohjalla.

Tilastoja

Tilastonäkymässä näkyvät hakuehtoon täsmänneiden sanojen määrä valitun sanan tai tekstin ominaisuuden mukaan jaoteltuina yhteensä sekä eri korpuksissa. Osumien määrät näytetään suhteellisina frekvensseinä miljoonaa sanetta kohti sekä (sulkeissa) absoluuttisina frekvensseinä.

Sanakuva

Sanakuvanäkymä näyttää haettuun sanaan yleisimmin liittyviä sanoja dependenssisuhteiden perusteella kaikissa valittuna olevissa korpuksissa. Sanojen yleisyys ei perustu tässä suoraan niiden frekvenssiin vaan ns. keskinäiseen informaatioon (mutual information).

Sanakuvaominaisuus toimii vain seuraavilla ehdoilla:

  • valittuna oleva korpus on dependenssianalysoitu, ja
  • käytössä on yksinkertainen haku, jossa joko haetaan yksittäistä sananmuotoa tai on valittu täydennysvalikosta sanaluokkamerkitty sana (ei siis riitä, että itse kirjoittaa hakusanakenttään sanan ja sen sanaluokan).

Hakutulosten esittäminen

Varsinaisen hakuehtokentän alapuolella on kolme pudotusvalikkoa, joilla voi vaikuttaa hakutuloksen esittämiseen. Kaksi ensimmäistä vaikuttavat konkordanssinäkymään:

  • osumia sivulla: Montako osumaa Korp näyttää yhdellä kerralla (25–1000, oletuksena 25)
  • järjestä korpuksen sisällä: Miten Korp järjestää konkordanssissa näkyvät hakutulokset (yhden korpuksen osalta); valittavina ovat seuraavat vaihtoehdot:
    • järjestämätön: hakutulokset ovat siinä järjestyksessä kuin ne ovat korpuksessa (oletus)
    • täsmänneet sanat: hakuehtoon täsmänneiden sanojen mukaan nousevassa aakkosjärjestyksessä
    • vasen konteksti: hakuehtoon täsmänneiden sanojen vasemmanpuoleisen kontekstin mukaan nousevassa aakkosjärjestyksessä
    • oikea konteksti: hakuehtoon täsmänneiden sanojen oikeanpuoleisen kontekstin mukaan nousevassa aakkosjärjestyksessä
    • satunnaisesti: satunnainen järjestys (huomaa, että järjestys on satunnainen vain kunkin valitun korpuksen sisällä, ei korpusten välillä)

Kolmas valikko vaikuttaa tilastonäkymään. Siinä voi valita sanan tai tekstin ominaisuuden, jonka suhteen tilasto lasketaan. Oletuksena on laskea tilastot sanan (sananmuodon) perusteella, jolloin tilastotaulukko näyttää jakauman hakuosumien sananmuodoista. Esim. valitsemalla ”sanaluokka” saa jakauman hakuosumien sanaluokista.

Ohjeita Korpissa julkaistavan aineiston muodosta

Haluatko siirtää oman aineistosi Korpiin? Lue ohjeet aineiston formaatista.

Hae Kielipankki-portaalista:
Kuukauden tutkija: Annika Liiti

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317