Ohjeita Digitaalisen muoto-opin arkiston (DMA) käyttämiseksi Korpissa

Korp ja DMA

Korp on Kielipankin tekstiaineistojen hakupalvelu, joka on osoitteessa https://korp.csc.fi/. Korpilla pystyy tekemään kaikki haut, jotka pystyi tekemään vanhalla Tutkijan käyttöliittymän (SUI) DMA:lla, mutta ei aina yhtä helposti, koska Korp on yleiskäyttöinen hakupalvelu. Korp kuitenkin mahdollistaa hakuja, joita ei pystynyt tekemään SUI-DMA:ssa, mm. säännöllisiä lausekkeita käyttämällä. Näiden ohjeiden tarkoituksena on kuvata järjestelmien eroja ja helpottaa siirtymistä käyttämään DMA:ta Korpissa.

Korp toimii parhaiten Firefox- ja Chrome-selaimilla.

DMA:n valitseminen Korpissa

DMA on Korpin korpusvalikon kansiossa ”Puhuttua kieltä (tekstiksi litteroituna)”:

Korpin korpusvalikko, DMA valittuna

Korpusvalikossa kannattaa ensin poistaa oletusvalinnat ja sitten valita DMA. DMA:han pääsee myös suoraan osoitteesta https://korp.csc.fi/#?corpus=dma.

Hakutavat ja hakuehdot

Korpin laajennettu haku

Myös Korpissa on kolme erilaista hakutapaa: yksinkertainen, laajennettu ja edistynyt. DMA:n kolme hakutapaa vastaavat lähinnä laajennettua hakua.

Laajennetussa haussa hakuehto rakennetaan ”laatikoista”, joista kukin vastaa yhtä sanaa (sanetta). Kussakin sanelaatikossa voi olla yksi tai useampia hakuehtoja tai– tai ja-operaatioilla ydistettyinä. Ehdot voivat koskea yksittäisiä sanoja (DMA:ssa lähinnä sananmuoto eli hakusana) tai koko lausetta (mm. pitäjä, informantin tiedot, kommentti). (Hieman epäloogisesti myös koko lausetta koskevat ehdot täytyy liittää jonkin sanan hakuehdoiksi.)

Esimerkiksi seuraava haku hakee vat-loppuisia sananmuotoja Leppävirralta:

Korp-haku DMA:sta: vat-loppuiset sananmuodot Leppävirralta

Toisin kuin SUI-DMA:ssa, monisanaisen haun tuloksessa haettujen sanojen täytyy olla samassa järjestyksessä kuin hakuehdossa. Möys sanojen välissä mahdollisesti sallittavat sanat täytyy lisätä hakuehtoon eksplisiittisesti: sana on mikä tahansa sana, ja sanaehtolaatikon oikeassa alanurkassa olevasta ratasvalikosta valitaan toista ja määritellään, montako sanaa välissä voi olla.

Vaihtoehtoisia järjestyksiä hakusanoille voi kuitenkin märitellä Korpin edistyneessä haussa, jossa hakuehto kirjoitetaan CQP-hakulausekkeena. Korpin edistyneestä hausta on lisätietoja jäljempänä.

Aluerajaus

Alueen voi rajata lisäämällä hakuehtoon ”tekstin ominaisuuden” (attribuutin) murrealue, murreryhmä tai paikkakunta (pitäjä) ja valitsemalla arvojen valintalistasta halutun arvon. Murrealue on päämurrealue ja murreryhmä sen osa. (Murrealueen voi tosin valita myös murreryhmävalikosta.) Ilman alue- tai paikkakuntarajausta Korp hakee kaikkien murteiden näytteistä.

Toisin kuin SUI-DMA:ssa, nämä ominaisuudet ovat toisistaan riippumattomia: murrealueen tai -ryhmän valitseminen ei rajaa paikkakuntavalikkoa kyseisen alueen tai ryhmän paikkakuntiin, vaan on mahdollista valita toisen alueen paikkakunta. Tällöin hakutulos on kuitenkin väistämättä tyhjä.

DMA:n kolmen hakutavan vastineet Korpissa

Sananmuotohaku

SUI-DMA:n sananmuotohakua vastaava haku tehdään valitsemalla hakuehtoon ”sanan ominaisuus” hakusana, joka on murremuoto ilman tarkekirjoitusmerkkejä. Lisäksi voi valita, että hakusana on (oletus), ei ole, alkaa, loppuu tai sisältää annetun sanan (merkkijonon). Esimerkiksi vat-loppuisia sananmuotoja Leppävirralta haetaan seuraavasti:

On myös mahdollista valita säännöllinen lauseke, jolloin voi kirjoittaa tarkemman hakuehdon: esim. .*v[aä]t löytää sananmuodot, jotka loppuvat -vat tai -vät. Säännöllisistä lausekkeista on lisätietoja edistyneen haun kuvauksessa.

Monisanaisessa haussa kutakin sanaa kohti täytyy lisätä oma hakuehtolaatikkonsa ja siinä valita hakusana. Tässä pätee yllä oleva huomautus monisanaisista ha’uista.

Korvausmerkkihaku

SUI-DMA:n korvausmerkkihakua vastaava haku tehdään valitsemalla hakuehtoon sana, joka on murremuoto tarkekirjoitusmerkkeineen. Muuten haku toimii kuten sananmuotohaku.

Signumihaku

SUI-DMA:n signumihakua vastaava haku tehdään valitsemalla hakuehtoon ”tekstin ominaisuus” signumi ja kirjoittamalla kenttään haluttu (yksi) signumi. Signumin voi valita myös listasta, joka avautuu kentän oikealla puolella olevasta (i)-linkistä.

Koska Korpin haku kohdistuu yksittäisiin sanoihin, tällä tavalla kutakin kyseisellä signumilla merkityn lauseen sanaa kohti tulee hakutulokseen yksi osuma. Jos hakuehdossa ei ole sanaa koskevia ehtoja, kannattaneekin yleensä valita sanalaatikon oikean alanurkan ratasvalikosta virkkeen alussa, jolloin kutakin lausetta kohti tulee vain yksi osuma (jossa tosin on lihavoituna ensimmäinen sana).

Jos haluaa antaa useita signumiehtoja, ne täytyy lisätä hakuehtolaatikkoon kukin erillisenä osanaan, tai– tai ja-ehdolla yhdistettyinä. Vaihtoehtoisesti voi valita hakuehtoon signumilista ja säännöllinen lauseke: esim. .*150.*170.* löytää lauseet, jotka on merkitty sekä signumilla 150 että signumilla 170.

Muita hakuehtoja

Korpin DMA:ssa on mahdollista hakea tai rajata hakua myös sellaisilla piirteillä, joilla SUI-DMA:ssa ei voinut. Näitä ovat esimerkiksi informantti, kommentti ja alkuperäistiedon (sanalipun) sijainti. Lisäksi voi hakea informantin sukupuolen tai syntymävuoden mukaan, jos nämä tiedot ovat olemassa.

Muutamien pitäjien näytteet on jaettu kylittäin, jolloin SUI-DMA:ssa kylän nimi näkyi sulkeissa pitäjän nimen jälkeen. Korpin DMA:ssa kylä näkyy tällöin erillisenä tietona, ja sitä voi käyttää myös hakuehdon osana.

Korpin edistynyt haku

Vaihtoehtoisia järjestyksiä hakusanoille voi märitellä Korpin edistyneessä haussa, jossa hakuehto kirjoitetaan CQP-hakulausekkeena. Esimerkiksi seuraava CQP-lauseke vastaa SUI-DMA-sananmuotohakua voi ol, kun etsitään alkuosia sanojen alkuosia (ja ilman muita rajoituksia):

([searchword="voi.*"] []* [searchword="ol.*"]) | (searchword="ol.*" []* [searchword="voi.*"])

Edistyneessä haussa kutakin sanaa (laajennetun haun sanalaatikkoa) vastaavat hakuehdot (sanalaatikon osat) kirjoitetaan hakasulkeiden sisään muodossa attribuutti="arvo". Näitä attribuuttiehtoja voi olla useita: ja-ehdot erotetaan et-merkillä & ja tai-ehdot pystyviivalla |. Näitä voi ryhmitellä kaarisulkeilla.

Peräkkäin olevat hakasulje-ehdot viittaavat sanojen peräkkäisyyteen. Tyhjät hakasulkeet [] tarkoittavat mitä tahansa sanaa, ja []* nollaa tai useampaa mitä tahansa sanaa. Lisäksi []+ tarkoittaa yhtä tai useampaa mitä tahansa sanaa ja esim. []{1,5} yhdestä viiteen mitä tahansa sanaa. Kaarisulkeet ryhmittelevät sanaehtojonoja, ja pystyviiva erottaa vaihtoehtoiset sanaehtojonot eli käytännössä sanojen järjestyksen. Jos etsittäviä sanoja on useampia, mahdollisia järjestyksiä ja siten tulee enemmän

DMA:ssa sanojen attribuutit ovat word (sana korvausmerkkeineen) ja searchword (hakusana ilman korvausmerkkejä). Lisäksi hakuehdoissa voi viitata koko lauseen ominaisuuksiin (attribuutteihin) muodossa _.attribuutti="arvo" (huomaa attribuutin nimeä edeltävä oleva alaviiva ja piste). Näitä attribuutteja ovat mm. seuraavat: text_dialect_region (murrealue), text_dialect_group (murreryhmä), text_parish_name (paikkakunta), text_village (kylä), sentence_comment (lauseeseen liittyvä kommentti), sentence_informant (informantti).

Attribuuttien arvot esitetään säännöllisinä lausekkeina. Tarkka sanahaku (korvausmerkkihaku) ilmaistaan [word="voi"], alkuosa [word="voi.*"], loppuosa [word=".*voi"] ja sisältyminen [word=".*voi.*"]. Tietyt korvausmerkit ovat myös säännöllisissä lausekkeissa käytettyjä erikoismerkkejä. Jos tällaisia korvausmerkkejä haluaa hakea, niiden eteen täytyy lisätä kenoviiva \: esimerkiksi \ kirjoitetaan \\.

Esimerkiksi seuraava haku hakee ol– ja lie-alkuisia sananmuotoja Eurajoelta:

[(searchword="ol.*" | searchword="lie.*") & _.text_parish_name="Eurajoki"]

Tätä voi vielä tiivistää tekemällä sananmuodoista yhden säännöllisen lausekkeen:

[searchword="(ol|lie).*" & _.text_parish_name="Eurajoki"]

Edistyneen haun välilehdessä näkyvät yksinkertaisessa ja laajennetussa haussa viimeksi tehdyn haun vastine CQP-lausekkeena. Hakuehdon voi siis esim. muodostaa laajennetussa haussa, kopioida lauseke edistyneen haun hakuehtokenttään ja muokata sitä haluamallaan tavalla.

Tarkempia ohjeita edistyneen haun käyttämiseen on Kielipankin Korp-ohjeissa.

Hakutulokset

DMA:n kannalta olennaisia hakutuloksia ovat konkordanssi ja mahdollisesti tilastot, jotka tulevat jokaisen haun yhteydessä omiin tulosvälilehtiinsä.

Konkordanssi

Konkordanssi on oletuksena ”järjestämätön”, eli tulokset tulevat korpuksen järjestyksessä, samoin kuin SUI-DMA:ssa. Järjestyksen voi vaihtaa ennen hakua hakulomakkeen alaosassa olevasta valintalistasta: hakuosuman, oikean tai vasemman kontekstin mukaan tai satunnaiseksi.

Hakulomakkeen alaosasta voi valita myös yhdellä sivulla näytettävien hakutulosten määrän, joka on oletuksena 25.

Jos samsssa lauseessa on useita hakuehdolla löytyneitä sanoja tai sanajonoja, kukin niistä näkyy hakutuloksessa omana rivinään. Kullakin rivillä näkyy hakutulokseen täsmännyt sana (täsmänneet sanat) lihavoituna ja kohdistettuna rivin keskellä.

Konkordanssin kullakin rivillä näkyy vain pelkkä lause, ei pitäjä- tai informanttitietoa kuten SUI-DMA:ssa. Kun konkordanssissa valitsee jonkin sanan (näkyy tummalla taustavärillä), konkordanssin oikeaan reunaan tulee reunapalkki, jossa näkyvät kyseiseen sanaan ja koko lauseeseen liittyvät tiedot (”sanan ominaisuudet” ja ”tekstin ominaisuudet”). Reunapalkki vastaa siis tavallaan SUI-DMA:n korttinäyttöä. Reunapalkista on myös linkki mahdolliseen sanalipun PDF-kuvaan.

Korpin konkordanssi DMA:sta: vat-loppuisia sanoja

Koska kukin hakutulos on yhdellä rivillä, erityisesti pitkiä lauseita sisältävää hakutulosta voi joutua vierittämään vaakasuunnassa. Usein paremman tulosmuodon saa hakutulosten yläpuolella olevasta linkistä ”Näytä konteksti”, joka näyttää lauseet rivitettyinä ilman hakuosumien pystykohdistusta.

Hakutuloksen pystyy tulostamaan selaimesta, mutta jatkokäsittelyä varten se on yleensä käytännöllisempää ladata tiedostona. Korpista hakutulokset voi ladata Excel-muodossa, jossa joko kukin sana on omalla rivillään (”Annot”), tai kukin lause ja sen tiedot kukin omalla rivillään (”Ref”).

Tilasto

Tilastotulos näyttää haulla löytyneiden sanojen suhteellisen ja absoluuttisen frekvenssin valitun laskentakriteerin mukaan. Laskentakriteerin voi valita hakulomakkeen alareunassa olevasta valintalistasta ”Laske tilastot tämän perusteella”. Kriteeri voi olla esim. sana, paikkakunta, murrealue tai informantti. Esimerkiksi valittaessa paikkakunta tilastonäkymä näyttää, montako hakutulosta löytyi mistäkin paikkakuntaa kohti.

Tässäkin hakutulosten määrä on sanojen määrä: jos yhdessä lauseessa on useita hakuun täsmääviä sanoja tai sanajonoja, kukin niistä lasketaan tilastossa erikseen. Suhteellinen frekvenssi on sanoja miljoonaa sanaa kohti ja se lasketaan suhteessa koko aineiston sanamäärään, ei suhteessa tietyllä haulla löytyneiden osumien määrään.