Lauseopin arkiston murrekorpus

Viimeisimmät versiot: 
Lauseopin arkiston murrekorpuksen Helsinki-Korp-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto Korp-palvelussa icon-question-circle
Lauseopin arkiston murrekorpuksen ladattava versio (huom. vain VRT-muoto)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Lauseopin arkiston murrekorpuksen LAT-versio (nyt vain ladattavana)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Ohjeita LAT-version käyttöön
Lataa aineisto
Etsi muita saatavilla olevia versioita 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö tuodaan kuitenkin saataville ladattavassa muodossa. Huomaathan, että Lauseopin arkiston murrekorpuksesta on aiemmin ollut ladattavissa vain VRT-muotoinen versio, joka ei sisällä alkuperäisiä äänitiedostoja ja annotaatiotiedostoja. Uusi latausversio on kuitenkin tulossa. Myös varsinaisia annotoituja puhenäytteitä pääsee siis jatkossakin tutkimaan esimerkiksi ELAN– ja Praat-ohjelmilla.

Sisältö ja rakenne

Lauseopin arkiston murrekorpus on aineistokokonaisuus, joka on tuotettu Turun yliopiston ja Kotimaisten kielten keskuksen (Kotus, entinen Kotimaisten kielten tutkimuskeskus) yhteistyönä Suomen kielen nauhoitearkiston ja Turun yliopiston äänitearkiston haastatteluäänitteistä. Äänitteet on litteroitu ja haastateltavien puheen osalta kieliopillisesti annotoitu vuosina 1976–1984. Käsin, numerokoodeina toteutettu kieliopillinen analyysi on sittemmin muunnettu rakenteiseen muotoon ja täydennetty sanojen lemmamuodoilla, ja siihen on tehty korjauksia ja yhdenmukaistuksia.

Lauseopin arkiston LAT-toteutus sisältää äänitteet että niihin kohdistetun litteroidun tekstin. Teksti ja ääni on kohdistettu virkkeen tai muuten sopivan jakson mittaisina katkelmina. Tekstin perusteella korpuksesta voidaan tehdä hakuja, ja hakutuloksia vastaavia ääninäytteen kohtia pääsee suoraan kuuntelemaan. Kieliopillisiin koodeihin ja lemmoihin perustuvia hakuja voi tehdä Korp-järjestelmässä, josta hakutuloksia pääsee niinikään kuuntelemaan LATissa.

Aineisto koostuu 142 murrenäytteestä, jotka edustavat 132 paikkakuntaa kautta Suomen, mukaan lukien joukko luovutetun Karjalan paikkakuntia. Useimpia paikkakuntia edustaa yksi näyte, joka on tavallisesti noin tunnin mittainen yhden puhujan haastattelu. Haastattelut ovat yleensä samantyyppisiä kuin SKN-aineistossa. Osalta paikkakuntia on kaksi lyhyempää näytettä. Eräissä näytteissä taas on kaksi haastateltavaa.

Saneita aineistossa on hieman yli miljoona (Korpin tieto 1 194 163, haastateltavien tuottamia, kieliopillisesti analysoituja saneita yli 887 000), virkkeeksi merkittyjä jaksoja 67894 (Korp, haastateltavilla noin 54 500) ja syntaktisin kriteerein erotettuja ja analysoituja lauseita 166 608.

Tämä aineisto on pieniltä osin päällekkäinen SKN-aineiston kanssa, mm. Kiihtelysvaaran haastattelu (SKN14a) on kokonaan sama. Litteraatio on kuitenkin karkeampi kuin SKN:ssä.

LA-aineistoa on jo pitkään käytetty tutkimuksissa ja opinnäytteissä arkiston henkilökunnan tekemien hakujen ja sittemmin Nobufumi Inaban toteuttaman hakuliittymän avulla. Tehtyjen muunnosten ja korjausten vuoksi vanhat hakutulokset voivat pienessä määrin erota uudemmista. Aineiston alkuvaiheet ja koodijärjestelmä on Osmo Ikolan toimittamassa teoksessa Lauseopin arkiston opas (Lauseopin arkiston julkaisuja 1, Turku: Turun yliopisto 1985).

Aineiston perustyö on tehty Turun yliopistossa 1976–1984. Tekijät ilmenevät kunkin osa-aineiston LATissa olevista metatiedoista kohdasta Project. Tekstin ja äänen ovat Kotuksessa kohdistaneet My Sjöholm, Pauliina Liuska, Matti Uusivirta ja Maria Vilkuna, rakenteesta ja korjauksista ovat vastanneet Pauliina Liuska ja Maria Vilkuna. Äänitteet ja kohdistetut annotaatiotiedostot on muuntanut LAT-järjestelmää varten Mietta Lennes.

Ohjeet LAT-version käyttöön

Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. hame_hat1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.

Äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa myös sellaisinaan ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.

Koska haastattelut on nauhoitettu vaihtelevissa olosuhteissa, tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.

Annotaatiotiedostojen sisältö

Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.

Annotaatiotiedostojen käsittelyyn tarvitaan yleensä myös vastaavat WAV-äänitiedostot, jotta näytteitä voi kuunnella. EAF-muotoisia annotaatiotiedostoja voi avata muokattavaksi ELAN-ohjelmalla. Saatavilla on lisäksi EAF-tiedostoja vastaavat TextGrid-tiedostot, joita voi käyttää Praat-ohjelmalla.

Tiedostoja voi ladata yksitellen omalle koneelleen komennolla ”download” (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta ”Download all resources”. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.

Korpissa näkyvät annotaatiot

Korpissa näkyviä sanojen annotaatioita (sanaluokat, morfologiset piirteet, lauseenjäsentehtävät) on kuvattu erillisellä sivulla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2014052716