Lauseopin arkiston murrekorpus

Korp-haku koko korpuksesta
Trova-haku koko korpuksesta
Avaa korpus LAT-alustalla

Perustiedot

Koostajat Kotimaisten kielten keskus; Turun yliopisto: Lauseopin arkisto
Kieli suomi
Tekstilaji äänitetyt ja litteroidut haastattelut
Datan määrä 974785 litteroitua sanetta (LAT)
Muoto äänitiedostot WAV (16 bit 44 100 Hz mono), M4A; ääneen kohdistetut litteroinnit TextGrid/EAF; litteroinnit ja morfosyntaktinen koodaus Korp-palvelussa
Käyttöoikeusluokka CC BY ND 4.0
Saatavuus Korp, LAT
Korpuspalvelimen hakemisto ei ladattavissa kokonaan; yksittäisiä tiedostoja ja näytteitä voi ladata LATista
Metadata META-SHARE

Sisältö ja rakenne

Lauseopin arkiston murrekorpus on aineistokokonaisuus, joka on tuotettu Turun yliopiston ja Kotimaisten kielten keskuksen (Kotus, entinen Kotimaisten kielten keskus) yhteistyönä Suomen kielen nauhoitearkiston ja Turun yliopiston äänitearkiston haastatteluäänitteistä. Äänitteet on litteroitu ja haastateltavien puheen osalta kieliopillisesti annotoitu vuosina 1976–1984. Käsin, numerokoodeina toteutettu kieliopillinen analyysi on sittemmin muunnettu rakenteiseen muotoon ja täydennetty sanojen lemmamuodoilla, ja siihen on tehty korjauksia ja yhdenmukaistuksia.

Lauseopin arkiston LAT-toteutus sisältää äänitteet että niihin kohdistetun litteroidun tekstin. Teksti ja ääni on kohdistettu virkkeen tai muuten sopivan jakson mittaisina katkelmina. Tekstin perusteella korpuksesta voidaan tehdä hakuja, ja hakutuloksia vastaavia ääninäytteen kohtia pääsee suoraan kuuntelemaan. Kieliopillisiin koodeihin ja lemmoihin perustuvia hakuja voi tehdä Korp-järjestelmässä, josta hakutuloksia pääsee niinikään kuuntelemaan LATissa.

Aineisto koostuu 142 murrenäytteestä, jotka edustavat 132 paikkakuntaa kautta Suomen, mukaan lukien joukko luovutetun Karjalan paikkakuntia. Useimpia paikkakuntia edustaa yksi näyte, joka on tavallisesti noin tunnin mittainen yhden puhujan haastattelu. Haastattelut ovat yleensä samantyyppisiä kuin SKN-aineistossa. Osalta paikkakuntia on kaksi lyhyempää näytettä. Eräissä näytteissä taas on kaksi haastateltavaa.

Saneita aineistossa on hieman yli miljoona (Korpin tieto 1 194 163, haastateltavien tuottamia, kieliopillisesti analysoituja saneita yli 887 000), virkkeeksi merkittyjä jaksoja 67894 (Korp, haastateltavilla noin 54 500) ja syntaktisin kriteerein erotettuja ja analysoituja lauseita 166 608.

Tämä aineisto on pieniltä osin päällekkäinen SKN-aineiston kanssa, mm. Kiihtelysvaaran haastattelu (SKN14a) on kokonaan sama. Litteraatio on kuitenkin karkeampi kuin SKN:ssä.

LA-aineistoa on jo pitkään käytetty tutkimuksissa ja opinnäytteissä arkiston henkilökunnan tekemien hakujen ja sittemmin Nobufumi Inaban toteuttaman hakuliittymän avulla. Tehtyjen muunnosten ja korjausten vuoksi vanhat hakutulokset voivat pienessä määrin erota uudemmista. Aineiston alkuvaiheet ja koodijärjestelmä on Osmo Ikolan toimittamassa teoksessa Lauseopin arkiston opas (Lauseopin arkiston julkaisuja 1, Turku: Turun yliopisto 1985).

Aineiston perustyö on tehty Turun yliopistossa 1976–1984. Tekijät ilmenevät kunkin osa-aineiston LATissa olevista metatiedoista kohdasta Project. Tekstin ja äänen ovat Kotuksessa kohdistaneet My Sjöholm, Pauliina Liuska, Matti Uusivirta ja Maria Vilkuna, rakenteesta ja korjauksista ovat vastanneet Pauliina Liuska ja Maria Vilkuna. Äänitteet ja kohdistetut annotaatiotiedostot on muuntanut LAT-järjestelmää varten Mietta Lennes.

Ohjeet ja lisätiedot

Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. hame_hat1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.

Äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa myös sellaisinaan ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.

Koska haastattelut on nauhoitettu vaihtelevissa olosuhteissa, tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.

Annotaatiotiedostojen sisältö

Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.

EAF-tiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi ELAN-ohjelmalla.

Saatavilla on lisäksi EAF-tiedostoja vastaavat TextGrid-tiedostot, joita voi käyttää Praat-ohjelmalla. TextGrid-tiedoston pariksi on tällöin ladattava myös vastaava WAV-äänitiedosto LAT-alustalta.

Tiedostojen lataaminen omalle koneelle

Tiedostoja voi ladata yksitellen omalle koneelleen komennolla ”download” (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta ”Download all resources”. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.

Korpissa näkyvät annotaatiot

Korpissa näkyviä sanojen annotaatioita (sanaluokat, morfologiset piirteet, lauseenjäsentehtävät) on kuvattu erillisellä sivulla.

Viittausohje

Korp-versio
LAT-versio

Hae Kielipankki-portaalista:
Kuukauden tutkija: Tuomo Hiippala

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317