Lauseopin arkiston murrekorpuksen annotaatioiden kuvaus

<< Lauseopin arkiston murrekorpuksen tietosivu

Seuraavassa ovat Lauseopin arkiston murrekorpuksen Korp-versiossa näkyvät sanojen annotaatiot tulkintoineen. Sisältö perustuu Maria Vilkunan annotaatiodokumenttiin 25.2.2015.

Lyhyt kuvaus näkyy Korpin hakuvalikossa. Sisältö on järjestetty niin että yhteenkuuluvat asiat ovat jotakuinkin vierekkäin. Mukana on myös kunkin piirteen esiintymien määrä aineistossa, jossa tosin voi myöhemmin tehtyjen korjausten vuoksi olla pieniä heittoja. LAO-viite on viite alkuperäisen Lauseopin arkiston oppaan liitteeseen 2 (sivu:kohta).

Sanaluokat (piirre pos)

posMäärä aineistossaLyhyt kuvausLAO-viitePitkä kuvaus
a 26422 Adjektiivi 5:45 Tavallinen adjektiivi, ei pronominaalinen, esim. ahdas, Antti-niminen, paras, jonkin tapainen
a:pron:dem 13048 Adjektiivi: demonstratiivinen 5:43 Demonstratiivinen proadjektiivi. Keskeisiä ovat sellainen, semmoinen, tällainen, tämmöinen, tuollainen, tuommoinen, sikäläinen
a:pron:int 264 Adjektiivi: interrogatiivinen 5:42 Interrogatiivipronominin tapaan toimiva proadjektiivi: millainen, mimmoinen, kummoinen
a:pron 173 Adjektiivi: muu pronominaalinen 5:44 Proadjektiivi, muu kuin demonstratiivinen, interrogatiivinen tai relatiivinen, esim. jonkinlainen, joltinenkin, minkäänlainen, minkinlainen
a:pron:rel 10 Adjektiivi: relatiivinen 4:41 Relatiivipronominin tapaan toimiva proadjektiivi: samoja kuin interrogatiiviset, mutta esim. se oli millainen oli
adv 148294 Adverbi 8:55’57 Tavallinen adverbi, ei pronominaalinen, esim. eilen, aamuisin, kiireesti, paikoillaan
adv:pron:dem 29964 Adverbi: demonstratiivinen 7:43 Demonstratiivinen proadverbi; keskeiset: (a) täällä, täältä, tänne, tuolla, tuolta, tuonne, siellä, sieltä, sinne; ei kuitenkaan aina yksiselitteisesti eroa vastaavista pronominin muodoista. (b) noin, näin, mutta HUOM. niin on vain adv.
adv:pron:int 1500 Adverbi: interrogatiivinen 7:52 Interrogatiivipronominin tapaan toimiva proadverbi: miten, kuinka, milloin, koska, missä, mistä, minne
adv:pron 1558 Adverbi: muu pronominaalinen 8:54 Proadverbi, muu kuin demonstratiivinen, interrogatiivinen tai relatiivinen, tyypillisesti kvanttoripronominia muistuttava, esim. joskus, jotenkin, koskaan, kulloinkin, minnekään.
adv:q 6600 Adverbi: paljon-tyyppi 6:46’47 Paljo(n), vähä(n) ja niiden komparaatiomuodot.
adv:pron:rel 55 Adverbi: relatiivinen 7:51 Relatiivipronominin tapaan toimiva proadverbi: samoja kuin interrogatiiviset, mutta esim. päivät milloin ne kutevat, sillä paikalla missä myö ollaan
intj 2200 Interjektio 10:66 Esim. ai, ahhaa, oho, saakeli, hallelujaa; kirosanat vain kun ovat huudahduslisäkkeinä, ei esim. saakutin hevonen (LAO 6:48). Raja nykyisiin partikkeleihin (LA:ssa adverbeihin) epäselvä.
neg 25776 Kieltosana ”ei”, ”älä” 11:73’74 Perusmuoto on ei tai älä.
cnj:sub 51150 Konjunktio: Alistus- 9:62 Konjunktio,jonka tyypillinen tehtävä yleiskielessä on aloittaa alisteinen lause; keskeisiä että, jotta; kun, ennen kuin, konsa, koska, kunnes, jahka; jos, jollei, vaikka. Huom. myös ”kuin”-konjunktio, esim. suurempi kun tavallisesti, ei ole muuta kun isäntä, muistin kun eilisen; nämä voivat erottua tavallisista alistuskonjunktioista funktion ”lkeyhd” suhteen, mutta eivät systemaattisesti.
cnj:rel 1237 Konjunktio: Relatiivi- 9:63 Konjunktio ku(i)n relatiivilausetta aloittamassa, esim. Se oli mun isävainaani kun semmosia teki.
cnj:coord 53839 Konjunktio: Rinnastus- 8:61 Konjunktio jonka tyypillinen tehtävä yleiskielessä on rinnastaa lauseita; keskeisiä ja, tai, eli, mutta, vaan, paitsi.
muu 8030 Muu 12:99 Sanaluokka epäselvä tai mahdoton tulkita.
num:ord 876 Numeraali: järjestysluku 2:15 Esim. ensimmäinen, kolmas, viidestoista jne; huom. toinen-sana on erikseen.
num:murto 271 Numeraali: murtoluku 2:17 Esim. puoli, puolet, neljännes, kolmasosa.
num:card 10158 Numeraali: perusluku 2:11’12 Esim. yksi (kaikki käytöt), pari, kaksi, viisitoista.
p:post 6495 Postpositio 10:65 Esim. takana, kautta, vasten, luona, kanssa. Ero adverbeihin ja taivutusmuotoisiin nomineihin ei aina selvä.
p:pre 826 Prepositio 10:64 Esim. ilman, paitsi, ennen, vasten, ympäri. Ero adverbeihin ja taivutusmuotoisiin nomineihin ei aina selvä.
pron:pers12 22781 Pronomini: 1. tai 2. persoona 2:21 Persoonapronomini minä, sinä, me tai te.
pron:dem 9306 Pronomini: demonstratiivi- 3:24 Demonstratiivipronomini tämä, tuo.
pron:pers 3936 Pronomini ”hän”, ”he” 3:22 Persoonapronomini hän, he kaikissa käytöissään.
pron:int 3043 Pronomini: interrogatiivi- 3:27 Kuka, ken, mikä, kumpi, kumpainen interrogatiivista lausetta aloittamassa.
q 18032 Pronomini: kvanttori- 4:32’35 Kvanttoripronominit eli indefiniittipronominit, varsin laajassa merkityksessä; keskeiset: ainoa, eri, eräs, harva, itse kukin, joka ainoa, joka ikinen, joka, jokainen, jokin, joku, jokunen, jompikumpi, kaikki, koko, kuka, kukaan, kukin, kumpainen, kumpainenkaan, kumpainenkin, kumpi, kumpikin, mikin, mikä, mikään, molemmat, moni, monias, muu, muuan, muutama, oma, sama, samainen, usea
pron:ref 1052 Pronomini: refleksiivi- 4:31 Sana itse sekä refleksiivipronominina, esim. kehua itseään, että kaikissa muissa käytöissään, esim. Makkarat tehtiin itte.
pron:rel 4888 Pronomini: relatiivi- 3:26 Relatiivilausetta aloittava joka, mikä, kuka.
pron 103385 Pronomini ”se”, ”ne” 3:23 Aineiston yleisin pronomini: se, ne.
num:ord_pron 3198 Pronomini/numeraali ”toinen” 2:14 Sana toinen niin pronominia kuin järjestyslukusanaa muistuttavissa tehtävissä.
n:prop 8088 Substantiivi: erisnimi, ei henkilön- 6:49 Asutus-, luonto- tai hallinnollinen nimi, esim. Yliskylä, Amerikka.
n:prop:pname 4811 Substantiivi: henkilönnimi 6:49 Henkilönnimi, esim. Jaska, Anttilan Jaakko (molemmat sanat); myös tyypit Jaakko-vainaa, Jaakko-eno. Henkilönnimien erottaminen näyttää olevan uudempi asia kuin LAO.
n 133383 Substantiivi: ei erisnimi 6:48 Kaikki muut substantiivit kuin erisnimet.
v 182561 Verbi 11:71’72,81’94 Verbi (ei kieltoverbi), esim. olla, puida, jutella.
yhteensä 887210

Morfologiset piirteet (piirre Korpissa msd, alunperin mrp)

*msd* *Määrä aineistossa* *Lyhyt kuvaus* *LAO-viite* *Esimerkkejä (pääosin yleiskielisesä muodossa) ja kommentteja*
-lti 60 Johdin: adverbin -lti 23:64 paksulti, paljolti
-sti 2416 Johdin: adverbin -sti 22:63 kauniisti, aamuste(n)
pro 220 Johdin: Prolatiivi 21:61 lävitse, maitse
-han_pa_s 8514 Liitepartikkeli: -hAn, -pA tai -s 27:4 kyllähän, onpa, tules
-kin_kaan 16821 Liitepartikkeli: -kin/-kAAn 27:3 minäkin, tullutkaan. Ei merkitty jos leksikaalistunut, esim. jokin, kukaan.
-ko 1325 Liitepartikkeli: -kO 27:1 tuliko, minäkö, joko
-kä 1818 Liitepartikkeli: -kä 27:2 eikä, älkääkä. Vain kieltosanassa.
jono 815 Liitepartikkeli: yhdistelmä 28:5 eiköhän, otapas, pitäisikös
pl 93166 Luku: Monikko 14:3 Nominien ja partisiippien piirre, morfologinen (kalat, kaloja), leksikaalinen (me, teidät) tai myös kontekstista ilmenevä (lypsi omat lehmänsä; hänev veljensä, niit oli neljä veljestä).
sg_pl 517 Luku: Ratkaisematon 14:2 löysi koiransa; keitti peruna. Luvusta ei voi kontekstinkaan perusteella olla varma.
sg 295186 Luku: Yksikkö 14:0 kala. Nominien ja partisiippien piirre.
px1pl 91 Possessiivisuffiksi: mon 1. 23:4 koiramme, ollessamme, kanssamme
px2pl 30 Possessiivisuffiksi: mon 2. 23:5 koiranne, ollessanne, kanssanne
px1sg 1785 Possessiivisuffiksi: yks 1. 23:1 koirani, ollessani, kanssani
px2sg 113 Possessiivisuffiksi: yks 2. 23:2 koirasi, ollessasi, kanssasi
px3 4451 Possessiivisuffiksi: 3. pers 24:7 koiransa, ollessansa, ollessaan, kanssansa, kanssaan
abe 184 Sija: Abessiivi 20:51 syyttä suotta, odottamatta
abl 5320 Sija: Ablatiivi 20:42 kolmelta, häneltä, sisältä
ade 29545 Sija: Adessiivi 19:41 minulla, kerralla, tekemällä
ade_all 4180 Sija: Adessiivi-allatiivi 20:44 meni tonne pellolas. Ei voi erottaa, funktiot yhtyneet (synkreettinen).
all 6757 Sija: Allatiivi 20:43 meille, asemalle, päälle
eks 396 Sija: Eksessiivi 18:25 kotonta, siintä (useimmiten siintä)
ela 13023 Sija: Elatiivi 18:32 paikasta, tekemästä
-n 4867 Sija: Erottelematon n-päätteinen 16:16 paljon, kauan. Kun sijaa ei voi tarkemmin määrittää; etenkin osma-funktiossa.
ess 8311 Sija: Essiivi 17:23 sinä päivänä, elävänä
gen 26018 Sija: Genetiivi 16:13 meidän, aamun, kauhean
ill 24997 Sija: Illatiivi 19:33 saunaan, kolmeen päivään, tekemään
ill_part 91 Sija: Illatiivi-partitiivi 19:35 semmost sillo aikka ol. Ei voi erottaa, muodot samannäköiset.
ine 26726 Sija: Inessiivi 18:31 siinä talossa, nukkumassa
ins 10972 Sija: Instruktiivi 21:53 käsin, tehden, oikein. Useimmiten adverbissa.
com 114 Sija: Komitatiivi 21:52 vaimoineen, tavaroineen päivineen
lat 10760 Sija: Latiivi 21:62 kauas, pois, ulos, minne, tuonne; kohti, liki; kohden. Adverbeissa, ei merkitty A-infinitiiviin.
genacc 9536 Sija: n-akkusatiivi 16:14 myi talon, saa luvan. Yksiköllinen genetiivin näköinen objektin sija.
nom 185492 Sija: Nominatiivi 15:11 minä, miehet, tehty. Myös objektina.
nom_part 318 Sija: Nominatiivi-partitiivi 17:22 tehtiin kalja, hän kokos heinä. Ei voi erottaa, muodot samannäköiset.
part 80430 Sija: Partitiivi 17:21 sinua, ruokaa, liikaa, syötyä
taipum 2206 Sija: Taipumaton nomini 15:12 eri, joka, koko, viime. Monet adverbitkin merkitty näin, esim. astemäärite aika.
acc 92 Sija: t-akkusatiivi 16:15 minut, sinut, hänet, meidät, teidät, heidät, kenet.
tra 5261 Sija: Translatiivi 18:24 vanhaksi, tehtäväksi, luullakseni
pcpag 107 Verbi, -fin: Agenttipartisiippi 12:93 jonkun tekemä
inf1 10357 Verbi, -fin: A-infinitiivi 11:81 (ei sijaa:) olla, muistaa; (translatiivissa:) ollakseen, muistaakseni
inf2 577 Verbi, -fin: E-infinitiivi 11:81 tullen, nähden, juostessa
inf4 48 Verbi, -fin: ent. 4. infinitiivi 11:81 sinun on lukeminen, sinne ei ole menemistä, juksee juoksemistaan. minen-muoto vain näissä rakenteissa.
pcpneg 60 Verbi, -fin: Kieltopartisiippi 12:94 tekemätön, koskematon
inf3 6788 Verbi, -fin: MA-infinitiivi 11:83 tekemään, olemassa, lukemasta, sanomatta, lyömällä
inf5 3 Verbi, -fin: -mAisillA-muoto 12:25 putoamaisillaan. Entinen 5. infinitiivi.
pcp2 24558 Verbi, -fin: NUT/TU-partisiippi 12:92 tehnyt, pesty, tehtyään, menneestä. Myös muototyyppi saanunna, suanna, kutona, joissa sijaksi merkitty essiivi.
pcp1 1277 Verbi, -fin: VA-partisiippi 12:91 lukeva, lähdettävä
fin 129317 Verbi: Finiittinen 11:71 olen, täytyy, syötiin. Myönteiset finiittiimuodot, myös imperatiivi, mutta ei kieltoverbi.
impv 1103 Verbi: Imperatiivi 26:6 ota, ottakaa, ottako, olkoon. Kieltolauseessa pääverbin, ei älä-sanan piirre.
ind 133694 Verbi: Indikatiivi 25:1-3 voi, tupakoin, tehdään. Preesens- tai preteritimuoto, ei kieltoverbi.
cond 3107 Verbi: Konditionaali 25:5 olisin, pitäisi, voitaisiin
conneg 9711 Verbi: Konnegatiivi 11:72 ei ota, oteta, ottaisi. Kieltolauseen pääverbi merkitty konnegatiiviksi myös kun se on A-infinitiivi: elekää männä. Menneessä ajassa partisiippi (ei ottanut) ei ole konnegatiivi.
pass 27514 Verbi: Passiivi 24:2 tehtiin, oli hoidettu, tehdyssä, nähtävissä. Liittomuodossa merkitty pääverbiin, ts. partisiippiin.
pl1 623 Verbi: persoona mon. 1. 26:4 olemme, menimme, saisimme, emme
pl2 771 Verbi: persoona mon. 2. 26:5 olette, menitte, saisitte, ette
pl3 6601 Verbi: persoona mon. 3. 26:6 ovat, menivät, saisivat, eivät
sg1 16092 Verbi: persoona yks. 1. 26:1 olen, menen, tekisin, en
sg2 1548 Verbi: persoona yks. 2. 26:2 olet, menet, tekisit, et
sg3 106544 Verbi: persoona yks. 3. 26:3 on, menee, tekisi, ei
pot 442 Verbi: Potentiaali 25:4 lie(nee), tehnee
pres 41372 Verbi: Preesens 25:1 olen, saat, luullaan. Kaksiselitteisissä tapauksissa kuten sanovat aikamuoto on merkitty kontekstin perusteella.
pret 92322 Verbi: Preteriti (imperfekti) 25:3 olin, sait, luultiin.
cmp 4047 Vertailumuoto: Komparatiivi 13:2 isompi, parempi, ennemmin, enemmän. Ei merkitty leksikaalistuneisiin, kuten kumpi, molemmat.
sup 461 Vertailumuoto: Superlatiivi 14:2 vanhin, paras, lähimpänä, eniten

Lauseenjäsentehtävät (syntaktiset funktiot) (piirre fun)

*fun* *Määrä aineistossa* *Lyhyt kuvaus* *LAO-viite* *Pitkä kuvaus, esimerkissä kyseisenlainen sana lihavoitu*
advl:v 8261 Adverbiaali: infiniittinen 52:53 Infiniittinen verbinmuoto (tai lauseke) adverbiaalin tehtävässä, esim. Kotona ollessaan rupesi kutomaan, myös A-infinitiivi esim. pani saunan lämmitä.
advl 211930 Adverbiaali: muu 48:51 Adverbiaali, joka ei ole erikseen nostettua tyyppiä, esim. Ei kai niillä ole lapsia lainkaan. Adverbiaalitäydennys, partikkeli ja kaikki näiden väliltä.
osma 6466 Adverbiaali: osma 44:42 Osma eli objektin sijainen määrän adverbiaali, esim. oltiin siellä tunti, hiihdin kilometrin.
advl:p 5297 Adverbiaali: predikatiivi- 51:52 Predikatiiviadverbiaali: joko translatiivissa tai essiivissä, esim. Vanhempana koira tuli vihaiseksi.
infobj 5540 Infinitiiviobjekti 47:43 Esim. Halusin mennä, Anna sen olla.
infsubj 4336 Infinitiivisubjekti 36:22 Esim. Minua iljetti katsoa sitä; perinteiseen tapaan myös nesessiivirakenteen infinitiivi, esim. Minun piti mennä.
analysoimaton 13476 Muu: ei analysoitu 68:99 Ei lauseenjäsentehtävää esim. kesken jäämisen vuoksi.
irrall 28852 Muu: irrallinen 65:79 Erityisesti parenteesi tai huudahdus-, puhuttelu- tai täytelisäke, esim. Se on metsäkulmaa juu.
muu 12907 Muu: erikoistapaukset 61:68, 67:98 Käytettyyn lauseenjäsenjakoon sopeutumaton sana, esim. Teki sen itse, Sitä sitten vaan mentiin
amod 9314 Määrite: adjektiivin 59:64 Sana joka määrittää adjektiivia, esim. aika pitkä, vähän suurempi; myös jos määrittää pronominina pidettyä sanaa, kuten niin moni.
pmod 7413 Määrite: adposition 61:66 Sana joka on pre- tai postposition täydennyksenä, esim. markan takia, minun takanani, ennen iltaa.
advmod 5410 Määrite: adverbin 60:65 Sana joka määrittää adverbia, esim. tavattoman kauan, vähän äkkiä.
nummod 4083 Määrite: numeraalin 58:63 Sana joka määrittää numeraalia, esim. suunnilleen kolme kiloa. Adverbeja tai yksikön partitiivissa olevia substantiiveja; numeraalin kanssa kongruoiva substantiivi (kolmella kilolla) on eri asia.
nmod 72830 Määrite: substantiivin 54:61 Sana joka määrittää substantiivia, esim. niissä mun suurissa saappaissani, pastori Niemiselle, kilo jauhoja
npobj 48545 Nominiobjekti 42:41 Tavallinen totaali- tai partitiiviobjekti, esim. ostin talon, syötiin puuroa, sauna lämmitettiin.
npsubj 109625 Nominisubjekti 34:21 Subjekti tai e-subjekti, nominatiivissa tai partitiivissa, esim. minä muistan, siellä oli susia.
subj:nonfin 2112 Nominisubjekti: infiniittirakenteen 37:25’26 Ei-finiittisen rakenteen subjekti, useimmiten genetiivissä; esim. anna minun mennä, minun pitää mennä, luuli minun menevän, tuli väen nukkuessa.
subj:stat 240 Nominisubjekti: statusrakenteen 37:24 Esim. pää pystyssä, maalia hihassaan.
neg:prt 481 Partikkeli ”ei” 33:19 Partikkelina käytetty ei, esim. Ei se tiijä eikerrassa mitää;tavallisesti kieltosana on predikaatti, ja se voi olla myös predikaatin toisto.
pred3 1988 Predikaatin kolmas osa 33:14 Kielteisen liittomuodon (tai nesessiivisen verbiliiton) tapauksessa kolmas verbi, esim. et ole nähnyt.
pred2 30857 Predikaatin toinen osa 32:13 Liittomuodon tai nesessiivisen verbiliiton tapauksessa toinen verbi, esim. on mennyt, et ole nähnyt, ei voitu, oli mentävä.
pred:toisto 2191 Predikaatin toisto 31:12 Toistettu finiittiverbi, esim. eihän eihän ne työttöminä ole, se sano yhtä peltoo sano isoks moisiks.
pred 151516 Predikaatti 31:11 Finiittimuotoinen verbi tai kieltosana, esim. sanoin, on mennyt, et ole nähnyt, ei voitu, oli mentävä.
pred:ref 419 Predikaatti: referatiivirakenteen 33:16 Refreratiivirakenteen vAn– tai neen-päätteinen verbi, esim. luulin sanoneeni, väitti minun valehtelevan.
compl:x 52 Predikatiivi: pakko, määrä, tarvis 41:32 Nesessiivisen (LA:ssa infinitiivisubjektillisen) lauseen kiteytynyt nominipredikatiivi, esim. se oli pakko/määrä panna poikki. Esim. tyypissä siinä oli mukava olla on sen sijaan tavallinen predikatiivi.
compl:q 1474 Predikatiivi: määränilmaus 57:62 Määränilmaus kvanttorilauseessa, ts. lausetyypissä Niitä on monta. Huom. tähän on yhdistetty myös LAO:n kohdassa 42:34 kuvattu funktio.
compl:o 534 Predikatiivi: objektin 42:34 Objektia luonnehtiva predikatiivi, esim. Leipä tehtiin hyvää. Tähän kuuuu myös määränilmauksia, esim. teki niitä neljä.
compl:s 17526 Predikatiivi: subjektin 40:31 Tavallinen, subjektia luonnehtiva predikatiivi, esim. Leipä oli hyvää, Se oli torppa
lkeyhd 14380 Yhdistää lauseenosia 64:72 Sanoja tms. lauseenosia yhdistävä konjunktio, esim. sai kahvia ja voileipää.
lauseyhd 103181 Yhdistää lauseita 63:71 Lauseita yhdistävä konjunktio (vastakohtana sanoja tms. lauseen osia yhdistävälle). Myös niin tapaustyypeissä kun mää olin Piätiläs ni oli lakko ja mää olin siäl Piätiläs ni sillon ol juur se lakko.
sanayhd_lkeyhd 17 Yhdistää sananosia 64:72 Yhdyssanan osia yhdistävä konjunktio, esim. lintu- ja oravakoeraa; koskee enemmänkin kirjoitettua kieltä.
jälkiosa 5957 Yhtymän jälkiosa 65:74 Liittosanan, tavallisesti liittokonjunktion jälkiosa: niin kun, ennen kun, sitten kun, ijan kaiken.
yhteensä 887210

<< Lauseopin arkiston murrekorpuksen tietosivu

LAT service to be discontinued in November 2020

Suomeksi

For technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020.

The LAT platform itself is no longer developed in its present form by MPI, and the media browser component Annex (part of LAT) is based on deprecated Adobe Flash technology that will stop working at the end of this year.

What will happen to the corpora that used to be available in LAT?

A replacement service for LAT has not yet been selected by the Language Bank of Finland. However, all the speech and sign language corpora that were previously available in LAT will be made available by alternative means.

All of the LAT corpora can be offered as downloadable packages that can be used and studied directly on the user’s local computer. In the download service, the corpora can be accessed under the same conditions as via LAT. For some corpora, more advanced solutions might already be available.

Which corpora are affected by LAT shutting down?

The LAT instances of the following corpora will be affected:

  • aku-egg: Speech and EGG (Electroglottography) Simultaneous Recordings
  • cfinsl-conv: Corpus of Finnish Sign Language: conversations
  • cfinsl-elicit: Corpus of Finnish Sign Language: elicited narratives
  • eduskunta-v1-lat: Plenary Sessions of the Parliament of Finland, Kielipankki LAT Version 1
  • elfa-lat: The Helsinki LAT Version of the ELFA Corpus
  • fbc-lat: The Helsinki LAT Version of the Finnish Broadcast Corpus
  • ffe: a single unpublished video file by an unknown creator, access restricted to the owner (this data will be archived temporarily but will be removed quite soon unless the owner turns up!)
  • finka: The Corpus of Border Karelia, Kielipankki LAT version
  • giellagas-north: Samples of Northern Saami
  • helpuhe1: The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s)
  • kipo: The 2010 Language Policy Program of the Sign Languages of Finland Corpus (versions 1 and 2)
  • la-murre: The Finnish Dialect Corpus of the Syntax Archive, Helsinki LAT Version
  • PeWi-corpus (the original authoritative copy is offered by MPI; the identical version will be removed from the Language Bank of Finland)
  • puheen-analyysi: Learning material for speech analysis
  • reittidemo-lat: The Helsinki LAT Version of the Route to A wing Corpus
  • seuruu: Follow-up Study of Dialects of Finnish
  • skn-lat: The Helsinki LAT Version of Samples of Spoken Finnish
  • snowfrog: ProGram data. The stories Snowman and Frog, where are you?
  • ssdc-2016: Skolt Saami Documentation Corpus (2016)

In order to see where each corpus will be located in the future, please refer to the corresponding metadata page where this information will be updated. The relevant metadata links are provided on the list above.

I came to this page via a PID, how do I know where the file is?

LAT assigned 25000 PIDs to individual files. We have no automatic mapping of these PIDs but we can help you find the file if you need it. We aimed to structure downloadable packages similar to the dataset structure on LAT. To locate a file look into the URL field of this page where you find a ”?path=...” parameter. Example: ?path=demo/TRASH/2017-01/526/v7556__.C_4.4_Viittomakielisten_kielelliset_oikeudet.imdi

This should help you locate your file, please contact us if you have any questions.

Schedule

August-September 2020:

  • The (numerous) persistent identifiers assigned by LAT to individual files will be redirected to stopover/tombstone pages. There will be one tombstone page per dataset.
  • The LAT corpora that are not yet offered in Download will be moved there and their persistent identifiers will be updated to point to their new home.
  • Assuming that too many errors are not detected, this process should be complete by October.

September-October 2020:

  • Decisions are to be taken as to what kind of streaming services the Language Bank can implement for audio and video materials in the year 2021.

30th November 2020:

  • The support for the server where LAT is located will be discontinued and the service will be shut down.
  • All the corpora that were previously offered via LAT will continue to be offered at least for download.

Year 2021 (and later):

  • Given that there are sufficient resources, more functionalities for browsing, searching, and analyzing speech and sign language corpora can be added.

Further details on the schedule of the aforementioned process will be updated on this page. In case you need additional information at this point, please contact FIN-CLARIN directly.

Lauseopin arkiston murrekorpus

Viimeisimmät versiot:  
Lauseopin arkiston murrekorpuksen Helsinki-Korp-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto Korp-palvelussa icon-question-circle
Lauseopin arkiston murrekorpuksen ladattava versio (huom. vain VRT-muoto)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Lauseopin arkiston murrekorpuksen LAT-versio (nyt vain ladattavana)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Ohjeita LAT-version käyttöön
Lataa aineisto
Etsi muita saatavilla olevia versioita  

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö tuodaan kuitenkin saataville ladattavassa muodossa. Huomaathan, että Lauseopin arkiston murrekorpuksesta on aiemmin ollut ladattavissa vain VRT-muotoinen versio, joka ei sisällä alkuperäisiä äänitiedostoja ja annotaatiotiedostoja. Uusi latausversio on kuitenkin tulossa. Myös varsinaisia annotoituja puhenäytteitä pääsee siis jatkossakin tutkimaan esimerkiksi ELAN– ja Praat-ohjelmilla.

Sisältö ja rakenne

Lauseopin arkiston murrekorpus on aineistokokonaisuus, joka on tuotettu Turun yliopiston ja Kotimaisten kielten keskuksen (Kotus, entinen Kotimaisten kielten tutkimuskeskus) yhteistyönä Suomen kielen nauhoitearkiston ja Turun yliopiston äänitearkiston haastatteluäänitteistä. Äänitteet on litteroitu ja haastateltavien puheen osalta kieliopillisesti annotoitu vuosina 1976–1984. Käsin, numerokoodeina toteutettu kieliopillinen analyysi on sittemmin muunnettu rakenteiseen muotoon ja täydennetty sanojen lemmamuodoilla, ja siihen on tehty korjauksia ja yhdenmukaistuksia.

Lauseopin arkiston LAT-toteutus sisältää äänitteet että niihin kohdistetun litteroidun tekstin. Teksti ja ääni on kohdistettu virkkeen tai muuten sopivan jakson mittaisina katkelmina. Tekstin perusteella korpuksesta voidaan tehdä hakuja, ja hakutuloksia vastaavia ääninäytteen kohtia pääsee suoraan kuuntelemaan. Kieliopillisiin koodeihin ja lemmoihin perustuvia hakuja voi tehdä Korp-järjestelmässä, josta hakutuloksia pääsee niinikään kuuntelemaan LATissa.

Aineisto koostuu 142 murrenäytteestä, jotka edustavat 132 paikkakuntaa kautta Suomen, mukaan lukien joukko luovutetun Karjalan paikkakuntia. Useimpia paikkakuntia edustaa yksi näyte, joka on tavallisesti noin tunnin mittainen yhden puhujan haastattelu. Haastattelut ovat yleensä samantyyppisiä kuin SKN-aineistossa. Osalta paikkakuntia on kaksi lyhyempää näytettä. Eräissä näytteissä taas on kaksi haastateltavaa.

Saneita aineistossa on hieman yli miljoona (Korpin tieto 1 194 163, haastateltavien tuottamia, kieliopillisesti analysoituja saneita yli 887 000), virkkeeksi merkittyjä jaksoja 67894 (Korp, haastateltavilla noin 54 500) ja syntaktisin kriteerein erotettuja ja analysoituja lauseita 166 608.

Tämä aineisto on pieniltä osin päällekkäinen SKN-aineiston kanssa, mm. Kiihtelysvaaran haastattelu (SKN14a) on kokonaan sama. Litteraatio on kuitenkin karkeampi kuin SKN:ssä.

LA-aineistoa on jo pitkään käytetty tutkimuksissa ja opinnäytteissä arkiston henkilökunnan tekemien hakujen ja sittemmin Nobufumi Inaban toteuttaman hakuliittymän avulla. Tehtyjen muunnosten ja korjausten vuoksi vanhat hakutulokset voivat pienessä määrin erota uudemmista. Aineiston alkuvaiheet ja koodijärjestelmä on Osmo Ikolan toimittamassa teoksessa Lauseopin arkiston opas (Lauseopin arkiston julkaisuja 1, Turku: Turun yliopisto 1985).

Aineiston perustyö on tehty Turun yliopistossa 1976–1984. Tekijät ilmenevät kunkin osa-aineiston LATissa olevista metatiedoista kohdasta Project. Tekstin ja äänen ovat Kotuksessa kohdistaneet My Sjöholm, Pauliina Liuska, Matti Uusivirta ja Maria Vilkuna, rakenteesta ja korjauksista ovat vastanneet Pauliina Liuska ja Maria Vilkuna. Äänitteet ja kohdistetut annotaatiotiedostot on muuntanut LAT-järjestelmää varten Mietta Lennes.

Ohjeet LAT-version käyttöön

Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. hame_hat1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.

Äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa myös sellaisinaan ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.

Koska haastattelut on nauhoitettu vaihtelevissa olosuhteissa, tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.

Annotaatiotiedostojen sisältö

Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.

Annotaatiotiedostojen käsittelyyn tarvitaan yleensä myös vastaavat WAV-äänitiedostot, jotta näytteitä voi kuunnella. EAF-muotoisia annotaatiotiedostoja voi avata muokattavaksi ELAN-ohjelmalla. Saatavilla on lisäksi EAF-tiedostoja vastaavat TextGrid-tiedostot, joita voi käyttää Praat-ohjelmalla.

Tiedostoja voi ladata yksitellen omalle koneelleen komennolla ”download” (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta ”Download all resources”. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.

Korpissa näkyvät annotaatiot

Korpissa näkyviä sanojen annotaatioita (sanaluokat, morfologiset piirteet, lauseenjäsentehtävät) on kuvattu erillisellä sivulla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2014052716

Hae Kielipankki-portaalista:
Therese Lindström Tiedemann
Månadens forskare: Therese Lindström Tiedemann

 

Tulevat tapahtumat

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot