<< List of all deliverables

D1.1.1: Updating LBF resource selection

Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months

WP 1.1: Report on Updating LBF resource selection
Date of reporting: 2022-09

Report author: Jussi Piitulainen (UHEL)
Contributors: Ute Dieckmann, Varpu Vehomäki, Krister Lindén, Mietta Lennes (UHEL)
Deliverable location: Corpora | Kielipankki

Description

The Kielipankki data sets are available in appropriate channels: the download service, the Korp concordance engine, and a data directory in the Puhti computing enviroment. The data sets have persistent identifiers and are documented in public metadata records, resource family pages, and resource group pages.

We are in progress updating data sets (Suomi24, STT newswire) with Universal Dependencies (UD2) annotations in addition to the previous annotation model. We are in progress using automatic language identification to separate the Finnish and Swedish texts in a large new batch of the National Library newspaper corpus (KLK). Data sets in the ingestion pipeline are being documented and prioritized to become available in the appropriate Kielipankki channels.

Lauseopin arkiston murrekorpuksen annotaatioiden kuvaus

<< Lauseopin arkiston murrekorpuksen tietosivu

Seuraavassa ovat Lauseopin arkiston murrekorpuksen Korp-versiossa näkyvät sanojen annotaatiot tulkintoineen. Sisältö perustuu Maria Vilkunan annotaatiodokumenttiin 25.2.2015.

Lyhyt kuvaus näkyy Korpin hakuvalikossa. Sisältö on järjestetty niin että yhteenkuuluvat asiat ovat jotakuinkin vierekkäin. Mukana on myös kunkin piirteen esiintymien määrä aineistossa, jossa tosin voi myöhemmin tehtyjen korjausten vuoksi olla pieniä heittoja. LAO-viite on viite alkuperäisen Lauseopin arkiston oppaan liitteeseen 2 (sivu:kohta).

Sanaluokat (piirre pos)

posMäärä aineistossaLyhyt kuvausLAO-viitePitkä kuvaus
a 26422 Adjektiivi 5:45 Tavallinen adjektiivi, ei pronominaalinen, esim. ahdas, Antti-niminen, paras, jonkin tapainen
a:pron:dem 13048 Adjektiivi: demonstratiivinen 5:43 Demonstratiivinen proadjektiivi. Keskeisiä ovat sellainen, semmoinen, tällainen, tämmöinen, tuollainen, tuommoinen, sikäläinen
a:pron:int 264 Adjektiivi: interrogatiivinen 5:42 Interrogatiivipronominin tapaan toimiva proadjektiivi: millainen, mimmoinen, kummoinen
a:pron 173 Adjektiivi: muu pronominaalinen 5:44 Proadjektiivi, muu kuin demonstratiivinen, interrogatiivinen tai relatiivinen, esim. jonkinlainen, joltinenkin, minkäänlainen, minkinlainen
a:pron:rel 10 Adjektiivi: relatiivinen 4:41 Relatiivipronominin tapaan toimiva proadjektiivi: samoja kuin interrogatiiviset, mutta esim. se oli millainen oli
adv 148294 Adverbi 8:55’57 Tavallinen adverbi, ei pronominaalinen, esim. eilen, aamuisin, kiireesti, paikoillaan
adv:pron:dem 29964 Adverbi: demonstratiivinen 7:43 Demonstratiivinen proadverbi; keskeiset: (a) täällä, täältä, tänne, tuolla, tuolta, tuonne, siellä, sieltä, sinne; ei kuitenkaan aina yksiselitteisesti eroa vastaavista pronominin muodoista. (b) noin, näin, mutta HUOM. niin on vain adv.
adv:pron:int 1500 Adverbi: interrogatiivinen 7:52 Interrogatiivipronominin tapaan toimiva proadverbi: miten, kuinka, milloin, koska, missä, mistä, minne
adv:pron 1558 Adverbi: muu pronominaalinen 8:54 Proadverbi, muu kuin demonstratiivinen, interrogatiivinen tai relatiivinen, tyypillisesti kvanttoripronominia muistuttava, esim. joskus, jotenkin, koskaan, kulloinkin, minnekään.
adv:q 6600 Adverbi: paljon-tyyppi 6:46’47 Paljo(n), vähä(n) ja niiden komparaatiomuodot.
adv:pron:rel 55 Adverbi: relatiivinen 7:51 Relatiivipronominin tapaan toimiva proadverbi: samoja kuin interrogatiiviset, mutta esim. päivät milloin ne kutevat, sillä paikalla missä myö ollaan
intj 2200 Interjektio 10:66 Esim. ai, ahhaa, oho, saakeli, hallelujaa; kirosanat vain kun ovat huudahduslisäkkeinä, ei esim. saakutin hevonen (LAO 6:48). Raja nykyisiin partikkeleihin (LA:ssa adverbeihin) epäselvä.
neg 25776 Kieltosana ”ei”, ”älä” 11:73’74 Perusmuoto on ei tai älä.
cnj:sub 51150 Konjunktio: Alistus- 9:62 Konjunktio,jonka tyypillinen tehtävä yleiskielessä on aloittaa alisteinen lause; keskeisiä että, jotta; kun, ennen kuin, konsa, koska, kunnes, jahka; jos, jollei, vaikka. Huom. myös ”kuin”-konjunktio, esim. suurempi kun tavallisesti, ei ole muuta kun isäntä, muistin kun eilisen; nämä voivat erottua tavallisista alistuskonjunktioista funktion ”lkeyhd” suhteen, mutta eivät systemaattisesti.
cnj:rel 1237 Konjunktio: Relatiivi- 9:63 Konjunktio ku(i)n relatiivilausetta aloittamassa, esim. Se oli mun isävainaani kun semmosia teki.
cnj:coord 53839 Konjunktio: Rinnastus- 8:61 Konjunktio jonka tyypillinen tehtävä yleiskielessä on rinnastaa lauseita; keskeisiä ja, tai, eli, mutta, vaan, paitsi.
muu 8030 Muu 12:99 Sanaluokka epäselvä tai mahdoton tulkita.
num:ord 876 Numeraali: järjestysluku 2:15 Esim. ensimmäinen, kolmas, viidestoista jne; huom. toinen-sana on erikseen.
num:murto 271 Numeraali: murtoluku 2:17 Esim. puoli, puolet, neljännes, kolmasosa.
num:card 10158 Numeraali: perusluku 2:11’12 Esim. yksi (kaikki käytöt), pari, kaksi, viisitoista.
p:post 6495 Postpositio 10:65 Esim. takana, kautta, vasten, luona, kanssa. Ero adverbeihin ja taivutusmuotoisiin nomineihin ei aina selvä.
p:pre 826 Prepositio 10:64 Esim. ilman, paitsi, ennen, vasten, ympäri. Ero adverbeihin ja taivutusmuotoisiin nomineihin ei aina selvä.
pron:pers12 22781 Pronomini: 1. tai 2. persoona 2:21 Persoonapronomini minä, sinä, me tai te.
pron:dem 9306 Pronomini: demonstratiivi- 3:24 Demonstratiivipronomini tämä, tuo.
pron:pers 3936 Pronomini ”hän”, ”he” 3:22 Persoonapronomini hän, he kaikissa käytöissään.
pron:int 3043 Pronomini: interrogatiivi- 3:27 Kuka, ken, mikä, kumpi, kumpainen interrogatiivista lausetta aloittamassa.
q 18032 Pronomini: kvanttori- 4:32’35 Kvanttoripronominit eli indefiniittipronominit, varsin laajassa merkityksessä; keskeiset: ainoa, eri, eräs, harva, itse kukin, joka ainoa, joka ikinen, joka, jokainen, jokin, joku, jokunen, jompikumpi, kaikki, koko, kuka, kukaan, kukin, kumpainen, kumpainenkaan, kumpainenkin, kumpi, kumpikin, mikin, mikä, mikään, molemmat, moni, monias, muu, muuan, muutama, oma, sama, samainen, usea
pron:ref 1052 Pronomini: refleksiivi- 4:31 Sana itse sekä refleksiivipronominina, esim. kehua itseään, että kaikissa muissa käytöissään, esim. Makkarat tehtiin itte.
pron:rel 4888 Pronomini: relatiivi- 3:26 Relatiivilausetta aloittava joka, mikä, kuka.
pron 103385 Pronomini ”se”, ”ne” 3:23 Aineiston yleisin pronomini: se, ne.
num:ord_pron 3198 Pronomini/numeraali ”toinen” 2:14 Sana toinen niin pronominia kuin järjestyslukusanaa muistuttavissa tehtävissä.
n:prop 8088 Substantiivi: erisnimi, ei henkilön- 6:49 Asutus-, luonto- tai hallinnollinen nimi, esim. Yliskylä, Amerikka.
n:prop:pname 4811 Substantiivi: henkilönnimi 6:49 Henkilönnimi, esim. Jaska, Anttilan Jaakko (molemmat sanat); myös tyypit Jaakko-vainaa, Jaakko-eno. Henkilönnimien erottaminen näyttää olevan uudempi asia kuin LAO.
n 133383 Substantiivi: ei erisnimi 6:48 Kaikki muut substantiivit kuin erisnimet.
v 182561 Verbi 11:71’72,81’94 Verbi (ei kieltoverbi), esim. olla, puida, jutella.
yhteensä 887210

Morfologiset piirteet (piirre Korpissa msd, alunperin mrp)

*msd* *Määrä aineistossa* *Lyhyt kuvaus* *LAO-viite* *Esimerkkejä (pääosin yleiskielisesä muodossa) ja kommentteja*
-lti 60 Johdin: adverbin -lti 23:64 paksulti, paljolti
-sti 2416 Johdin: adverbin -sti 22:63 kauniisti, aamuste(n)
pro 220 Johdin: Prolatiivi 21:61 lävitse, maitse
-han_pa_s 8514 Liitepartikkeli: -hAn, -pA tai -s 27:4 kyllähän, onpa, tules
-kin_kaan 16821 Liitepartikkeli: -kin/-kAAn 27:3 minäkin, tullutkaan. Ei merkitty jos leksikaalistunut, esim. jokin, kukaan.
-ko 1325 Liitepartikkeli: -kO 27:1 tuliko, minäkö, joko
-kä 1818 Liitepartikkeli: -kä 27:2 eikä, älkääkä. Vain kieltosanassa.
jono 815 Liitepartikkeli: yhdistelmä 28:5 eiköhän, otapas, pitäisikös
pl 93166 Luku: Monikko 14:3 Nominien ja partisiippien piirre, morfologinen (kalat, kaloja), leksikaalinen (me, teidät) tai myös kontekstista ilmenevä (lypsi omat lehmänsä; hänev veljensä, niit oli neljä veljestä).
sg_pl 517 Luku: Ratkaisematon 14:2 löysi koiransa; keitti peruna. Luvusta ei voi kontekstinkaan perusteella olla varma.
sg 295186 Luku: Yksikkö 14:0 kala. Nominien ja partisiippien piirre.
px1pl 91 Possessiivisuffiksi: mon 1. 23:4 koiramme, ollessamme, kanssamme
px2pl 30 Possessiivisuffiksi: mon 2. 23:5 koiranne, ollessanne, kanssanne
px1sg 1785 Possessiivisuffiksi: yks 1. 23:1 koirani, ollessani, kanssani
px2sg 113 Possessiivisuffiksi: yks 2. 23:2 koirasi, ollessasi, kanssasi
px3 4451 Possessiivisuffiksi: 3. pers 24:7 koiransa, ollessansa, ollessaan, kanssansa, kanssaan
abe 184 Sija: Abessiivi 20:51 syyttä suotta, odottamatta
abl 5320 Sija: Ablatiivi 20:42 kolmelta, häneltä, sisältä
ade 29545 Sija: Adessiivi 19:41 minulla, kerralla, tekemällä
ade_all 4180 Sija: Adessiivi-allatiivi 20:44 meni tonne pellolas. Ei voi erottaa, funktiot yhtyneet (synkreettinen).
all 6757 Sija: Allatiivi 20:43 meille, asemalle, päälle
eks 396 Sija: Eksessiivi 18:25 kotonta, siintä (useimmiten siintä)
ela 13023 Sija: Elatiivi 18:32 paikasta, tekemästä
-n 4867 Sija: Erottelematon n-päätteinen 16:16 paljon, kauan. Kun sijaa ei voi tarkemmin määrittää; etenkin osma-funktiossa.
ess 8311 Sija: Essiivi 17:23 sinä päivänä, elävänä
gen 26018 Sija: Genetiivi 16:13 meidän, aamun, kauhean
ill 24997 Sija: Illatiivi 19:33 saunaan, kolmeen päivään, tekemään
ill_part 91 Sija: Illatiivi-partitiivi 19:35 semmost sillo aikka ol. Ei voi erottaa, muodot samannäköiset.
ine 26726 Sija: Inessiivi 18:31 siinä talossa, nukkumassa
ins 10972 Sija: Instruktiivi 21:53 käsin, tehden, oikein. Useimmiten adverbissa.
com 114 Sija: Komitatiivi 21:52 vaimoineen, tavaroineen päivineen
lat 10760 Sija: Latiivi 21:62 kauas, pois, ulos, minne, tuonne; kohti, liki; kohden. Adverbeissa, ei merkitty A-infinitiiviin.
genacc 9536 Sija: n-akkusatiivi 16:14 myi talon, saa luvan. Yksiköllinen genetiivin näköinen objektin sija.
nom 185492 Sija: Nominatiivi 15:11 minä, miehet, tehty. Myös objektina.
nom_part 318 Sija: Nominatiivi-partitiivi 17:22 tehtiin kalja, hän kokos heinä. Ei voi erottaa, muodot samannäköiset.
part 80430 Sija: Partitiivi 17:21 sinua, ruokaa, liikaa, syötyä
taipum 2206 Sija: Taipumaton nomini 15:12 eri, joka, koko, viime. Monet adverbitkin merkitty näin, esim. astemäärite aika.
acc 92 Sija: t-akkusatiivi 16:15 minut, sinut, hänet, meidät, teidät, heidät, kenet.
tra 5261 Sija: Translatiivi 18:24 vanhaksi, tehtäväksi, luullakseni
pcpag 107 Verbi, -fin: Agenttipartisiippi 12:93 jonkun tekemä
inf1 10357 Verbi, -fin: A-infinitiivi 11:81 (ei sijaa:) olla, muistaa; (translatiivissa:) ollakseen, muistaakseni
inf2 577 Verbi, -fin: E-infinitiivi 11:81 tullen, nähden, juostessa
inf4 48 Verbi, -fin: ent. 4. infinitiivi 11:81 sinun on lukeminen, sinne ei ole menemistä, juksee juoksemistaan. minen-muoto vain näissä rakenteissa.
pcpneg 60 Verbi, -fin: Kieltopartisiippi 12:94 tekemätön, koskematon
inf3 6788 Verbi, -fin: MA-infinitiivi 11:83 tekemään, olemassa, lukemasta, sanomatta, lyömällä
inf5 3 Verbi, -fin: -mAisillA-muoto 12:25 putoamaisillaan. Entinen 5. infinitiivi.
pcp2 24558 Verbi, -fin: NUT/TU-partisiippi 12:92 tehnyt, pesty, tehtyään, menneestä. Myös muototyyppi saanunna, suanna, kutona, joissa sijaksi merkitty essiivi.
pcp1 1277 Verbi, -fin: VA-partisiippi 12:91 lukeva, lähdettävä
fin 129317 Verbi: Finiittinen 11:71 olen, täytyy, syötiin. Myönteiset finiittiimuodot, myös imperatiivi, mutta ei kieltoverbi.
impv 1103 Verbi: Imperatiivi 26:6 ota, ottakaa, ottako, olkoon. Kieltolauseessa pääverbin, ei älä-sanan piirre.
ind 133694 Verbi: Indikatiivi 25:1-3 voi, tupakoin, tehdään. Preesens- tai preteritimuoto, ei kieltoverbi.
cond 3107 Verbi: Konditionaali 25:5 olisin, pitäisi, voitaisiin
conneg 9711 Verbi: Konnegatiivi 11:72 ei ota, oteta, ottaisi. Kieltolauseen pääverbi merkitty konnegatiiviksi myös kun se on A-infinitiivi: elekää männä. Menneessä ajassa partisiippi (ei ottanut) ei ole konnegatiivi.
pass 27514 Verbi: Passiivi 24:2 tehtiin, oli hoidettu, tehdyssä, nähtävissä. Liittomuodossa merkitty pääverbiin, ts. partisiippiin.
pl1 623 Verbi: persoona mon. 1. 26:4 olemme, menimme, saisimme, emme
pl2 771 Verbi: persoona mon. 2. 26:5 olette, menitte, saisitte, ette
pl3 6601 Verbi: persoona mon. 3. 26:6 ovat, menivät, saisivat, eivät
sg1 16092 Verbi: persoona yks. 1. 26:1 olen, menen, tekisin, en
sg2 1548 Verbi: persoona yks. 2. 26:2 olet, menet, tekisit, et
sg3 106544 Verbi: persoona yks. 3. 26:3 on, menee, tekisi, ei
pot 442 Verbi: Potentiaali 25:4 lie(nee), tehnee
pres 41372 Verbi: Preesens 25:1 olen, saat, luullaan. Kaksiselitteisissä tapauksissa kuten sanovat aikamuoto on merkitty kontekstin perusteella.
pret 92322 Verbi: Preteriti (imperfekti) 25:3 olin, sait, luultiin.
cmp 4047 Vertailumuoto: Komparatiivi 13:2 isompi, parempi, ennemmin, enemmän. Ei merkitty leksikaalistuneisiin, kuten kumpi, molemmat.
sup 461 Vertailumuoto: Superlatiivi 14:2 vanhin, paras, lähimpänä, eniten

Lauseenjäsentehtävät (syntaktiset funktiot) (piirre fun)

*fun* *Määrä aineistossa* *Lyhyt kuvaus* *LAO-viite* *Pitkä kuvaus, esimerkissä kyseisenlainen sana lihavoitu*
advl:v 8261 Adverbiaali: infiniittinen 52:53 Infiniittinen verbinmuoto (tai lauseke) adverbiaalin tehtävässä, esim. Kotona ollessaan rupesi kutomaan, myös A-infinitiivi esim. pani saunan lämmitä.
advl 211930 Adverbiaali: muu 48:51 Adverbiaali, joka ei ole erikseen nostettua tyyppiä, esim. Ei kai niillä ole lapsia lainkaan. Adverbiaalitäydennys, partikkeli ja kaikki näiden väliltä.
osma 6466 Adverbiaali: osma 44:42 Osma eli objektin sijainen määrän adverbiaali, esim. oltiin siellä tunti, hiihdin kilometrin.
advl:p 5297 Adverbiaali: predikatiivi- 51:52 Predikatiiviadverbiaali: joko translatiivissa tai essiivissä, esim. Vanhempana koira tuli vihaiseksi.
infobj 5540 Infinitiiviobjekti 47:43 Esim. Halusin mennä, Anna sen olla.
infsubj 4336 Infinitiivisubjekti 36:22 Esim. Minua iljetti katsoa sitä; perinteiseen tapaan myös nesessiivirakenteen infinitiivi, esim. Minun piti mennä.
analysoimaton 13476 Muu: ei analysoitu 68:99 Ei lauseenjäsentehtävää esim. kesken jäämisen vuoksi.
irrall 28852 Muu: irrallinen 65:79 Erityisesti parenteesi tai huudahdus-, puhuttelu- tai täytelisäke, esim. Se on metsäkulmaa juu.
muu 12907 Muu: erikoistapaukset 61:68, 67:98 Käytettyyn lauseenjäsenjakoon sopeutumaton sana, esim. Teki sen itse, Sitä sitten vaan mentiin
amod 9314 Määrite: adjektiivin 59:64 Sana joka määrittää adjektiivia, esim. aika pitkä, vähän suurempi; myös jos määrittää pronominina pidettyä sanaa, kuten niin moni.
pmod 7413 Määrite: adposition 61:66 Sana joka on pre- tai postposition täydennyksenä, esim. markan takia, minun takanani, ennen iltaa.
advmod 5410 Määrite: adverbin 60:65 Sana joka määrittää adverbia, esim. tavattoman kauan, vähän äkkiä.
nummod 4083 Määrite: numeraalin 58:63 Sana joka määrittää numeraalia, esim. suunnilleen kolme kiloa. Adverbeja tai yksikön partitiivissa olevia substantiiveja; numeraalin kanssa kongruoiva substantiivi (kolmella kilolla) on eri asia.
nmod 72830 Määrite: substantiivin 54:61 Sana joka määrittää substantiivia, esim. niissä mun suurissa saappaissani, pastori Niemiselle, kilo jauhoja
npobj 48545 Nominiobjekti 42:41 Tavallinen totaali- tai partitiiviobjekti, esim. ostin talon, syötiin puuroa, sauna lämmitettiin.
npsubj 109625 Nominisubjekti 34:21 Subjekti tai e-subjekti, nominatiivissa tai partitiivissa, esim. minä muistan, siellä oli susia.
subj:nonfin 2112 Nominisubjekti: infiniittirakenteen 37:25’26 Ei-finiittisen rakenteen subjekti, useimmiten genetiivissä; esim. anna minun mennä, minun pitää mennä, luuli minun menevän, tuli väen nukkuessa.
subj:stat 240 Nominisubjekti: statusrakenteen 37:24 Esim. pää pystyssä, maalia hihassaan.
neg:prt 481 Partikkeli ”ei” 33:19 Partikkelina käytetty ei, esim. Ei se tiijä eikerrassa mitää;tavallisesti kieltosana on predikaatti, ja se voi olla myös predikaatin toisto.
pred3 1988 Predikaatin kolmas osa 33:14 Kielteisen liittomuodon (tai nesessiivisen verbiliiton) tapauksessa kolmas verbi, esim. et ole nähnyt.
pred2 30857 Predikaatin toinen osa 32:13 Liittomuodon tai nesessiivisen verbiliiton tapauksessa toinen verbi, esim. on mennyt, et ole nähnyt, ei voitu, oli mentävä.
pred:toisto 2191 Predikaatin toisto 31:12 Toistettu finiittiverbi, esim. eihän eihän ne työttöminä ole, se sano yhtä peltoo sano isoks moisiks.
pred 151516 Predikaatti 31:11 Finiittimuotoinen verbi tai kieltosana, esim. sanoin, on mennyt, et ole nähnyt, ei voitu, oli mentävä.
pred:ref 419 Predikaatti: referatiivirakenteen 33:16 Refreratiivirakenteen vAn– tai neen-päätteinen verbi, esim. luulin sanoneeni, väitti minun valehtelevan.
compl:x 52 Predikatiivi: pakko, määrä, tarvis 41:32 Nesessiivisen (LA:ssa infinitiivisubjektillisen) lauseen kiteytynyt nominipredikatiivi, esim. se oli pakko/määrä panna poikki. Esim. tyypissä siinä oli mukava olla on sen sijaan tavallinen predikatiivi.
compl:q 1474 Predikatiivi: määränilmaus 57:62 Määränilmaus kvanttorilauseessa, ts. lausetyypissä Niitä on monta. Huom. tähän on yhdistetty myös LAO:n kohdassa 42:34 kuvattu funktio.
compl:o 534 Predikatiivi: objektin 42:34 Objektia luonnehtiva predikatiivi, esim. Leipä tehtiin hyvää. Tähän kuuuu myös määränilmauksia, esim. teki niitä neljä.
compl:s 17526 Predikatiivi: subjektin 40:31 Tavallinen, subjektia luonnehtiva predikatiivi, esim. Leipä oli hyvää, Se oli torppa
lkeyhd 14380 Yhdistää lauseenosia 64:72 Sanoja tms. lauseenosia yhdistävä konjunktio, esim. sai kahvia ja voileipää.
lauseyhd 103181 Yhdistää lauseita 63:71 Lauseita yhdistävä konjunktio (vastakohtana sanoja tms. lauseen osia yhdistävälle). Myös niin tapaustyypeissä kun mää olin Piätiläs ni oli lakko ja mää olin siäl Piätiläs ni sillon ol juur se lakko.
sanayhd_lkeyhd 17 Yhdistää sananosia 64:72 Yhdyssanan osia yhdistävä konjunktio, esim. lintu- ja oravakoeraa; koskee enemmänkin kirjoitettua kieltä.
jälkiosa 5957 Yhtymän jälkiosa 65:74 Liittosanan, tavallisesti liittokonjunktion jälkiosa: niin kun, ennen kun, sitten kun, ijan kaiken.
yhteensä 887210

<< Lauseopin arkiston murrekorpuksen tietosivu

Puheaineiston litterointi ja annotointi (ääni ja video)

Kielipankkiin toimitettavan puheaineiston ei välttämättä tarvitse olla annotoitua. Jo alustava litterointi lisää kuitenkin puhekorpuksen käyttömahdollisuuksia merkittävästi.

Puhetta litteroidessa teksti kannattaa mahdollisuuksien mukaan kohdistaa suoraan vastaaviin ääni- tai videotiedostoihin, jolloin siitä muodostuu mediatiedostojen aikajanaan sidottua annotaatiota. Puhetta voi litteroida ja annotoida käsin tähän tarkoitukseen sopivilla työkaluilla (esim. ELAN tai Praat). Joskus on myös mahdollista käyttää apuna automaattista puheentunnistusta.

Jos aineisto on jo aikaisemmin litteroitu käsin erillisiin tekstidokumentteihin, on mahdollista käyttää automaattisia tai puoliautomaattisia apuvälineitä tekstin ja äänen kohdistamiseen keskenään. Yleensä on kuitenkin tehokkainta kohdistaa teksti ja ääni toisiinsa ainakin karkealla tasolla jo litteroinnin aikana.

Mitä hyötyä puheen annotoinnista on?

Kun litteroitu teksti on kohdistettu ääni- tai videonäytteen aikajanaan, haluttu kohta alkuperäisestä näytteestä löytyy helposti annotoidun tekstin perusteella.

Tutkimuksen kannalta on yleensä tärkeää säilyttää litteroidun tekstin linkitys ensisijaiseen aineistoon. Litteroitu teksti pohjautuu aina tulkintaan, joten sitä on voitava tarvittaessa tarkistaa. Kirjoitetusta tekstistä jää väistämättä pois suuri määrä luonnolliseen puheeseen ja vuorovaikutukseen sisältyvää informaatiota. Tällaisia piirteitä ovat esimerkiksi äänensävyn ja puhenopeuden vaihtelut, puheen jaksotteluun liittyvät seikat sekä keskustelijoiden ilmeet ja eleet.

Litteraatin eli tekstimuotoon kirjoitetun sanallisen sisällön lisäksi puhenäytteistä voidaan tarpeen mukaan rajata ja annotoida mitä tahansa tutkijaa kiinnostavia ominaisuuksia. Ajallisesti päällekkäisten ilmiöiden kuvaamiseen voidaan järjestelmällisesti käyttää useita annotaatiokerroksia tai ”rivejä”.

Sopivan annotaation avulla voidaan myös äänitteistä ja videoista tehdä automaattisia mittauksia ja analyyseja. Kun esimerkiksi keskustelun osallistujien puheenvuorot on rajattu omiin kerroksiinsa riittävällä tarkkuudella, voidaan taukojen tai päällekkäispuhunnan kestot mitata automaattisesti vuorojen alku- ja loppurajojen perusteella. Annotaation pohjalta tehdyt analyysit voidaan myös tarvittaessa toistaa.

Litteroitua tekstiä halutaan joskus käyttää ja näyttää tilapäisesti irrallaan tunnisteellisesta mediatiedostosta. Aikasidonnaisesti annotoitu teksti voidaan aina tarvittaessa viedä varsinaisesta annotaatiotiedostosta erilliseen, helppolukuiseen tekstitiedostoon.

Esimerkiksi tietosuojasyistä on myös periaatteessa mahdollista ylläpitää aineistosta kahta erilaisiin käyttötarkoituksiin suunnattua versiota, joista toiseen sisältyy koko tunnisteellinen aineisto mediatiedostoineen päivineen ja toiseen pelkät tekstimuotoiset, anonymisoidut litteraatit.

Tietokoneavusteinen litterointi

Litteroiminen on hidasta ja rasittavaa työtä. Jos kokonaan litteroimatonta aineistoa on runsaasti, työn pohjaksi kannattaa ehkä kokeilla automaattista puheentunnistusta. On kuitenkin varauduttava siihen, että tulos riippuu materiaalin laadusta ja puhuttavasta kielestä. Esimerkiksi suomenkielisen puheen automaattinen tunnistus toimii parhaiten, jos äänite sisältää melko yleiskielistä ja selkeää puhetta vain yhdeltä puhujalta kerrallaan. Joihinkin tarkoituksiin saattaa riittää osaksi virheellinenkin tunnistustulos, ja jos virheitä ei tule paljon, ne voidaan korjata käsin.

Automaattinen litterointi (automaattinen puheentunnistus, ASR)

Suomenkielistä puhetta sisältävien äänitiedostojen automaattiseen litterointiin voi Kielipankissa kokeilla automaattista puheentunnistinta nimeltä Aalto-ASR.

Taukokohtien rajaaminen ja eri puhujien erottelu (diarisointi)

Kaikille kielille, murteille ja puhetyyleille ei välttämättä ole saatavilla sopivaa automaattista tunnistinta tai tunnistustulos voi olla heikko. Näissäkin tapauksissa litteroinnin etenemistä voi koettaa nopeuttaa automatisoimalla yksittäisiä työvaiheita, joiden onnistuminen ei riipu näytteessä puhuttavasta kielestä. Esimerkiksi äänitteiden taukokohdat on mahdollista rajata joko kokonaan automaattisesti (esim. Praat-ohjelman komennolla To TextGrid (silences)… tai Praat-skriptillä mark.pauses.praat, jotka perustuvat äänen intensiteetin muutoksiin) tai tietokoneavusteisesti näytettä kuuntelemalla (esim. ELANin Segmentation mode), minkä jälkeen puhetta sisältävien kohtien litteroinnit on helpompi lisätä käsin.

Aalto-yliopiston tuottamaan Aalto-ASR-työkaluun on myöhemmin tulossa mahdollisuus ääninäytteen diarisointiin eli eri puhujien puheen automaattiseen erotteluun, mutta tämän toiminnon aikataulusta ei vielä ole tarkempaa tietoa.

Litterointi käsin

Mikäli automaattista puheentunnistusta ei ole mahdollista käyttää tai sen tulos ei ole kyseiselle aineistolle riittävän hyvä, käsin tapahtuvaan litterointiin kannattaa käyttää puheen annotointiin soveltuvaa ohjelmaa, joita ovat esim. ELAN ja Praat (molemmat saatavilla ilmaiseksi eri käyttöjärjestelmille). Niiden avulla mediatiedostoja voi joustavasti kuunnella tai katsella ja litteroidun tekstin voi samalla kohdistaa alkuperäisiin tallenteisiin. Näin syntyvä annotointi parantaa jatkossa aineiston haku- ja käyttömahdollisuuksia merkittävästi. Annotoidun tekstin perusteella mediatallenteesta voidaan myöhemmin nopeasti löytää halutut kohdat.

Annotointiohjelmilla voidaan ääni- tai videoaineistoon liittää myös kerrosteisia kuvauksia. Vaikkapa haastattelu kannattaa litteroida siten, että kunkin puhujan puheenvuorot merkitään omaan annotaatiokerrokseensa vastaavien haastatteluäänitteestä tai -videosta rajattujen aikavälien kohdalle. Näin helpotetaan päällekkäisen puheen ja muiden ajallisesti päällekkäisten ilmiöiden merkitsemistä ja tutkimista.

Aiemmin litteroidun erillisen tekstin kohdistaminen alkuperäiseen mediaan (ääni- ja videotiedostot)

Jos käytössäsi on suomenkielistä aineistoa, joka on joskus aikaisemmin litteroitu irrallisiin tekstitiedostoihin (esimerkiksi Word-dokumentteihin tai raakatekstitiedostoihin), voit kokeilla tekstin automaattista kohdistamista äänitiedostoon Aalto-ASR-työkaluilla. Kohdistustulos riippuu toisaalta litteroidun tekstin sanatarkkuudesta ja toisaalta aineiston teknisestä laadusta ja hälyisyydestä. Jos litteroitu teksti ei täysin vastaa pitkän ääninäytteen sisältöä, kohdistin saattaa ”kadottaa” oikean kohdan keskellä näytettä ja teksti kohdistuu osaksi väärään paikkaan. Kohdistin ei myöskään erottele puhujia toisistaan vaan raakateksti kohdistetaan sellaisenaan äänitteeseen yhtenä annotaatiokerroksena.

Jos automaattinen kohdistaminen ei onnistu, voit kokeilla tekstin puoliautomaattista kohdistamista äänitiedostoon Praat-ohjelmalla. Kyseinen työkalu perustuu äänen intensiteetin analyysiin ja toimii kaikilla kielillä, kunhan tekstimuotoinen litteraatti on sopivassa muodossa.

Jos ääninäyte on jo annotoitu puheenvuorojen tarkkuudella ja tarkoitus on segmentoida ja analysoida myös pienempiä puheen yksiköitä, voit kokeilla sana- ja foneemirajojen pakotettua automaattista kohdistusta Praat-skriptillä. Skripti hyödyntää Praat-ohjelman eSpeak-pohjaista, monikielistä forced alignment -toimintoa.

Annotoidun puheaineiston käsittely ja tutkiminen

Jos puheaineisto on annotoitu siten, että siihen liitetyt tekstimuotoiset litteroinnit tai muut merkkaukset on kohdistettu alkuperäisten mediatiedostojen aikajanaan, annotaatioita voidaan käsitellä ja hyödyntää monin tavoin.

Verkkokurssi Puheen analyysin perusteet alkaa jälleen

Kurssilla otetaan haltuun perustyökalut puhenäytteiden tutkimiseen ja opitaan käyttämään erityisesti Praat-ohjelmaa. Kurssille ovat tervetulleita kaikkien suomalaisten yliopistojen opiskelijat ja se suoritetaan kokonaan etänä Moodle-oppimisympäristön kautta. Kurssi on suomenkielinen.

Lisätiedot ja ilmoittautuminen: https://courses.helsinki.fi/fi/kik-lg212/120960613

Huom. Vastaava kurssi järjestetään seuraavan kerran todennäköisesti syksyllä 2018 sekä suomen- että englanninkielisenä.