Kieliaineiston annotaatio

Tekstiaineistot

Tekstiaineisto pitäisi mieluiten annotoida jollakin XML-formaatissa esitettävällä, mahdollisimman laajassa käytössä olevalla standardilla, esimerkiksi TEI-formaatissa.

Ilmaisia ja maksullisia XML-editoreita on paljon erilaisia. Mikäli aiot tuottaa TEI-muotoista aineistoa, kannattaa käyttää TEI:tä tukevaa editoria, jotta ohjelman avulla tuotetut dokumentit validoituvat automaattisesti.

Aineiston sisältämästä kielestä ja kielimuodosta riippuen se voi olla mahdollista jäsentää automaattisesti. Kielipankista löytyy eri kielten jäsennystyökaluja. Niitä voi etsiä myös verkossa olevista kielivarojen hakemistopalveluista (esim. META-SHARE).

Voit katsoa malliksi vanhaa kuvausta Kielipankissa olevien tekstikorpusten annotaatiosta.

Kysy tarvittaessa lisää Kielipankin Korp-yhteyshenkilöltä Jyrki Niemeltä (jyrki.niemi [AT] helsinki.fi).

Ääntä sisältävät puheaineistot

Äänitallenteiden tulisi mieluiten olla sekä litteroituja että annotoituja. Litteroinnilla tarkoitetaan puheen sanallisen sisällön kirjaamista tekstimuotoon. Joillekin kielille on tarjolla automaattisia puheentunnistusmenetelmiä, joilla ainakin teknisesti hyvälaatuinen äänite voidaan litteroida käyttökelpoisella tavalla. Kielipankissa on tarjolla automaattinen puheentunnistin ja -kohdistin nimeltä Aalto-ASR, jota kannattaa mahdollisuuksien mukaan kokeilla omalle aineistolle.

Esimerkiksi monen puhujan väliset keskustelut, puhekielinen tai hälyinen äänite ovat kuitenkin tunnistimelle haastava tehtävä. Esimerkiksi suomenkielisen vapaan keskustelupuheen osalta automaattinen puheentunnistus ei vielä välttämättä ole riittävän laaja-alaista, jotta sitä voitaisiin järkevästi hyödyntää tutkimusaineistojen litterointiin. Sen sijaan valmiin litteraatin kohdistaminen äänitteeseen onnistuu monissa tapauksissa varsin hyvin, kunhan litteraatti on mahdollisimman sanatarkka eikä sisällä ylimääräisiä merkintöjä tai puuttuvia puheen jaksoja.

Jos automaattinen litterointi ei ole mahdollista tai automaattisen puheentunnistimen tuottama tulos ei ole laadultaan riittävä, täytyy aineisto litteroida käsin. Jotta litteraatin perusteella olisi mahdollista tehdä äänitteestä hyödyllisiä hakuja tai kohdistaa analyyseja äänitteen tiettyihin kohtiin, täytyy esimerkiksi litteraatin sisältämät puhunnokset tai kunkin puhujan puheenvuorot ensin kohdistaa äänitallenteen vastaaviin kohtiin. Kohdistus kannattaa tehdä ainakin karkealla tasolla jo litterointityön ohessa. Litteraatin voi toki kirjoittaa myös erilliseen tekstitiedostoon, mutta silloin tekstin eri kohtia ei voida automaattisesti hakea esille alkuperäisistä ääni- tai videonäytteistä.

Kohdistettuun litterointiin ja muuhun puheen annotointiin suositellaan Praat-ohjelmaa tai Elan-ohjelmaa. Praatilla tehdyt annotaatiotiedostot voidaan muuntaa Elan-muotoon ja päinvastoin.

Olemassa oleva erillinen tekstimuotoinen litteraatti voidaan kohdistaa ääneen myös jälkikäteen. Tämä voidaan tehdä joko automaattisesti (Aalto-ASR, kielikohtainen kohdistus) tai puoliautomaattisesti (Praat-kohdistusskripti, kieliriippumaton menetelmä). Usein aikaa kuitenkin kuluu kokonaisuudessaan enemmän kuin jos aineisto olisi alun perin litteroitu annotointiohjelmaa käyttäen.

Usein puheaineistot päädytään annotoimaan monikerroksisesti. Silloin peruslitteraatti on tutkimuskäyttöön tarkoitetun puheaineiston esikäsittelyssä vasta ensimmäinen vaihe. Peruslitteraatin sisältämän tekstin joukkoon ei kannata suoraan lisätä ylimääräisiä merkintöjä, vaan lisäpiirteiden ja kommenttien merkitsemistä varten luodaan tarvittaessa erillisiä annotaatiokerroksia. Näin aineiston sisältö pysyy helpommin käsiteltävänä ja haettavana. Esimerkiksi jokaista äänitteessä esiintyvää puhujaa varten voidaan tehdä oma annotaatiokerros, jolloin voidaan kuvata tehokkaasti myös eri puhujien ajallisesti päällekkäinen puhe. Litteraattia voidaan tarvittaessa rikastaa muilla annotaatiokerroksilla (esimerkiksi sanat, näiden morfologiset kuvaukset, tavut tai äänteet) ja kuvata erikseen muitakin puheeseen tai puhujaan liittyviä ominaisuuksia (äänenlaatu, painotus, muut prosodiset piirteet, ilmeet, eleet) taikka muita äänitallenteeseen liittyviä ulkoisia tapahtumia (esim. hälyäänet ja niiden lähteet). Koska annotaatiokerroksia voi periaatteessa olla mielivaltainen määrä ja niitä kaikkia halutaan ehkä hyödyntää itsenäisinä hakukriteereinä, on tärkeää, ettei samassa annotaatiokerroksessa kuvata monia erilaisia ominaisuuksia yhtä aikaa.

Joitakin yleisiä ja edelleen käyttökelpoisia puheaineistojen annotointiperiaatteita löydät vanhasta oppaasta:
Lennes, Mietta, & Ahjoniemi, Sanna. (2005). Puheaineiston annotaatio eli nimikointi (versio 1.01). Zenodo. http://doi.org/10.5281/zenodo.1205453

Huomaa kuitenkin, että em. oppaassa viitataan käytöstä poistuneeseen Puh-annotaatioeditoriin, jonka sijaan voi käyttää esimerkiksi Praat-ohjelmaa tai Elania.

Voit tarvittaessa kysyä Kielipankista lisätietoja (puheaineistojen osalta yhteyshenkilönä toimii Mietta Lennes).

Videota sisältävät multimedia-aineistot

Litterointiin ja muun perusannotaation tekemiseen suositellaan ELAN-ohjelmaa. Praat ei toistaiseksi tue videota. Videotiedoston ääniraita voidaan kuitenkin tarvittaessa erottaa omaksi tiedostokseen, jolloin sitä voidaan käsitellä tai annotoida Praatilla.

Voit tarvittaessa kysyä Kielipankista lisätietoja (puheaineistojen osalta yhteyshenkilönä toimii Mietta Lennes).