Kieliaineiston annotaatio

Tekstiaineistot

Tekstiaineisto pitäisi mieluiten annotoida jollakin XML-formaatissa esitettävällä, mahdollisimman laajassa käytössä olevalla standardilla, esimerkiksi TEI-formaatissa.

Ilmaisia ja maksullisia XML-editoreita on paljon erilaisia. Mikäli aiot tuottaa TEI-muotoista aineistoa, kannattaa käyttää TEI:tä tukevaa editoria, jotta ohjelman avulla tuotetut dokumentit validoituvat automaattisesti.

Aineiston sisältämästä kielestä ja kielimuodosta riippuen se voi olla mahdollista jäsentää automaattisesti. Kielipankista löytyy eri kielten jäsennystyökaluja. Niitä voi etsiä myös verkossa olevista kielivarojen hakemistopalveluista (esim. META-SHARE).

Voit katsoa malliksi vanhaa kuvausta Kielipankissa olevien tekstikorpusten annotaatiosta.

Kysy tarvittaessa lisää FIN-CLARINin Korp-yhteyshenkilöltä Jyrki Niemeltä (jyrki.niemi [AT] helsinki.fi).

Ääntä sisältävät puheaineistot

Äänitallenteiden tulisi olla sekä litteroituja että annotoituja. Jotta litteraatin perusteella on mahdollista tehdä hakuja myös äänitteestä, pitää litteraatin sisältämien (taukojen erottamien) puhunnosten tai ainakin kunkin puhujan puheenvuorojen olla kohdistettu äänitallenteen vastaaviin kohtiin. Tällaisen perusannotaation tekemiseen suositellaan Praat-ohjelmaa tai Elan-ohjelmaa. Praatilla tehdyt annotaatiotiedostot voidaan muuntaa Elan-muotoon ja päinvastoin.

Puheaineistot annotoidaan yleensä monikerroksisesti. Jokaista äänitteessä esiintyvää puhujaa kohti tulee olla erillinen annotaatiokerros, jotta eri puhujien päällekkäinen puhe voidaan kuvata tehokkaasti. Peruslitteraatin joukkoon ei pitäisi lisätä ylimääräisiä merkintöjä, vaan niille pitää tarpeen mukaan luoda erillisiä annotaatiokerroksia.

Äänitallenteeseen kohdistettu litterointi on oikeastaan vasta annotaatioprosessin ensimmäinen, joskin kaikkein yleiskäyttöisin työvaihe. Sen jälkeen litteraattia voidaan tarvittaessa rikastaa muilla annotaatiokerroksilla (esimerkiksi sanat, näiden morfologiset kuvaukset, tavut tai äänteet) ja kuvata erikseen muitakin puheeseen tai puhujaan liittyviä ominaisuuksia (äänenlaatu, painotus, muut prosodiset piirteet, ilmeet, eleet) taikka äänitallenteeseen liittyviä tapahtumia (esim. hälyäänet). Koska kerroksia voi periaatteessa olla mielivaltainen määrä ja niitä kaikkia voidaan hyödyntää itsenäisinä hakukriteereinä, on tärkeää, ettei samassa annotaatiokerroksessa kuvata monia erilaisia ominaisuuksia.

Erillinen tekstimuotoinen litteraatti voidaan kohdistaa ääneen myös jälkikäteen. Tämä voidaan tehdä puoliautomaattisesti ts. osittain tietokoneen avustuksella, mutta aikaa kuluu kokonaisuudessaan enemmän kuin jos aineisto olisi heti suoraan litteroitu annotointiohjelmaa käyttäen. Automaattinen puheentunnistus ei ole vielä riittävän kehittynyttä, jotta sitä voitaisiin hyödyntää vapaan keskustelupuheen tunnistamisessa, litteroinnissa ja annotoinnissa. Myös automaattisia apuvälineitä on kuitenkin tulossa Kielipankkiin.

Joitakin yleisiä ja edelleen käyttökelpoisia puheaineistojen annotointiperiaatteita löydät vanhasta oppaasta:
Lennes, Mietta, & Ahjoniemi, Sanna. (2005). Puheaineiston annotaatio eli nimikointi (versio 1.01). Zenodo. http://doi.org/10.5281/zenodo.1205453

Huomaa kuitenkin, että em. oppaassa viitataan käytöstä poistuneeseen Puh-annotaatioeditoriin, jonka sijaan voi käyttää esimerkiksi Praat-ohjelmaa tai Elania.

Kysy tarvittaessa lisää FIN-CLARINin LAT-yhteyshenkilöltä Mietta Lennekseltä (mietta.lennes [AT] helsinki.fi).

Videota sisältävät multimedia-aineistot

Litterointiin ja muun perusannotaation tekemiseen suositellaan ELAN-ohjelmaa. Praat ei toistaiseksi tue videota. Videotiedoston ääniraita voidaan kuitenkin tarvittaessa erottaa omaksi tiedostokseen, jolloin sitä voidaan käsitellä tai annotoida Praatilla.

Kysy tarvittaessa lisää FIN-CLARINin puheaineistoyhteyshenkilöltä Mietta Lennekseltä (mietta.lennes [AT] helsinki.fi).