Puheaineiston litterointi ja annotointi (ääni ja video)

Kielipankkiin toimitettavan puheaineiston ei välttämättä tarvitse olla annotoitua. Jo alustava litterointi lisää kuitenkin puhekorpuksen käyttömahdollisuuksia merkittävästi.

Puhetta litteroidessa teksti kannattaa mahdollisuuksien mukaan kohdistaa suoraan vastaaviin ääni- tai videotiedostoihin, jolloin siitä muodostuu mediatiedostojen aikajanaan sidottua annotaatiota. Puhetta voi litteroida ja annotoida käsin tähän tarkoitukseen sopivilla työkaluilla (esim. ELAN tai Praat). Joskus on myös mahdollista käyttää apuna automaattista puheentunnistusta.

Jos aineisto on jo aikaisemmin litteroitu käsin erillisiin tekstidokumentteihin, on mahdollista käyttää automaattisia tai puoliautomaattisia apuvälineitä tekstin ja äänen kohdistamiseen keskenään. Yleensä on kuitenkin tehokkainta kohdistaa teksti ja ääni toisiinsa ainakin karkealla tasolla jo litteroinnin aikana.

Mitä hyötyä puheen annotoinnista on?

Kun litteroitu teksti on kohdistettu ääni- tai videonäytteen aikajanaan, haluttu kohta alkuperäisestä näytteestä löytyy helposti annotoidun tekstin perusteella.

Tutkimuksen kannalta on yleensä tärkeää säilyttää litteroidun tekstin linkitys ensisijaiseen aineistoon. Litteroitu teksti pohjautuu aina tulkintaan, joten sitä on voitava tarvittaessa tarkistaa. Kirjoitetusta tekstistä jää väistämättä pois suuri määrä luonnolliseen puheeseen ja vuorovaikutukseen sisältyvää informaatiota. Tällaisia piirteitä ovat esimerkiksi äänensävyn ja puhenopeuden vaihtelut, puheen jaksotteluun liittyvät seikat sekä keskustelijoiden ilmeet ja eleet.

Litteraatin eli tekstimuotoon kirjoitetun sanallisen sisällön lisäksi puhenäytteistä voidaan tarpeen mukaan rajata ja annotoida mitä tahansa tutkijaa kiinnostavia ominaisuuksia. Ajallisesti päällekkäisten ilmiöiden kuvaamiseen voidaan järjestelmällisesti käyttää useita annotaatiokerroksia tai ”rivejä”.

Sopivan annotaation avulla voidaan myös äänitteistä ja videoista tehdä automaattisia mittauksia ja analyyseja. Kun esimerkiksi keskustelun osallistujien puheenvuorot on rajattu omiin kerroksiinsa riittävällä tarkkuudella, voidaan taukojen tai päällekkäispuhunnan kestot mitata automaattisesti vuorojen alku- ja loppurajojen perusteella. Annotaation pohjalta tehdyt analyysit voidaan myös tarvittaessa toistaa.

Litteroitua tekstiä halutaan joskus käyttää ja näyttää tilapäisesti irrallaan tunnisteellisesta mediatiedostosta. Aikasidonnaisesti annotoitu teksti voidaan aina tarvittaessa viedä varsinaisesta annotaatiotiedostosta erilliseen, helppolukuiseen tekstitiedostoon.

Esimerkiksi tietosuojasyistä on myös periaatteessa mahdollista ylläpitää aineistosta kahta erilaisiin käyttötarkoituksiin suunnattua versiota, joista toiseen sisältyy koko tunnisteellinen aineisto mediatiedostoineen päivineen ja toiseen pelkät tekstimuotoiset, anonymisoidut litteraatit.

Tietokoneavusteinen litterointi

Litteroiminen on hidasta ja rasittavaa työtä. Jos kokonaan litteroimatonta aineistoa on runsaasti, työn pohjaksi kannattaa ehkä kokeilla automaattista puheentunnistusta. On kuitenkin varauduttava siihen, että tulos riippuu materiaalin laadusta ja puhuttavasta kielestä. Esimerkiksi suomenkielisen puheen automaattinen tunnistus toimii parhaiten, jos äänite sisältää melko yleiskielistä ja selkeää puhetta vain yhdeltä puhujalta kerrallaan. Joihinkin tarkoituksiin saattaa riittää osaksi virheellinenkin tunnistustulos, ja jos virheitä ei tule paljon, ne voidaan korjata käsin.

Automaattinen litterointi (automaattinen puheentunnistus, ASR)

Suomenkielistä puhetta sisältävien äänitiedostojen automaattiseen litterointiin voi Kielipankissa kokeilla automaattista puheentunnistinta nimeltä Kaldi-ASR (päivitetyt tunnistusmallit ja ohjeistus Kielipankin laskentaympäristöä varten ovat tulossa; vanhemman version Aalto-ASR:n ohjeesta voi olla apua).

Taukokohtien rajaaminen ja eri puhujien erottelu (diarisointi)

Kaikille kielille, murteille ja puhetyyleille ei välttämättä ole saatavilla sopivaa automaattista tunnistinta tai tunnistustulos voi olla heikko. Näissäkin tapauksissa litteroinnin etenemistä voi koettaa nopeuttaa automatisoimalla yksittäisiä työvaiheita, joiden onnistuminen ei riipu näytteessä puhuttavasta kielestä. Esimerkiksi äänitteiden taukokohdat on mahdollista rajata joko kokonaan automaattisesti (esim. Praat-ohjelman komennolla To TextGrid (silences)… tai Praat-skriptillä mark.pauses.praat, jotka perustuvat äänen intensiteetin muutoksiin) tai tietokoneavusteisesti näytettä kuuntelemalla (esim. ELANin Segmentation mode), minkä jälkeen puhetta sisältävien kohtien litteroinnit on helpompi lisätä käsin.

Kielipankkiin on tulossa myös Aalto-yliopiston tuottama työkalu ääninäytteen diarisointiin eli eri puhujien puheen automaattiseen erotteluun, mutta työkalun aikataulusta ei vielä ole tarkempaa tietoa.

Litterointi käsin

Mikäli automaattista puheentunnistusta ei ole mahdollista käyttää tai sen tulos ei ole kyseiselle aineistolle riittävän hyvä, käsin tapahtuvaan litterointiin kannattaa käyttää puheen annotointiin soveltuvaa ohjelmaa, joita ovat esim. ELAN ja Praat (molemmat saatavilla ilmaiseksi eri käyttöjärjestelmille). Niiden avulla mediatiedostoja voi joustavasti kuunnella tai katsella ja litteroidun tekstin voi samalla kohdistaa alkuperäisiin tallenteisiin. Näin syntyvä annotointi parantaa jatkossa aineiston haku- ja käyttömahdollisuuksia merkittävästi. Annotoidun tekstin perusteella mediatallenteesta voidaan myöhemmin nopeasti löytää halutut kohdat.

Annotointiohjelmilla voidaan ääni- tai videoaineistoon liittää myös kerrosteisia kuvauksia. Vaikkapa haastattelu kannattaa litteroida siten, että kunkin puhujan puheenvuorot merkitään omaan annotaatiokerrokseensa vastaavien haastatteluäänitteestä tai -videosta rajattujen aikavälien kohdalle. Näin helpotetaan päällekkäisen puheen ja muiden ajallisesti päällekkäisten ilmiöiden merkitsemistä ja tutkimista.

Aiemmin litteroidun erillisen tekstin kohdistaminen alkuperäiseen mediaan (ääni- ja videotiedostot)

Jos käytössäsi on suomenkielistä aineistoa, joka on joskus aikaisemmin litteroitu irrallisiin tekstitiedostoihin (esimerkiksi Word-dokumentteihin tai raakatekstitiedostoihin), voit kenties kokeilla tekstin automaattista kohdistamista äänitiedostoon Kaldi-ASR:llä. Tätä toimintoa voi periaatteessa käyttää Kielipankin laskentaympäristössä, mutta tunnistusmallit eivät välttämättä ole ajan tasalla. Tarkemmat ohjeet julkaistaan, kun tunnistimen päivitys valmistuu.

Kohdistustulos riippuu toisaalta litteroidun tekstin sanatarkkuudesta ja toisaalta aineiston teknisestä laadusta ja hälyisyydestä. Jos litteroitu teksti ei täysin vastaa pitkän ääninäytteen sisältöä, kohdistin saattaa ”kadottaa” oikean kohdan keskellä näytettä ja teksti kohdistuu osaksi väärään paikkaan.

Kohdistin ei myöskään erottele puhujia toisistaan vaan raakateksti kohdistetaan sellaisenaan äänitteeseen yhtenä annotaatiokerroksena.

Jos automaattinen kohdistaminen ei onnistu, voit kenties kokeilla tekstin puoliautomaattista kohdistamista äänitiedostoon Praat-ohjelmalla. Kyseinen työkalu perustuu äänen intensiteetin analyysiin ja toimii kaikilla kielillä, kunhan tekstimuotoinen litteraatti on sopivassa muodossa.

Jos ääninäyte on jo annotoitu puheenvuorojen tarkkuudella ja tarkoitus on segmentoida ja analysoida myös pienempiä puheen yksiköitä, voit kokeilla sana- ja foneemirajojen pakotettua automaattista kohdistusta Praat-skriptillä. Skripti hyödyntää Praat-ohjelman eSpeak-pohjaista, monikielistä forced alignment -toimintoa.

Annotoidun puheaineiston käsittely ja tutkiminen

Jos puheaineisto on annotoitu siten, että siihen liitetyt tekstimuotoiset litteroinnit tai muut merkkaukset on kohdistettu alkuperäisten mediatiedostojen aikajanaan, annotaatioita voidaan käsitellä ja hyödyntää monin tavoin.

Hae Kielipankki-portaalista:
Kuukauden tutkija: Jenny Tarvainen

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317