LAT-ohjeet: Hakujen tekeminen LAT-palvelussa olevista korpuksista Trova-työkalulla

Trova-työkalulla voi tehdä tekstihakuja LAT-alustalle tallennetuista teksti- ja annotaatiotiedostoista. Hakuosumaa klikkaamalla avautuu alkuperäisen annotaatiotiedoston vastaava kohta uuteen Annex-ikkunaan. Mikäli annotaatiotiedosto on EAF-muotoinen, avautuu myös kyseinen ääni- tai videotiedosto samalta kohdalta, ja sitä pääsee kuuntelemaan ja katsomaan. Hakutulokset voi lisäksi ladata omalle koneelle CSV-muotoisena tekstitiedostona.

Trovan käynnistäminen IMDI-selaimen kautta

Trovaa pääsee käyttämään LATin aloitusnäkymän eli IMDI-selaimen kautta:

  • Klikkaa vasemmalla näkyvässä puussa mitä tahansa oksaa/korpussolmua hiiren oikealla napilla.
  • Valitse ponnahdusvalikosta komento annotation content search (tai vastaava painike oikeanpuoleisen ikkunan yläreunasta, ks. kuva).

Haku kohdistuu kaikkiin sellaisiin tämän solmun alla oleviin annotaatiotiedostoihin, joihin sinulla on käyttöoikeus (.eaf-päätteiset eli Elan-ohjelmalla annotoidut tiedostot, .txt-päätteiset tekstitiedostot ja/tai .textgrid-päätteiset, Praat-ohjelmalla annotoidut tiedostot). Osa tiedostoista on haettavissa ilman kirjautumista, osa vain kirjautumalla (klikkaa tarvittaessa login-linkkiä näytön oikeasta yläkulmasta).

Trovassa on kolme erilaista hakulomaketta, jotka voi valita näytön ylälaidassa olevista välilehtipainikkeista:

Trova-haun englanninkieliset ohjeet

Substring search

Trova substring search

Substring search on yksinkertaisin hakuvaihtoehto, jolla voi hakea tietyn merkkijonon esiintymiä kaikista valittuina olevista teksti- ja annotaatiotiedostoista.

Valitse ylhäältä, haluatko hakea EAF-tiedostoista vai TextGrid- tai .txt-tyyppisistä tiedostoista. Sulkeissa näkyy niiden ko. korpussolmun alla olevien tiedostojen lukumäärä, joihin sinulla on lukuoikeudet.

Kirjoita etsittävä merkkijono valkoiseen tekstilaatikkoon ja paina Find.

  • Oletuksena tulokset näytetään konkordansseina, joiden keskellä näkyy hakemasi merkkijono lihavoituna. Action-kohdasta voit valita erilaisia vaihtoehtoisia näkymiä tai tallentaa kaikki osumat omalle koneellesi tekstitiedostoon (Save hits).
  • Context size -valikosta voit määritellä kontekstin laajuuden (eli montako annotoitua yksikköä näkyy osuman vasemmalla ja oikealla puolella).
  • Jos kaikki osumat eivät mahdu samalle sivulle, voit selata niitä Page:-kohdassa näkyvillä nuolilla.
  • Ruksaamalla ”Show Info Balloons” tulee näkyviin ko. annotaatiotiedoston nimi ja muuta lisätietoa, kun viet hiiren kohdistimen tietyn hakuosumarivin päälle.

Single layer -haku

Single layer -haun voi kohdistaa joko kaikkiin valittuihin annotaatiotiedostoihin ja niiden sisältämiin annotaatiokerroksiin tai vain tietyn nimiseen/tietyn tyyppiseen/tiettyä henkilöä koskevaan annotaatiokerrokseen.

Esimerkkikuvassa on etsitty kaikkien SKN-korpuksen haastattelijoiden tuottamien puhunnosten yleiskielistetyt muodot, jotka sisältävät merkkijonon ”mikä”.

Trovan Single Layer -hakuesimerkki, jossa käytetään säännöllisiä lausekkeita ja etsitään n-grammeja

Lisäksi Single layer -hauissa voidaan käyttää säännöllisiä lausekkeita (regular expression), joilla voidaan etsiä monimutkaisempia merkkijonorakenteita, esim. kuvassa näkyvä vaihtoehto ”N-gram over annotations”.

Trovan Single Layer -hakuesimerkki, jonka tuloksiin yhdistetään ylimääräinen annotaatiokerros

Single layer -haulla voi saada osumat myös yksiköistä, jotka ovat kohdakkain jonkin toisen annotaatiokerroksen kanssa. Valitse vaihtoehto Mode: Annotation + Extra tier. Tällöin merkkijonoa haetaan alempana mainitun tyyppisistä annotaatiokerroksista, mutta osumina näytetään vain ne annotaatiot, jotka ovat Extra:-valinnan mukaisessa suhteessa ylemmästä valikosta valitun kerroksen yksikköön.

Oheisessa esimerkissä on haettu merkkijonoa ”ihmis”, joka esiintyy original sentence -tyyppisissä annotaatiokerroksissa ja sisältyy normalized sentence -tyyppisen kerroksen annotaatioyksiköihin. Hakuosuman yleiskielistetty vastine saadaan tällä tavalla näkyviin myös Info Balloons -taustatietolaatikossa.

Multiple layer -haku

Multiple layer -haulla voidaan hakea monimutkaisempia rakenteita useampikerroksisista annotaatioista. Sen avulla voidaan etsiä esimerkiksi tiettyjä merkkijonoja, jotka esiintyvät kahdessa tai kolmessa kerroksessa ajallisesti kohdakkain, tai tietyt merkkijonot sisältäviä annotaatioyksiköitä, joiden väliin jää tietty määrä muita annotaatioita tai vähintään/enintään tietty aika.

Katso Multiple layer -hakuihin tarkempia ohjeita Trovan englanninkielisestä manuaalista, http://www.mpi.nl/corpus/html/trova/ch01s03.html.

Hakutulosten lataaminen

Trova-hakulomakkeiden Action-valikosta löytyvällä komennolla Save hits on mahdollista ladata hakutulokset joko UTF-8- tai UTF-16-merkistökoodauksella omalle koneelle CSV-muotoisena tekstitiedostona, joka sisältää käyttäjän valinnan mukaan seuraavat kentät tai sarakkeet:

  • ”Annotation”
  • ”HitPositionInAnnotation”
  • ”HitLength”
  • ”HitNumberInAnnotation”
  • ”AnnotationBeginTime”
  • ”AnnotationEndTime”
  • ”HitPositionInTier”
  • ”TierName”
  • ”TierType”
  • ”TierParticipant”
  • ”TierAnnotator”
  • ”LeftContext”
  • ”RightContext”
  • ”TranscriptionName”
  • ”TranscriptionURL”

CSV-tiedostossa sarakkeita vastaavat kentät on erotettu toisistaan puolipisteellä. Merkkijonoja sisältävien kenttien ympärillä on lainausmerkit.

Koska CSV-muoto on tunnettu formaatti, näitä tiedostoja voi helposti tuoda esimerkiksi Microsoft Exceliin, joka muuntaa ne taulukoiksi. (Huomaa kuitenkin, että Unicode-merkistökoodauksen suhteen voi joissakin ohjelmissa vielä nykyäänkin olla ongelmia, joten mm. ääkkösiä voi joutua jälkikäteen korvaamaan, jollei merkistökoodausta ole mahdollista ohjelmalle kertoa.)

Kaikki LAT-ohjeet

Hae Kielipankki-portaalista:
Kuukauden tutkija: Maija Saviniemi

 

Tulevat tapahtumat

  1. Kurssi: Puheen analyysin perusteet

    28.10.201913.12.2019
  2. Course: Data Clinic 2019-20

    1.11.201917.4.2020

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317