LAT-ohjeet: Arbil: Kuvailutietueiden luominen

Arbil-työkalunäkymä

Jotta LAT-alustalle voidaan viedä uusi korpus, on aineistolle luotava puumainen korpusrakenne, johon liitetään IMDI-muotoisia kuvailutietoja eli metadataa. IMDI on erityisesti puhe- ja multimedia-aineistojen kuvailuun kehitetty metadatastandardi.

IMDI-muotoisen korpusrakenteen voi luoda Arbil-ohjelmalla. Arbil pitää automaattisesti huolta siitä, että käyttäjä noudattaa LATissa käytettävää IMDI-mallia ja tiedostojen välisiä linkitysperiaatteita. Arbilia ei kuitenkaan ole pakko käyttää.

Arbilin kotisivu

Huom. Kun aineisto on siirretty LAT-alustalle, kaikki korpuksen IMDI-tietueeseen syötetyt kuvailutiedot näkyvät julkisesti koko maailmalle. Kuvailutietoihin ei siis pidä kirjoittaa esim. mitään yksilöiviä henkilötietoja, ellei niiden julkaisemiseen ole erillistä lupaa.

IMDI-rakenne: Korpustietueet ja istuntotietueet

Jokainen LAT-puuhun liitettävä aineistokokonaisuus järjestetään korpukseksi (corpus), joka voi sisältää osakorpuksia, istuntoja (session), ja alimmalla tasolla itse aineistoon kuuluvia tiedostoja. Kaikki nämä näkyvät LATin IMDI-selaimessa puun ”oksanhaaroina” eli solmuina.

  1. Korpustason IMDI-tietueessa nimetään ja kuvataan aineistokokonaisuus corpus). Siihen linkitetään korpus- tai istuntotietueita.
  2. Istuntotason IMDI-tietueessa kuvataan tietty keruutilanne tai vastaava (session). Siihen linkitetään ääni- ja viedotallenteet ja niiden annotaatiot sekä muut tilanteeseen liittyvät dokumentit.

Arbil-ohjelman asennus ja käyttöönotto

IMDI-tietueet on helpointa tehdä Arbil-ohjelmalla. Arbilin voi asentaa omalle koneelle tai käynnistää verkosta (Java webstart).

Omalla koneella olevan aineistohakemiston yhteyteen kannattaa aluksi luoda erillinen hakemisto, johon IMDI-tietueet tallennetaan.

  1. Käynnistä Arbil.
  2. Aseta Arbil toimimaan IMDI-editorina: Help / Run setup wizard, ota IMDI käyttöön ja CMDI pois käytöstä (voit vaihtaa tämän asetuksen koska tahansa), jätä Remote locations silleen.
  3. Vasemmalla on kolme ruutua: ylhäällä Remote corpus (jätä huomiotta), keskellä Local corpus (tähän kohtaan tuotat omien korpustesi tietueet), ja alhaalla vielä Files/Favourites. Oikealla on kaksi ruutua, joiden pitäisi olla vielä tyhjiä. Ruutujen reunoja voi yleensä siirtää.

Uuden korpustietueen luominen

Arbil-puu

Yksinkertaisimmillaan korpus sisältää yhden korpussolmun (corpus node), jonka alla on yksi tai useampi istunto (session). Istuntoja voi luoda ainoastaan korpussolmun alle.

  • Luodaan aluksi korpuksen pääsolmu, corpus node: Klikkaa hiiren oikealla napilla otsikkoa Local corpus ja valitse Add: Corpus.
    • Mikäli haluat jakaa tai ”osastoida” korpuksesi useisiin alikorpuksiin, voit luoda pääsolmun alle uusia korpussolmuja (klikkaa korpussolmun nimeä ja valitse Add: Corpus kuten edellä).
  • Oheisessa kuvassa on esimerkki Aku-EGG-nimisestä korpuksesta, joka on nähty hyväksi jakaa kahteen alikorpukseen (mies- vs. naispuhujien näytteet).
  • Ikkunaan avautuu lomake, jossa on (yllättävän paljon) tyhjää tilaa sekä kolme nimettyä kenttää: Name, Title, ja Description.

Lyhyt nimi, Name

  • Syötä korpukselle lyhyt nimi, Name, oletusarvon Standard corpus tilalle.
    • Lyhyt nimi on pakollinen.
    • LATin puukuvaimessa tämä kenttä näkyy korpussolmun nimenä.
    • Paikallisesti Name toimii myös tiedostonimenä tai tiedostonimen osana. Älä käytä välilyöntiä, kovin erikoisia merkkejä tai ääkkösiä. Väliviiva – ja alaviiva _ kelpaavat.
    • Valitse nimi harkiten – ajattele, että se on tavallaan korpuksesi kutsumanimi. (Korpukselle tulee kyllä myös erillinen, pysyvä tunniste viittaamista varten, mutta jos lyhytnimi on ihmisluettava, se voi helpottaa löytämistä.)
    • LATissa olevien lyhytnimien pitäisi olla yksilöllisiä. Älä käytä olemassaolevia lyhytnimiä – niistä voi aiheutua teknisiä hankaluuksia.

Pitkä nimi, Title

  • Syötä korpukselle pitempi, ihmisluettava nimi, Title.
    • LATin IMDI-selaimessa Title näkyy korpussolmun tietojen yhteydessä.
    • Pitkän nimen on hyvä olla melko täsmällinen ja yksilöivä, muttei niin pitkä, ettei kukaan muista sitä.

Vapaa kuvaus, Description

Korpuksen Description-kentän muokkaaminen Arbilissa

  • Monille tiedoille on IMDI-mallissa omat paikkansa. Description-kenttä on kuitenkin sisältöä, joka näkyy käyttäjille miltei ensimmäisenä useimmissa palveluissa, joten se kannattaa muotoilla ikään kuin korpuksen ”mainokseksi”, josta keskeisimmät asiat selviävät nopeasti.
  • Lomake tarjoaa vapaalle kuvaukselle, Description, samaa pientä tilaa kuin nimille. Jos se ei tunnu riittävältä, voit avata kuvaukselle oman pienen editorin hiiren oikealla napilla ja valitsemalla Open in Long Field Editor (ks. esimerkkikuva alla).
  • Kirjoita kuvaus jollain kielellä, esimerkiksi English, Finnish, tai Swedish.
  • Valitse myös käyttämäsi kieli editorin valikosta. (Alkukirjain, esimerkiksi E, F tai S, asettaa valikon sopivampaan kohtaan.)
    • Halutessasi voit tehdä useita kuvauselementtejä (hiiren oikealla napilla korpuksen nimestä puussa Add description) Voit esimerkiksi kirjoittaa saman kuvauksen eri kielillä.
  • Ajattele kuvailutietojen lukijaa, joka etsii kiinnostavia korpuksia ja muita kielivaroja:
    • Kerro ytimekkäästi, mikä aineisto on kyseessä: mitä kieliä, millaista kieltä, kuinka paljon, millaista annotaatiota, mikä tarkoitus aineistolla on tai on ollut.
  • Jos aineisto on tulossa LAT-alustalle vain sinun omaan tai tutkimusryhmäsi hallintaan, kannattaa kertoa kuvauskentässä ulkopuolisille kävijöille, kuka aineistoa saa käyttää tai levittää ja keneen voi olla yhteydessä, jos siihen haluaa pääsyn.
    • Jos aineiston jakelusta on sovittu FIN-CLARINin kautta, saatavuustietoja ei kannata syöttää, sillä FIN-CLARIN ylläpitää niitä META-SHARE-palvelun kautta.
  • Kuvauseditori näyttää samaa kenttää kuin näytön yläreunassa oleva korpuslomake: sama teksti näkyy molemmissa.

Lisää istuntotietueita (add session)

  • Istunto eli sessio (Session) tarkoittaa yhtä aineistonkeruutilannetta, jonka sisältämät erilaiset teksti-, media-, annotaatio- ja kuvailutiedostot liittyvät toisiinsa.
  • Lisää istuntotietue: puussa näkyvästä korpuksen nimestä oikealla napilla Add session.
    • Anna istunnollekin Name, Title ja Description.
      • Name on jälleen se koneluettava lyhytnimi, joka tulee ko. ”oksanhaaran” nimeksi.
      • Description -kentässä pitää kuvata yleisesti se tapahtuma, jota juuri tämä istunto käsittelee. (Huomaa, että esim. puhujat kuvataan erikseen yksitellen Actor-kenttinä, ks. alempana.)
    • Istuntolomakkeessa on kenttiä tapahtumapaikan, puhetilanteen jne. dokumentoimiseksi.
    • Useimpiin kohtiin voi myös jättää tyhjää tai oletustekstin ”Unspecified”, jos tietoa ei ole mahdollista saada tai sitä ei haluta julkaista.

Session: Content

Kuvailutietojen Content-lomake Arbilissa

  • Istuntoon liittyy pakollisena osana Content, jossa voi kuvata tarkemmin esim. kyseisen istunnon sisältämää genreä ja kielimuotoa. Tässä on esimerkikki Kielipankissa olevan Reitti A-siipeen-näytekorpuksen kuvailutiedoista:

Session: Actor

Kuvailutietojen Actor-lomake Arbilissa

  • Istunnon alle voi liittää myös ”toimijoita” eli mm. tilanteeseen liittyviä henkilöitä (hiiren oikealla napilla Add: Actor).
    • Esimerkiksi ko. istunnossa esiintyvät puhujat (Speaker/Signer) kannattaa tässä mainita ja kuvailla kukin erikseen.
    • Älä merkitse Actor-kohdan kenttiin tarkkoja henkilötietoja, nimiä, syntymäaikaa tms. (elleivät ko. henkilöt ole erikseen antaneet kirjallista lupaa tietojensa julkiseen mainitsemiseen aineiston yhteydessä)!
    • Käytä henkilöiden tunnisteina esim. kirjain-numero-koodeja, joiden kohdetta ei kukaan ulkopuolinen voi arvata.
    • Syntymäajankin voi merkitä karkeasti vaikkapa vuosilukuvälinä (1950-1960).
    • Saman korpuksen sisällä on usein järkevää käyttää samasta puhujasta yksilöllistä koodia, jotta häneen liittyvää aineistoa on mahdollista etsiä ja käsitellä tarpeen mukaan erikseen.
    • Useimpiin kohtiin voi myös jättää pelkän tekstin ”Unspecified”, jos tietoa ei ole tai sitä ei haluta julkaista.
  • Tässä on esimerkki toisen Reitti A-siipeen -korpuksen puhujan kuvailutiedoista (Actor ML):

Jos haluat, voit jo Arbilissa liittää sisältödokumentit istuntotietueeseen, add info node / written resource / media file

  • Usein on yksinkertaisinta tehdä Arbililla ainoastaan korpusrakenne (ts. korpussolmut ja istuntosolmut taustatietoineen) ja linkittää ääni- tai videotiedostot ja annotaatiot paikoilleen vasta Lamus-työkalulla. Voit siis hypätä tämän kohdan yli.
  • Istuntotietueeseen voi liittää kolmenlaista sisältöä
    • dokumentteja, jotka IMDI-selaimen näyttää suoraan, info node
    • dokumentteja, joille IMDI-selain avaa erillisen Annex-ikkunan (written resource/annotation)
    • mediatiedostoja
  • Mikäli korpukseen on jo Arbilissa linkitetty sisältöä, pitää vastaavat tiedostot siirtää LAT-alustalle Lamuksella yhtä aikaa kuin kuvailutiedostotkin.

Vie Arbililla tuottamasi korpustietue XML-tiedostoihin

  • Tallenna kerralla koko korpuksen kuvailutiedot IMDI-muotoa noudattaviin XML-tiedostoihin napsauttamalla korpussolmua oikealla napilla ja valitsemalla komento Export.
    • Valitse tiedostoselaimessa se hakemisto, jonka alussa loit kuvailutietoja varten.
    • Paina Export Branch Destination directory
    • Kirjoita kenttään tarvittaessa jotakin (ihan mitä tahansa, tämä ei mitenkään vaikuta Arbilin luomien .imdi-tiedostojen nimiin!)
    • Klikkaa Export Branch, ok, paina Start.
    • Yksityiskohtia tarjotaan nähtäväksi, paina ok, ja .imdi-tiedostot tallentuvat antamaasi hakemistoon.
  • Näin syntyneet tiedostot (koko korpuksen .imdi sekä sen alihakemistossa olevat yksittäisten sessioiden imdit) voidaan viedä LAT-järjestelmään Lamus-työkalulla.
  • Huomaa, että samalla koneella luomasi eri korpusten kuvailutiedot säilyvät, kun avaat Arbilin seuraavan kerran (riippumatta siitä, oletko vienyt korpuksia XML-muotoon vai et). Varsinkin isojen aineistojen tiedot kannattaa kuitenkin varmuuden vuoksi tallentaa XML-muotoon (ja varmuuskopioida) teknisten ongelmien varalta.

Tulenko toimeen ilman Arbilia?

Mikäli korpus on laaja ja siihen liittyy paljon kuvailutietoja, XML-muotoiset IMDI-tiedostot voidaan Arbilin sijaan tuottaa kokonaan automaattisesti tai niitä voi muokata jollakin XML-editorilla. Tällöin kuvailutiedot kannattaa korpuksen keruuvaiheessa naputella järjestelmällisesti esim. Excel-taulukkoon, jonka jokainen rivi vastaa yhtä istuntoa (Session) ja kukin sarake tiettyä kuvailutietojen kenttää. Huolellisesti taulukoidut tiedot on myöhemmin mahdollista poimia automaattisesti XML/IMDI-muotoisiin tekstitiedostoihin, jolloin Arbilia ei välttämättä tarvita lainkaan. Arbililla voi toki kuitenkin vaikkapa luoda malliksi yhden XML-muotoisen istuntotiedoston ja muokata sitten sen kopioita tarpeen mukaan.

Kaikki käsin muokatut tai automaattisesti tuotetut XML-tiedostot on syytä validoida jonkin XML-editorin avulla, jotta muotovaatimukset täyttyvät eikä mukaan jää kirjoitusvirheitä.

Siirrä IMDI-tiedostot ja varsinainen aineisto LAT-alustalle

Kun kaikki korpuksen kuvailutiedot on koostettu, voidaan XML-muotoiset IMDI-tiedostot siirtää Lamus-työkalulla LAT-alustalle yhdessä varsinaisten aineistotiedostojen (mediatiedostot, annotaatiotiedostot) kanssa (ks. LAMUS-ohje).

Huom. Kun aineisto on siirretty LAT-alustalle, kaikki korpuksen IMDI-tietueeseen syötetyt kuvailutiedot näkyvät julkisesti koko maailmalle. Kuvailutietoihin ei siis pidä kirjoittaa esim. mitään yksilöiviä henkilötietoja, ellei niiden julkaisemiseen ole erillistä lupaa.

LAMUS-työkalulla voidaan kuvailutietoja ja korpuksen sisältöä vielä jälkikäteen tarvittaessa muokata ja vaihtaa. Tietojen päivittäminen ei kuitenkaan ole LAMUS-työkalulla kovin nopeaa ja suoraviivaista, ja lisäksi saatetaan samalla joutua muuttamaan korpuksen sisällä olevia pysyviä tunnisteita. Siksi onkin suositeltavaa tuottaa korpukselle kerralla mahdollisimman pysyvät ja yleispätevät kuvailutiedot ja selkeä, yksinkertainen rakenne.

Hae Kielipankki-portaalista:
Kuukauden tutkija: Maija Saviniemi

 

Tulevat tapahtumat

  1. Kurssi: Puheen analyysin perusteet

    28.10.201913.12.2019
  2. Course: Data Clinic 2019-20

    1.11.201917.4.2020

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317