LAT-ohjeet: Lamus ja oman aineiston vieminen LAT-palveluun

Lamus-palvelun aloitussivuHuom.: LAT ja Lamus poistuvat käytöstä vuonna 2020 mennessä. Uusia Lamus-tilejä ei enää oletusarvoisesti avata.

Lamus-työkalulla voit viedä omia tiedostojasi LAT-järjestelmään. Lamuksen käyttäminen vaatii Haka-kirjautumisen. Kielipankin ylläpitämä Lamus-palvelu löytyy osoitteesta http://lat.csc.fi/jkc/lamus/.

Huom. Ennen kuin voit viedä Lamus-työkalun avulla omaa aineistoasi LAT-palveluun, on Haka-käyttäjätunnuksesi aktivoitava LATia varten. Jos et ole ennen kirjautunut LATiin tai Lamukseen, pyydä tunnuksesi aktivointia lähettämällä ylläpitäjälle ling(att)csc.fi-osoitteeseen viesti, jossa kerrot käyttäjätunnuksesi (esim. mmeikala), sitä vastaavan sähköpostiosoitteesi (matti.meikalainen@helsinki.fi) sekä kotiorganisaatiosi (Helsingin yliopisto).

Englanninkieliset ohjeet: http://tla.mpi.nl/tools/tla-tools/lamus/

Työtilan avaaminen

Siirry selaimellasi osoitteeseen http://lat.csc.fi/jkc/lamus/. Käytä mieluiten Firefox-selainta, sillä kaikki selaimet eivät tue Lamusta.

Kun haluat luoda uuden korpuksen tai muokata jo LAT-palvelussa olevaa aineistoa (johon sinulla on muokkausoikeus), valitse Create new workspace.

Avoimeksi jääneen työtilan muokkausta voi jatkaa myös seuraavalla Lamus-kirjautumisella valitsemalla Select existing workspace.

Uuden työtilan luominen

  • Kun korpuspuu avautuu, klikkaa hiiren oikealla napilla sitä liitoskohtaa, johon haluat avata työtilan, ja valitse pudotusvalikosta select this node as the top node for a new workspace.
  • Kielipankin LAT-alustalla sinulla on oletusarvoisesti oikeus luoda työtila vain oman tunnuksesi mukaiseen solmuun Private-solmun alla, ei siis ylemmille tasoille tai muihin pääsolmuihin.
  • Jos olet siirtämässä aineistoa, josta on tehty tallennussopimus FIN-CLARINin kanssa, pyydä ylläpitäjää luomaan solmu Kielipankin hallinnoimalle LAT-alueelle ja antamaan sinulle siihen muokkausoikeus. FIN-CLARINin luvalla korpus voidaan julkaista esim. Public-, Academic- tai Restricted-noodien alla mahdollisine lisenssiteksteineen ja rajata halutulle käyttäjäkunnalle.
  • Mikäli toisella käyttäjällä tai ylläpitäjällä on Lamuksessa avoin työtila, johon valitsemasi liitoskohta sisältyy, et voi toistaiseksi avata työtilaa siihen (Lamus antaa virheilmoituksen). Toimenpide onnistuu vasta, kun toinen käyttäjä on sulkenut tai poistanut työtilansa.

Muut käyttäjät voivat käyttää aikaisemmin LAT-palveluun vietyjä tiedostoja normaalisti, vaikka sinulla olisikin samassa paikassa avoin työtila.

Tietyn noodin kohdalla voi olla kerrallaan avoinna vain yksi työtila, ts. avoimena olevan työtilan sisällä tai ylempänä samassa hierarkiassa oleviin noodeihin ei kukaan muu pysty samanaikaisesti luomaan työtilaa. Jos sinulla siis on omaa korpustasi laajemmat muokkausoikeudet, perusta työtilasi hierarkiassa niin syvälle kuin mahdollista, jottet turhaan varaisi muidenkin työaluetta.

Saman työtilan muokkausta voi jatkaa myös seuraavalla Lamus-kirjautumisella valitsemalla Select existing workspace. Samalla käyttäjällä voi olla useita avoimia työtiloja. Työtila on kuitenkin parasta sulkea heti työskentelyn päätyttyä joko lähettämällä valmiiksi linkitetyt tiedostot Submit-painikkeella tai poistamalla turha työtila Delete-painikkeella.

Työtilan muokkaaminen

Työtilassa voit muokata valitsemaasi alipuuta. Työtilaan kopioitu materiaali näkyy puukuvaimena selainikkunan vasemmassa laidassa samaan tapaan kuin IMDI-selaimessa ja Arbilissa. Pienimmillään siinä on vain työtilan top node, jonka valitsit työtilaa luotaessa.

Selainikkunan alareunassa on rivi painikkeita. Paneelin reunaa voi nostaa hiirellä, jos
painikkeet jäävät osittain vierityspalkin alle.

  • Voit viedä uusia tiedostoja työtilaan klikkaamalla Upload files.
  • Unlinked files näyttää työtilan irralliset solmut, free nodes. Listassa voi olla alipuita, joiden solmut on liitetty toisiinsa mutta ei (enää tai vielä) työtilan puuhun. Listassa voi olla myös kokonaan irrallisia solmuja.
  • Kun klikkaat hiiren oikealla napilla jotakin solmua puukuvaimessa, tulee näkyviin valikko, jossa on muokkauskomentoja:
    • Liitä irrallisia tiedostoja ko. solmuun (link).
    • Irrota solmu LAMUSin näyttämästä puukuvaimesta (unlink) ja liitä uuteen paikkaan samassa työtilassa.

Tiedostojen formaatti

Lamus on erittäin tarkka tiedostojen formaatista ja tukee vain rajoitettua määrää tiedostotyyppejä, koska tiedostomuotojen pysyvyys ja toimivuus on haluttu varmistaa mahdollisimman pitkälle tulevaisuuteen. Kielipankissa on tällä hetkellä asennettuna Lamus-työkalun versio 1.1.7.5.

Ääni, video ja annotaatiot

  • Ohjeet mediatiedostojen muuntamiseen (ffmpeg-työkalu)
    • Videotiedostojen täytyy olla MP4-muotoisia streaming-käyttöön tarkoitettuja tiedostoja.
    • Alkuperäisten, sellaisenaan kuunneltavien tai ladattavaksi tarkoitettujen äänitiedostojen pitää olla WAV-muotoisia. (Mm. MP3-tiedostoja ei tueta eikä niitä pysty lataamaan palvelimelle Lamuksella.)
    • Mikäli annotoituja äänitiedostoja halutaan selata Annex-työkalulla, on äänitiedostot tätä varten muunnettava MP4-muotoisiksi ja tiedostojen streamingiä tukeviksi tietyillä asetuksilla, ja ko. äänitiedostojen päätteen tulee olla .m4a (ks. ohje muuntamiseen ffmpegillä). Näiden äänitiedostojen rinnalle voidaan palvelimelle viedä myös alkuperäiset WAV-tiedostot (pääte .wav).
    • Englanninkielinen ohje ääni- ja videotiedostojen muuntamiseksi Lamuksen hyväksymään MP4-formaattiin QuickTime Pro 7 -ohjelmalla (maksullinen lisenssi)

Jotta aineistoa pystyisi katselemaan Annexilla tai tekemään siitä hakuja Trovalla, on aineistoa koskevan annotaation (esim. litteraation, segmentoinnin tai erilaisten merkkausten) oltava sopivassa muodossa. Hakukelpoisia formaatteja ovat

  • ääntä ja/tai videota sisältävälle aineistolle Elan-ohjelman käyttämä EAF-muoto. Tarvitset yhden Elanin tuottaman *.eaf*-päätteisen tiedoston kutakin ääni- tai videotiedostoa kohti. Katso ELAN-ohjeet. (EAF-tiedostoformaatin spesifikaatio)
  • pelkkää tekstiä sisältävälle aineistolle raakateksti (plain text), jonka tiedostopääte on .txt, tai html-muoto
  • LAT tukee nykyisin myös Praat-ohjelman TextGrid-muotoa. TextGrid-tiedostoista pystyy tekemään hakuja Trovalla, mutta niitä ei toistaiseksi voi selailla Annexilla (vastaavien äänitiedostojen kanssa). Annexia varten annotaatiotiedosto on siis muunnettava Elanilla EAF-muotoon.

Kuvat

LATiin voidaan viedä myös kuvatiedostoja. Kuvat voivat liittyä koko korpukseen tai tiettyyn äänitys-/videosessioon.

Teksti ja muu dokumentaatio

LATiin voidaan siirtää Lamuksella UTF-8-muotoisia raakatekstitiedostoja (pääte .txt) sekä PDF-dokumentteja.

Tekstitiedostot (.txt tai .pdf) voidaan liittää LATissa olevaan korpukseen muodossa ”annotation”, jolloin niistä tulee hakukelpoisia korpuksen osia ja niitä koskevat korpuksen muiden annotaatiotiedostojen käyttöoikeudet. Vaihtoehtoisesti tekstitiedostot voidaan liittää korpukseen tai sen osaan ”Info”-tiedostoina, jolloin niitä käsitellään LATissa korpukseen tai sen osaan liittyvänä dokumentaationa.

Kuvailutiedot ja korpuksen puurakenne

Lamuksessa korpuksen sisältämät aineistot on jaoteltava puurakenteeksi, joka tulee myöhemmin käyttäjien näkyviin IMDI-selaimessa. Korpuksen päänoodilla tai -solmulla on yleiset, koko korpusta koskevat kuvailutiedot (IMDI Corpus). Pääsolmu voidaan haluttaessa jakaa myös alisolmuihin tai alikorpuksiin. Hierarkian kasvattaminen on tarpeen erityisesti laajoissa aineistoissa, joihin liittyy paljon sessioita. Kullakin korpukseen tai alikorpukseen liittyvällä sessiolla on oma kuvailutiedostonsa.

Lamuksessa voidaan suoraan luoda ja nimetä yksinkertaisia korpusnoodeja ja sessioita ja liittää työtilaan siirretyt korpustiedostot näihin. Koska Lamuksella ei kuitenkaan voi lisätä mitään tarkempia tietoja, on vähänkään virallisemmalle korpukselle syytä tuottaa tarkemmat IMDI-muotoiset kuvailutiedot ensin Arbil-ohjelmalla. Arbililla tuotetut kuvailutiedot koostuvat joukosta _.imdi_-päätteisiä tekstitiedostoja, jotka siirretään työtilaan ja linkitetään haluttuun paikkaan.

Korpuspuun sessioihin voidaan Lamuksella liittää vastaavat mediatiedostot, annotaatiot ja muu korpuksen varsinainen sisältö. Mediatiedostot voi liittää korpukseen myös Arbilissa, jolloin ne on siirrettävä työtilaan yhtä aikaa IMDI-tiedostojen kanssa. Tässä tapauksessa Lamus osaa linkittää sisällöt suoraan oikeisiin paikkoihin. Eri kohtiin korpusta voidaan myös tarvittaessa lisätä tekstimuotoisia infotiedostoja (tiedostopääte .txt tai .pdf).

Kuvailutietoja ja tiedostonimiä suunnitellessa on hyvä muistaa, että kaikki Arbililla korpussolmuihin lisätyt tiedot ovat aina julkisia. Myös korpuksen sisältämät tiedostonimet ovat julkisia, vaikka käyttäjällä ei olisikaan tiedoston sisällön lukuoikeutta.

Lamus-työtilan koko

Oletuksena työtilasi koko on 10 GB. Jos yrität ladata kerralla enemmän tietoa, Lamus antaa latauksen päätyttyä virheilmoituksen. Tarvittaessa kannattaa viedä aineisto palvelimelle useammassa erässä ja lähettää välillä työtila päivitettäväksi, minkä jälkeen koko levytila on taas käytettävissä seuraavaa erää varten. Jos joudut säännöllisesti viemään LATiin erittäin isoja tiedostoja, pyydä Kielipankin ylläpidolta lisää Lamus-työtilaa.

Tiedostojen linkittäminen korpuksen rakenteeseen

  1. Mediatiedostot: ääni ja video (”Media files”)
    • Klikkaa hiiren oikealla napilla sitä sessiota, johon mediatiedosto pitää linkittää.
    • Valitse link node: link media file.
    • Rastita työtilaan lataamistasi tiedostoista, se, jonka haluat linkittää tähän sessioon. Klikkaa Link.
    • Hyväksy ehdotetut tiedostotyypit sellaisinaan: paina Submit.
  2. Mediatiedostoihin liittyvät annotaatiotiedostot sekä txt- tai pdf-muotoiset erilliset tekstidokumentit (”Written resources”)
    • Klikkaa hiiren oikealla napilla sitä sessiota, johon mediatiedosto pitää linkittää.
    • Valitse link node: link written resource.
    • Rastita työtilaan lataamistasi tiedostoista, se, jonka haluat linkittää tähän sessioon. Klikkaa Link.
    • Hyväksy seuraavassa näytössä ehdotetut tiedostotyypit (esim. annotation, analysis) sellaisinaan: paina submit.
  3. Linkitä muut dokumentit vastaavilla komennoilla.

Vanhan annotaatiotiedoston korvaaminen uudella

Jos haluat päivittää jo LATissa olevan annotaatiotiedoston, kannattaa Lamuksessa poistaa ensin vanha tiedostoversio. Jos et toimi tällä tavalla vaan valitset esim. replace -komennon, ilmestyy kyseisen tiedoston nimeen version mukainen indeksinumero IMDI-selaimessa, kun muutos on päivittynyt tietokantaan! Tämä voi olla häiritsevää, eikä tiedoston nimen muuttaminen Lamuksella (rename) auta.

  • Klikkaa korpuspuussa olevaa tiedostonimeä oikeanpuoleisella napilla ja valitse remove, jolloin solmu häviää näkyvistä. (Huom. poisto ei päivity tietokantaan, ennen kuin olet lähettänyt työtilan arkistoitavaksi!)
  • Linkitä kyseiseen sessioon uusi tiedostoversio normaalisti kuten edellisessä kohdassa on neuvottu.

Korpussolmun linkittäminen uuteen paikkaan

LATissa voi poistaa tietyn korpussolmun linkityksen (unlink node), jolloin sen alla olevat tiedostot ja metatiedot siirtyvät irrallisina työtilaan. Nämä voidaan haluttaessa linkittää uudestaan toiseen paikkaan. Huomaa kuitenkin, että LAT muistaa kyseisen solmun alkuperäisen sijainnin arkistossa, ja tämän sijainnin mukainen hakemistonimi pysyy solmun URL-osoitteessa myös uudessa paikassa, eikä osoitetta voi jälkikäteen muuttaa.

Esim. jos korpus on alunperin luotu Private-solmun alle ja korpus siirretään sieltä Public-solmun alle, pysyy osoitteessa alkuperäinen hakemisto tyyliin /Private/../uusikorpus.imdi.

Tietojen lähettäminen LAT-tietokantaan

Kun kaikki tiedostot on linkitetty oikeisiin noodeihinsa, voit painaa näytön alareunasta painiketta Submit workspace, jolloin tiedot viedään perille ja työtilasi tyhjentyy ja sulkeutuu. Huom. Tätä toimitusta ei voi perua – tarvittaessa voit vain avata uuden työtilan samaan paikkaan ja tehdä siihen lisää muutoksia.

Jos työtilassasi on linkittämättömiä tiedostoja, ne on linkitettävä tai poistettava ennen työtilan lähetystä.

Uusien tiedostojen päivittyminen LAT-palveluun saattaa kestää jonkin aikaa. Saat sähköpostiviestin, kun tiedot on viety tietokantaan. Tämän jälkeen uudet tiedot näkyvät myös IMDI-selaimessa ja ovat selailtavissa Annex-työkalulla. Päivitetyn aineiston näkeminen vaatii kuitenkin yleensä ainakin sivun uudelleenlatauksen selaimella (ts. käyttäjän on painettava selaimen Reload-nappia). Joissakin tapauksissa voi olla hyvä käynnistää koko selain uudelleen. (IMDI-selaimella voit tarvittaessa käydä muokkaamassa lisäämiesi uusien tiedostojen käyttöoikeuksia.)

Vasta päivityksen päättymisen jälkeen on mahdollista avata Lamus-palvelussa uusi työtila, joka sisältää kyseisen noodin.

Tietojen päivittyminen Trova-hakutyökaluun kestää yleensä seuraavaan aamupäivään asti.

Paljon äänitiedostoja?

Jos sinulla on suuri määrä esimerkiksi äänitiedostoja, jotka täytyisi siirtää LATiin, voi tiedonsiirto Lamuksella olla turhauttavaa ja kestää kauan. Siirrä tässä tapauksessa ensin kaikki tiedostot tavallisella tiedostonsiirto-ohjelmalla Kielipankin sovelluspalvelimelle vaikkapa omaan työhakemistoosi. Ota sitten yhteyttä Kielipankin LAT-ylläpitäjään (ling [att] csc.fi), joka voi siirtää tiedostot sovelluspalvelimelta suoraan Lamukseen ja auttaa sinua ”ohittamaan” Lamuksen tiedostonsiirtovaiheen.

Hae Kielipankki-portaalista:
Kuukauden tutkija: Maija Saviniemi

 

Tulevat tapahtumat

  1. Kurssi: Puheen analyysin perusteet

    28.10.201913.12.2019
  2. Course: Data Clinic 2019-20

    1.11.201917.4.2020

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317