Aineiston tekninen muoto

Kansallisen digitaalisen kirjaston (KDK) suositukset tiedostoformaateista

Tekstiaineistot

Kaikkien Kielipankkiin tallennettavien ja Kielipankin työkaluilla käsiteltävien tekstitiedostojen pitää olla merkistökoodaukseltaan lähtökohtaisesti UTF-8-muotoisia. Näin varmistetaan, että myös erikoismerkit siirtyvät ja näkyvät oikein ja tulevat käsitellyiksi oikein eri koneilla ja eri ympäristöissä. Ohje oletusmerkistön vaihtamiseen Unicodeksi (UTF-8) CSC:n laskentaympäristössä.

Kielipankkiin talletettavan tekstiaineiston on varminta olla raakatekstinä, XML-muodossa tai muussa hyvin määritellyssä, koneluettavassa muodossa.

Mikäli aineistoon liittyy muita dokumentteja, joita ei voida tallentaa raakatekstinä, kannattaa formaatiksi valita PDF-A.

Jos haluat, että aineistosi julkaistaan Korp-palvelussa, katso täältä joitakin ohjeita sopivasta formaatista. Kysy tarvittaessa lisää FIN-CLARINin Korp-yhteyshenkilöltä, Jyrki Niemeltä (_jyrki.niemi [AT] helsinki.fi_). Voit katsoa malliksi myös vanhaa kuvausta Kielipankissa olevien tekstikorpusten annotaatiosta.

Kielipankin palveluiden ja aineistojen teknisestä ylläpidosta ja säilytyksestä vastaa CSC (kielipankki [AT] csc.fi).

Ääntä sisältävät aineistot

Äänitiedostojen formaattina tulee olla mieluiten WAV-PCM. WAV-äänitiedostoille suositellaan näytetaajuudeksi mieluiten vähintään 44100 Hz, mutta ehdottomasti ei alle 22050 Hz. Näytteen bittisyvyyden (= näytteen koko) on syytä olla tavallista kuuntelukäyttöäkin varten vähintään 16 bittiä. Pitkäaikaissäilytystä varten kannattaa etenkin arvokkaista ja/tai akustisesti korkealaatuisissa olosuhteissa tallennetuista äänitteistä tallentaa erikseen arkistokappaleet tai ns. masterversiot jopa 96 kHz:n (96000 Hz) ja 24 bitin näytteistyksellä. Huippulaatuisia arkistokappaleita ei kuitenkaan yleensä tallenneta LAT-alustalle vaan esimerkiksi Kielipankin suljettuun arkistoon. Korkealaatuisista arkistokappaleista voidaan milloin tahansa tuottaa vähemmän levytilaa vieviä, heikkolaatuisempia ja pakattuja käyttökopioita. Huomaa, että arkistokappaleet tuotetaan aina alkuperäisestä äänitteestä tai tiedostosta. Toisin sanoen WAV-muotoisen arkistokopion tulisi olla näytetaajuudeltaan ja bittisyvyydeltään sama kuin alkuperäinen digitaalinen tiedosto. Äänitiedoston näytetaajuutta ei voi tai kannata nostaa jälkikäteen, sillä äänitteen laatu ei siitä parane.

LATin Annex-työkalussa käytetään myös !M4A-muotoisia pakattuja äänitiedostoja (ks. konvertointiohjeet), mutta niiden rinnalle on suotavaa tallentaa myös samojen tiedostojen WAV-muotoiset, pakkaamattomat versiot em. vähimmäistarkkuudella.

LAT-alustalle ei voi siirtää MP3-muotoisia äänitiedostoja. MP3 on häviöllisesti pakattu formaatti, jota kannattaa käyttää ainoastaan äänitteiden käyttökopioina, ei pitkäaikaissäilytyksessä eikä akustisessa tutkimuksessa. Mikäli alkuperäinen aineisto on kuitenkin olemassa ainoastaan MP3-muodossa, voidaan se hätätilassa muuntaa sopivaan WAV-muotoon LAT-alustaa varten.

Lisätietoja pitkäaikaissäilytykseen soveltuvista tiedostoformaateista (KDK)

Äänitallenteiden tulisi mieluiten olla litteroituja ja annotoituja , ks. annotointiohjeet. Perusannotaation tekemiseen suositellaan Praat-ohjelmaa tai ELAN-ohjelmaa. Praat- ja ELAN-muotoiset annotaatiotiedostot voidaan viedä sellaisinaan LAT-palveluun. ELAN-ohjelman tiedostomuotoa käyttämällä voidaan parhaiten hyödyntää LAT-alustan hakumahdollisuuksia, ja ELAN-ohjelmalla voidaan tehdä LAT-alustan Trova-työkalun tapaisia hakuja myös paikallisesti. Praatilla tehdyt annotaatiotiedostot voidaan muuntaa Elan-muotoon ja päinvastoin.

Jos aineisto on tarkoitus tuoda saataville LAT-palvelun kautta siten, että annotaatiota voidaan selailla ja ääntä kuunnella Annex-työkalulla, katso tarkempia ohjeita äänitiedostojen formaatista. Kysy tarvittaessa lisää FIN-CLARINin LAT-yhteyshenkilöltä, Mietta Lennekseltä (_mietta.lennes [AT] helsinki.fi_).

Videota sisältävät aineistot

Kuten äänitiedostoistakin, myös videoista on järkevää säilyttää mahdollisimman hyvälaatuiset arkistokopiot. Mikäli alkuperäisen, arkistolaatuisen videon formaattiin voidaan vaikuttaa, sen on hyvä olla jokin tunnettu ja laajasti käytetty muoto. Koodekin tulisi olla mieluiten joko pakkaamaton tai häviöttömästi pakattu. Arkistokäyttöön tulevaa videota ei pidä tuottaa muuntamalla alkuperäistä videotallennetta koodekista toiseen, ellei ole täyttä varmuutta siitä, että sen resoluutio ja laatu säilyy samana. Myös tutkimuskäytössä tarvitaan usein korkearesoluutioisia videoita. Verkon yli käytettävät selailuversiot saavat kuitenkin olla tarkkuudeltaan huomattavasti heikompia.

Lisätietoja pitkäaikaissäilytykseen soveltuvista tiedostoformaateista (KDK)

Videon ääniraita/ääniraidat kannattaa myös tallentaa aluksi mahdollisimman korkealla näytteistyksellä, esim. 48 kHz.

Jos aineisto on tarkoitus tuoda saataville LAT-palvelun kautta siten, että annotaatiota voidaan selailla ja videota katsella Annex-työkalulla, katso tarkempia ohjeita LAT-alustalle siirrettävien videotiedostojen formaatista. Arkistokopiot kannattaa kuitenkin säilyttää erikseen alkuperäisessä muodossa. Kysy tarvittaessa lisää FIN-CLARINin LAT-yhteyshenkilöltä, Mietta Lennekseltä (_mietta.lennes [AT] helsinki.fi_).

Videotallenteiden tulisi mieluiten olla litteroituja ja annotoituja , ks. annotointiohjeet. Litterointiin ja muun perusannotaation tekemiseen suositellaan ELAN-ohjelmaa, jolloin annotaatiotiedosto on suoraan siirrettävissä myös LAT-alustalle. ELAN-ohjelmalla tehtyihin annotaatiotiedostoihin voidaan linkittää useita ääni- ja videotiedostoja yhtä aikaa.

Praat ei toistaiseksi tue videota. Videotiedoston ääniraita on kuitenkin mahdollista tarvittaessa erottaa omaksi tiedostokseen, jolloin sitä voidaan käsitellä tai annotoida Praatilla.

Kysy tarvittaessa lisää FIN-CLARINin LAT-yhteyshenkilöltä, Mietta Lennekseltä (_mietta.lennes [AT] helsinki.fi_).

Kieliaineiston annotointiohjeet

Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317