Aineiston tekninen muoto

Tekstiaineistot

Kaikkien Kielipankkiin tallennettavien ja Kielipankin työkaluilla käsiteltävien tekstitiedostojen pitää olla merkistökoodaukseltaan lähtökohtaisesti UTF-8-muotoisia. Näin varmistetaan, että myös erikoismerkit siirtyvät ja näkyvät oikein ja tulevat käsitellyiksi oikein eri koneilla ja eri ympäristöissä. Ohje oletusmerkistön vaihtamiseen Unicodeksi (UTF-8) CSC:n laskentaympäristössä.

Kielipankkiin talletettavan tekstiaineiston on varminta olla raakatekstinä, XML-muodossa tai muussa hyvin määritellyssä, koneluettavassa muodossa.

Mikäli aineistoon liittyy muita dokumentteja, joita ei voida tallentaa raakatekstinä, kannattaa formaatiksi valita PDF-A.

Jos haluat, että aineistosi julkaistaan Korp-palvelussa, katso täältä joitakin ohjeita sopivasta formaatista. Kysy tarvittaessa lisää FIN-CLARINin Korp-yhteyshenkilöltä, Jyrki Niemeltä (_jyrki.niemi [AT] helsinki.fi_). Voit katsoa malliksi myös vanhaa kuvausta Kielipankissa olevien tekstikorpusten annotaatiosta.

Kielipankin palveluiden ja aineistojen teknisestä ylläpidosta ja säilytyksestä vastaa CSC (kielipankki [AT] csc.fi).

Ääntä sisältävät aineistot

Äänitiedostojen formaattina tulee olla mieluiten WAV-PCM. WAV-äänitiedostoille suositellaan näytetaajuudeksi mieluiten vähintään 44100 Hz, mutta ehdottomasti ei alle 22050 Hz. Näytteen bittisyvyyden (= näytteen koko) on syytä olla tavallista kuuntelukäyttöäkin varten vähintään 16 bittiä. Pitkäaikaissäilytystä varten kannattaa etenkin arvokkaista ja/tai akustisesti korkealaatuisissa olosuhteissa tallennetuista äänitteistä tallentaa erikseen arkistokappaleet tai ns. masterversiot jopa 96 kHz:n (96000 Hz) ja 24 bitin näytteistyksellä. Huippulaatuisia arkistokappaleita ei kuitenkaan yleensä tallenneta julkiselle alustalle vaan esimerkiksi Kielipankin suljettuun arkistoon. Korkealaatuisista arkistokappaleista voidaan milloin tahansa tuottaa vähemmän levytilaa vieviä, heikkolaatuisempia ja pakattuja käyttökopioita. Huomaa, että arkistokappaleet tuotetaan aina alkuperäisestä äänitteestä tai tiedostosta. Toisin sanoen WAV-muotoisen arkistokopion tulisi olla näytetaajuudeltaan ja bittisyvyydeltään sama kuin alkuperäinen digitaalinen tiedosto. Äänitiedoston näytetaajuutta ei voi tai kannata nostaa jälkikäteen, sillä äänitteen laatu ei siitä parane.

Äänitallenteiden tulisi mieluiten olla litteroituja ja annotoituja , ks. annotointiohjeet. Perusannotaation tekemiseen suositellaan Praat-ohjelmaa tai ELAN-ohjelmaa. Praatilla tehdyt annotaatiotiedostot voidaan muuntaa Elan-muotoon ja päinvastoin.

Kysy tarvittaessa lisää FIN-CLARINin puheaineistoyhteyshenkilöltä, Mietta Lennekseltä (_mietta.lennes [AT] helsinki.fi_).

Videota sisältävät aineistot

Kuten äänitiedostoistakin, myös videoista on järkevää säilyttää mahdollisimman hyvälaatuiset arkistokopiot. Mikäli alkuperäisen, arkistolaatuisen videon formaattiin voidaan vaikuttaa, sen on hyvä olla jokin tunnettu ja laajasti käytetty muoto. Koodekin tulisi olla mieluiten joko pakkaamaton tai häviöttömästi pakattu. Arkistokäyttöön tulevaa videota ei pidä tuottaa muuntamalla alkuperäistä videotallennetta koodekista toiseen, ellei ole täyttä varmuutta siitä, että sen resoluutio ja laatu säilyy samana. Myös tutkimuskäytössä tarvitaan usein korkearesoluutioisia videoita. Verkon yli käytettävät selailuversiot saavat kuitenkin olla tarkkuudeltaan huomattavasti heikompia.

Videon ääniraita/ääniraidat kannattaa myös tallentaa aluksi mahdollisimman korkealla näytteistyksellä, esim. 48 kHz. Arkistokopiot kannattaa säilyttää erikseen alkuperäisessä muodossa. Kysy tarvittaessa lisää FIN-CLARINin puheaineistoyhteyshenkilöltä, Mietta Lennekseltä (_mietta.lennes [AT] helsinki.fi_).

Videotallenteiden tulisi mieluiten olla litteroituja ja annotoituja , ks. annotointiohjeet. Litterointiin ja muun perusannotaation tekemiseen suositellaan ELAN-ohjelmaa. ELAN-ohjelmalla tehtyihin annotaatiotiedostoihin voidaan linkittää useita ääni- ja videotiedostoja yhtä aikaa.

Praat ei toistaiseksi tue videota. Videotiedoston ääniraita on kuitenkin mahdollista tarvittaessa erottaa omaksi tiedostokseen, jolloin sitä voidaan käsitellä tai annotoida Praatilla.

Kysy tarvittaessa lisää FIN-CLARINin puheaineistoyhteyshenkilöltä, Mietta Lennekseltä (_mietta.lennes [AT] helsinki.fi_).

Kieliaineiston annotointiohjeet

Hae Kielipankki-portaalista:
Emmi LahtiKuukauden tutkija: Emmi Lahti

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317