Tutkimusta varten arkistoitavien äänitiedostojen tulee olla laadultaan ja tarkkuudeltaan tarkoituksenmukaisia.
Mitä suuremmalla tarkkuudella äänitiedosto tallennetaan, sitä enemmän levytilaa tiedosto vie. Suurikokoisten tiedostojen käsittely ja analyysi voi myös vaatia enemmän laskentatehoa. Aineistoa arkistoidessa täytyy ennakoida erilaisia tulevia tutkimustarpeita ja pyrkiä säilyttämään mahdollisesti hyödyllinen informaatio. Hyvissä olosuhteissa ja korkealaatuisilla laitteilla äänitettyä sekä korkealla resoluutiolla digitoitua äänisignaalia voidaan tutkia monipuolisesti sekä kuulonvaraisin että erilaisin teknisin menetelmin. Jos taas äänitteestä on olemassa vain heikolla resoluutiolla tallennettu tai häviöllisesti pakattu (esim. MP3-muotoinen) tiedosto, äänisignaalia ei voida enää jälkikäteen palauttaa parempaan tarkkuuteen.
Käytännön syistä on järkevää säilyttää aineistosta arkistokopiot riittävän suurella tarkkuudella ja tallentaa tiedostoista tarvittaessa matalammalla tarkkuudella ns. käyttökopioita, joiden käsitteleminen on teknisesti nopeampaa.
On hyvä huomata, ettei hienolla nauhurilla ja suurella digitointitarkkuudella ole mahdollista pelastaa tilannetta, jos mikrofonit on suunnattu väärin tai sijoitettu liian kauas halutuista äänilähteistä tai jos äänitystapahtuma on ollut muilta osin huonosti suunniteltu. Äänitiedoston näytetaajuuden nostaminen jälkikäteen ei myöskään ole sisällön kannalta hyödyllistä.
Suosittelemme äänitiedostojen näytekooksi eli näytesyvyydeksi (engl. bit depth) vähintään 16 bittiä, joka myös yleensä riittää tavanomaiseen äänitteiden analyysiin.
Näytetaajuudeksi (sample rate, sample frequency) suositellaan esimerkiksi puheen akustis-foneettista tutkimusta silmällä pitäen vähintään 22050 Hz (= 22,05 kHz). Puheteknologisissa sovelluksissa käytetään usein alempaa 16 kHz:n näytetaajuutta, jonka katsotaan riittävän kyseisiin tarkoituksiin.
Esimerkiksi CD-äänilevyissä käytetty näytetaajuus on 44100 Hz (44,1 kHz) ja näytesyvyys 16 bittiä. Digitaaliset CD:t on alun perin tarkoitettu musiikin vivahteista kiinnostuneen ihmisen kuunneltaviksi, ja 44100 Hz:n näytetaajuuden avulla voidaankin tallentaa enintään 22050 Hz:n taajuisia ääniä. Hyvillä laitteilla ihmisen kuuloalueen ylärajaa hipovia ääniä voidaan ainakin periaatteessa myös toistaa. CD-levyt ovat myös kaksikanavaisia stereoäänitteitä. Stereoäänitiedoston koko on kaksinkertainen yksikanavaiseen ts. monoäänitiedostoon verrattuna.
Jos sinulla on omalla koneellasi yhdessä kansiossa vaikkapa wav-päätteisiä äänitiedostoja ja haluaisit saada niistä kopiot tietyllä taajuudella näytteistettyinä, kokeile SpeCT-kokoelmaan kuuluvaa Praat-skriptiä change_sample_rate_in_folder.praat.
Komentoriviin tottuneet käyttäjät voivat näytteistää äänitiedostoja nopeasti esimerkiksi unix-pohjaisista järjestelmistä löytyvällä sox-työkalulla. Pienillä muutoksilla myös edellä mainittua Praat-skriptiä on mahdollista käyttää komentoriviltä. Ilman graafista käyttöliittymää se toimii huomattavasti nopeammin.
Kun ryhdyt käsittelemään Kielipankista saatua, henkilötietoja sisältävää aineistoa uuteen tarkoitukseen, sinun on tehtävä käsittelytarkoitusta koskeva tietosuojailmoitus, julkaistava se avoimesti sähköisessä muodossa ja toimitettava ilmoituksen linkki Kielipankille. Tietosuojailmoituksen tarkoituksena on auttaa rekisteröityjä ymmärtämään, millaisiin tarkoituksiin heidän tietojaan käytetään.
Kielipankin sivuilla on nyt ohjeet, joiden tarkoitus on helpottaa tarvittavien tietojen keräämistä tietosuojailmoitusta varten. Huomaa kuitenkin, että sinun tulee noudattaa henkilötietojen käsittelyssä aina ensisijaisesti oman organisaatiosi antamia tietosuojaohjeita.
Tietosuojailmoitus – ohjeita tutkijoille
When you obtain a resource containing personal data from the Language Bank of Finland (Kielipankki) and start processing it for a new purpose, you must prepare a privacy notice regarding the purpose of processing, publish the notice openly in electronic format, and provide a link to the notice to the Language Bank. (lisää…)
<< Donate Speech resource page (commercial / non-academic use)
The Donate Speech datasets contain audio recordings of speech and written transcripts of the recordings. It is possible that an individual speaker could be identified at least indirectly by combining information included in the resource. Therefore, the resource contains personal data according to the General Data Protection Regulation (GDPR).
When processing the Donate Speech data for the purposes of a company or a non-academic organization, the company/organization must maintain a public record of the processing of personal data related to the Donate Speech resources, and a link to the document must be provided to the Language Bank. The purpose of the privacy statement is to help data subjects understand the purposes for which their data is used.
For more information on the processing of personal data and information for data subjects, see the website of the Data Protection Ombudsman.
Kielipankki – The Language Bank of Finland and the University of Helsinki are not responsible for the content, accuracy, legality or timeliness of the documentation produced by the company/organisation.
At least the following details are usually required for a privacy notice. However, please check the Data Protection Ombudsman’s website for up-to-date guidance.
General terms for using the Donate Speech data (companies and non-academic organizations)
<< Donate Speech resource page (commercial / non-academic use)
Last updated: 9.5.2023
Persistent Identifier of this page: urn:nbn:fi:lb-2023042024
<< Lahjoita puhetta -aineistosivu (yritykset)
Lahjoita puhetta -aineistopaketit sisältävät puheäänitteitä ja niiden tekstimuotoisia litteraatteja. Koska on mahdollista, että yksittäinen puhuja olisi tunnistettavissa ainakin epäsuorasti aineistossa esiintyviä tietoja yhdistelemällä, aineisto sisältää tietosuoja-asetuksessa tarkoitettuja henkilötietoja.
Kun Kielipankin kautta saatua Puhelahjat-aineistoa käsitellään yrityksen tarkoituksiin, yrityksen tulee ylläpitää julkista selostetta aineistoon liittyvien henkilötietojen käsittelystä ja toimittaa dokumentin linkki Kielipankille. Selosteen tarkoitus on auttaa rekisteröityjä ymmärtämään, millaisiin tarkoituksiin heidän tietojaan käytetään.
Lisätietoa henkilötietojen käsittelystä ja rekisteröityjen informoinnista on tietosuojavaltuutetun sivuilla, https://tietosuoja.fi/rekisteroidyn-informointi.
Kielipankki ja Helsingin yliopisto eivät vastaa yrityksen/organisaation tuottaman dokumentaation sisällöstä, oikeellisuudesta, lainmukaisuudesta tai ajantasaisuudesta.
Alla on lueteltu tietoja, joita yleensä ainakin tarvitaan tietosuojailmoitukseen. Tarkistathan ajantasaiset ohjeet tietosuojavaltuutetun sivuilta.
<< Lahjoita puhetta -aineistosivu (yritykset)
Viimeksi päivitetty: 9.5.2023
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2023042023
Kun ryhdyt käsittelemään Kielipankista saatua, henkilötietoja sisältävää aineistoa uuteen tarkoitukseen, sinun on tehtävä käsittelytarkoitusta koskeva tietosuojailmoitus, julkaistava se avoimesti sähköisessä muodossa ja toimitettava ilmoituksen linkki Kielipankille. (lisää…)
Tälle sivulle kootaan tekijänoikeuksiin liittyviä kysymyksiä ja ohjeita.
Linkkien takaa löytyvillä videoilla FIN-CLARINin tutkimusjohtaja Krister Lindén haastattelee lakimies Pekka Heikkistä, joka vastaa kääntämisen tutkielmaseminaarin opiskelijoiden ja opettajien esittämiin kysymyksiin.
Määritelmä. Suhde muihin aineettomiin oikeuksiin. Tekijännokeudella on taloudellinen ja moraalinen puoli. Mitä seuraa luvatta käyttämisestä?
Käyttörajoituksista yleensä. Tekijänoikeus on omaperäisyyden suoja. Tietosuoja suojaa henkilöihin liittyviä tietoja.
Henkilötiedot tutkimustarkoitukseen vaativat joko suostumuksen tai yleisen edun mukaista tieteellistä tutkimusta, jonka tunnusmerkit ovat mm. vastuullinen tutkija ja tutkimussuunnitelma.
”Minkälaisia tekijänoikeuksia liittyy julkishallinnon, viranomaisten tai poliitikkojen Twitter-tileiltä lähetettyjen twiittien käyttöön osana tutkimusaineistoa. Jos tutkii maisterintutkielmassa tietyllä periodilla tapahtunutta viranomaisviestintää ja sen välittymistä kansalaisille:saako käyttää esimerkiksi Aluehallintovirasto AVIn twiittejä aineistossa vapaasti vai tuleeko minun kysyä niiden käytöstä lupa, entä julkisten henkilöiden, esimerkiksi poliitikkojen twiittejä?”
Riittävän pitkä Twiitti voi olla suojattu, mutta viranomaisten lausumat ovat tekijänoikeudesta vapaa. Rajatapus on siinä, onko twiitti viranomaisena annettu vai henkilökohtainen.
Sitaattioikeus antaa mahdollisuuden siteerata hyvän tavan mukaisesti tarvittavassa laajuudessa. Myös esim. maalauksia voi käyttää sitaatteina, jos voidaan vedota siihen, että se on tarpeen tutkimuksen näkökulmasta.
Henkilökohtainen kopio voi ottaa ilman lupaa siitä, mihin on laillinen pääsy tutkimusvaiheessa ja myös kaveripiirin käyttöä varten, mutta sitä ei voi saattaa saataville siitä eteenpäin, joten tämä voi olla ongelma siinä vaiheessa, kun kerätyn aineiston haluaisi jakaa muiden kanssa.
”Liittyen elokuvien tekijänoikeuksiin, mikäli haluaa käyttää elokuvan ruutukaappauksia gradussa, lukeutuvatko nämä opetukseen ja koulutukseen kuuluviksi materiaaleiksi (eli onko ok liittää tutkielmaan), vai tuleeko hankkia lisenssi elokuvan ulkomaiselta/suomalaiselta tuottajayhtiöltä tms., jos kyseessä on amerikkalainen animaatio?”
Kuvasitaattisäännös koskee myös elokuvan ruutukaappauksia, kuten edellisessä vastauksessa mainittiin.
”Jos tutkii videopelien tai elokuvan multimodaalista kerrontaa, voiko ottaa kuvakaappauksia pelistä ja sisällyttää ne graduuni? Mistä haen luvan?”
Myös tähän sopii kuvasitaattisäännös. Pelituottajilla ei ole omaa tekijänoikeusorganisaatiota, josta voisi hakea luvan keskitetysti, mutta jos haluaa pätkän elokuvasta, voi ottaa yhteyttä Audio Visual Finland -järjestöön.
”Jos tutkii videopelin dialogeja, saako gradun liitteenä olla kyseisen pelin dialogilista? Entä voiko tällainen liite olla osa gradua, jos gradu on julkinen? Voiko e-thesiksessä julkaistusta gradusta jättää julkaisematta pelkästään mahdolliset tekijänoikeuden alaiset liitteet?”
Jos dialogilista tarkoittaa lista dialogeista, se ei ylitä teoskynnystä, vaikka yksittäisellä videopelin dialogilla on tekijänoikeus. Gradun voi toki jättää ilman liitteitä, mutta tässä voi tulla vastaan yliopston tieteellisen työn vaatimukset. Dialogia voisi kenties lainata tarpeellisessa laajuudessa itse gradussa ja kommentoida sitä mukaa kun se on tarpeen.
”Jos tekee kontrastiivista tutkimusta tekstityksen konventioiden vastaanotosta, saako esittää otteen tekstitetystä elokuvasta koeyleisölle? Jos ei, miten voi toimia? Entä saako tehdä samaan elokuvaotteeseen omia tekstityksiä vastaanottoeroja tutkiessa? Voiko näitä esittää?”
Käännös on oma tekijänoikeutensa. Jos tehdään kokonaan uusi se on uuden kääntäjän. Jos tehdään vain pieni muunnos, syntyy yhteisteos, johon sekä uudella että alkuperäisellä kääntäjällä on oikeus.
Yleisön saatavaille saattamista riippuu siitä onko yleisö ennalta rajattu henkilöjoukko, jolloin jos tutkija kutsuu ennalta nimetyt n. 10 henkilöä katsomaan ja arvioimaan elokuvaa, tämä ei ole julkista esittämistä.
Käännöstekstitystä voi toki tutkia myös esim. CC-BY-lisensioiduilla YouTube-videoilla, jolloin aineisto on vapaasti kaikkien arvioitavana ja päätelmien tieteellinen arviointi onnistuu helpommin.
”Jos tekee silmänliiketutkimusta elokuvaotteesta, onko elokuvan esittäminen kymmenelle ihmiselle yksitellen ja erikseen julkinen esitys? Kun elokuvaan sitten projisoi koehenkilöiden silmänliikkeet ja tämän ”tutkimustuloksen” esittää esimerkiksi luokkahuoneessa, onko teosta muokattu? Saako niin ylipäätään tehdä?”
Kymmenelle henkilölle sen voinee esittää kuten edellisessä vastauksessa todettiin. Tällaiselle koeyleisölle voinee myös esittää tutkimustuloksen. Kun tulosta halutaan näyttää luokkahuoneessa, joutunee hankkimaan luvan, ellei ole käyttänyt esim. aikaisemmin mainittua CC-BY videota.
”Onko Helsingin yliopistolla opiskelijoille olemassa valmista tekijänoikeusluvan hakemuspohjaa tai ylipäätään parhaita käytänteitä helpottamaan opiskelijoiden tutkimusprojektien etenemistä?”
Tekijänoikeudesta voi sopia melko vapaamuotoisesti. Siihen voi riittää jopa sähköpostiviesti oikeudenhaltijalta. Sopimukset ovat perinteisesti pitkä lähinnä sen takia, että halutaan varautua monenlaisiin ongelmatilanteisiin.
”Kuinka pitkistä prosesseista on kysymys, kun haetaan teoksen käyttölupaa tutkimukseen?”
Yksttäinen käyttö yhteen tarkoitukseen onnistuu yleensä hyvin nopeasti eikä ole kovin kallista suoraan tekijänoikeusorganisaatiolta. Ison aineiston saaminen useampaan tarkoitukseen on taas haastavampi.
Kopiostolla on tekijänoikeuteen liittyen Kopiraittila https://kopiraittila.fi/, josta selviää monia perusasioita.
”Mistä löydän teoksen (elokuvan/videopelin ja näiden suomennosten) tekijänoikeuksien haltijan?”
Tuottajalla on aika laajasti tiedot hallussaan, mutta mitään yleistä rekisteriä ei ole olemassa tekijänoikeuden haltijoista.
Jos oikeudenhaltija ei perusteellisten etsintöjen jälkeen löydy ja siitä ilmoittaa EU:n teollisoikeuksien virastolle, teosta voi sen jälkeen käyttää ilman lupaa. Tällainen selvitys on kuitenkin melko isotöinen.
”Saako julkisesta Facebook-ryhmästä lainata keskustelujen kommentteja tutkielmaan tai julkaistavaan artikkeliin ilman kirjoittajien lupaa? Jos saa, niin pitääkö kirjoittajien anonymiteettiä kuitenkin suojella? Entäpä Twitter tai Instagramin kaikille näkyvät julkaisut?”
Varsin lyhytkin teksti voi ylittää teoskynnyksen, mutta kommentit voidaan lainata hyvän tavan mukaisesti, kunhan mainitsee tekijän nimen. Jos tekijä puhuu muista, niistä on kuitenkin syytä käyttää pseudonymia.
Mikäli kieliaineistosi sisältää tekstiä, sen käsitteleminen on tehokkainta, jos aineisto on tallennettu raakatekstinä ja UTF-8-merkistökoodauksella. Tässä neuvotaan, miten se tapahtuu.
Jos tekstiä sisältävä aineistosi on tallennettu esimerkiksi Word-dokumentteina, voit käsitellä aineistoa vain Wordilla tai sen kanssa yhteensopivilla ohjelmilla. Word-dokumentti ei myöskään ole sellaisenaan arkistointikelpoinen muoto. Kun aineistosi on tallennettu raakatekstitiedostoina (plain text) ja lisäksi UTF-8-merkistökoodauksella, voit avata ja käsitellä tiedostoja tehokkaasti monenlaisilla kätevillä työkaluilla sekä Kielipankissa että sen ulkopuolella.
Raakatekstitiedosto sisältää kuitenkin vain merkkejä. Siihen eivät tallennu esimerkiksi Wordilla tehdyt tekstin asettelut, lihavointi tai kursiivi. Jos tarvitset tekstidokumenteista myös taitetut tai muotoillut versiot ihmisten luettaviksi, tallenna sellaiset erikseen. Pysyvää arkistointia varten taitetuista dokumenteista on syytä tehdä esimerkiksi pdf-muotoisia.
Tarvittaessa myös raakatekstin joukkoon voidaan lisätä erilaisia merkkauksia, joilla osoitetaan, missä kohtaa on vaikkapa kappaleen vaihto tai otsikko. Tällaiset merkkaukset kannattaa tehdä jossakin XML-yhteensopivassa muodossa (esim. TEI/XML), jolloin niitä voidaan ohjelmallisesti hyödyntää.
Jos alkuperäinen tiedosto on tehty Microsoft Word -ohjelmalla tai se on esim. RTF-muotoinen, toimi seuraavasti:
Unicode on kansainvälinen merkistöstandardi, jonka avulla lähes kaikki maailman kielet ja niissä käytetyt erikoismerkit voidaan kuvata yksiselitteisesti ja yhteensopivalla tavalla. Jokaisella Unicode-standardissa määritellyllä merkillä on yksilöllinen koodi. Koodeja on määritelty jopa yli 100 000 erilaiselle merkille. Unicode-standardi on otettu laajasti käyttöön, ja lähes kaikki nykyiset tekstiä prosessoivat sovellusohjelmat tukevat sitä.
UTF-8 on Unicode-standardin 8-bittinen koodaustapa. Se on osittain yhteensopiva niiden vanhempien järjestelmien kanssa, joissa merkkikoodeja käsitellään 8-bittisinä. UTF-8-muotoisen tiedoston sisältämät merkit näyttävät samoilta kaikilla tietokoneilla ja kaikissa käyttöjärjestelmissä, jos tiedostoa käytetään ohjelmalla, joka tukee Unicode-standardia ja UTF-8-tiedostoja. Useimmat nykyiset sovellukset tukevat ainakin UTF-8-merkistökoodausta.
UTF-16 on puolestaan Unicode-merkkien 16-bittinen koodaustapa, jossa jokaista merkkiä kuvataan aina kahden 8 bitin tavun muodostamana parina. UTF-16 on vielä hiukan harvinaisempi kuin UTF-8.
Kaikki Kielipankin tarjoamat työkalut edellyttävät, että käsiteltävät tekstitiedostot ovat UTF-8-muotoisia.
Voit esimerkiksi