<< Donate Speech resource page (commercial / non-academic use)
The Donate Speech datasets contain audio recordings of speech and written transcripts of the recordings. It is possible that an individual speaker could be identified at least indirectly by combining information included in the resource. Therefore, the resource contains personal data according to the General Data Protection Regulation (GDPR).
When processing the Donate Speech data for the purposes of a company or a non-academic organization, the company/organization must maintain a public record of the processing of personal data related to the Donate Speech resources, and a link to the document must be provided to the Language Bank. The purpose of the privacy statement is to help data subjects understand the purposes for which their data is used.
For more information on the processing of personal data and information for data subjects, see the website of the Data Protection Ombudsman.
Kielipankki – The Language Bank of Finland and the University of Helsinki are not responsible for the content, accuracy, legality or timeliness of the documentation produced by the company/organisation.
At least the following details are usually required for a privacy notice. However, please check the Data Protection Ombudsman’s website for up-to-date guidance.
General terms for using the Donate Speech data (companies and non-academic organizations)
<< Donate Speech resource page (commercial / non-academic use)
Last updated: 9.5.2023
Persistent Identifier of this page: urn:nbn:fi:lb-2023042024
<< Lahjoita puhetta -aineistosivu (yritykset)
Lahjoita puhetta -aineistopaketit sisältävät puheäänitteitä ja niiden tekstimuotoisia litteraatteja. Koska on mahdollista, että yksittäinen puhuja olisi tunnistettavissa ainakin epäsuorasti aineistossa esiintyviä tietoja yhdistelemällä, aineisto sisältää tietosuoja-asetuksessa tarkoitettuja henkilötietoja.
Kun Kielipankin kautta saatua Puhelahjat-aineistoa käsitellään yrityksen tarkoituksiin, yrityksen tulee ylläpitää julkista selostetta aineistoon liittyvien henkilötietojen käsittelystä ja toimittaa dokumentin linkki Kielipankille. Selosteen tarkoitus on auttaa rekisteröityjä ymmärtämään, millaisiin tarkoituksiin heidän tietojaan käytetään.
Lisätietoa henkilötietojen käsittelystä ja rekisteröityjen informoinnista on tietosuojavaltuutetun sivuilla, https://tietosuoja.fi/rekisteroidyn-informointi.
Kielipankki ja Helsingin yliopisto eivät vastaa yrityksen/organisaation tuottaman dokumentaation sisällöstä, oikeellisuudesta, lainmukaisuudesta tai ajantasaisuudesta.
Alla on lueteltu tietoja, joita yleensä ainakin tarvitaan tietosuojailmoitukseen. Tarkistathan ajantasaiset ohjeet tietosuojavaltuutetun sivuilta.
<< Lahjoita puhetta -aineistosivu (yritykset)
Viimeksi päivitetty: 9.5.2023
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2023042023
Kun ryhdyt käsittelemään Kielipankista saatua henkilötietoja sisältävää aineistoa uuteen tarkoitukseen, sinun on tehtävä käsittelytarkoitusta koskeva tietosuojailmoitus, julkaistava se avoimesti sähköisessä muodossa ja toimitettava ilmoituksen linkki Kielipankille.
Tälle sivulle tulee ohjeita tietosuojailmoituksen koostamista varten.
Tälle sivulle kootaan tekijänoikeuksiin liittyviä kysymyksiä ja ohjeita.
Linkkien takaa löytyvillä videoilla FIN-CLARINin tutkimusjohtaja Krister Lindén haastattelee lakimies Pekka Heikkistä, joka vastaa kääntämisen tutkielmaseminaarin opiskelijoiden ja opettajien esittämiin kysymyksiin.
Määritelmä. Suhde muihin aineettomiin oikeuksiin. Tekijännokeudella on taloudellinen ja moraalinen puoli. Mitä seuraa luvatta käyttämisestä?
Käyttörajoituksista yleensä. Tekijänoikeus on omaperäisyyden suoja. Tietosuoja suojaa henkilöihin liittyviä tietoja.
Henkilötiedot tutkimustarkoitukseen vaativat joko suostumuksen tai yleisen edun mukaista tieteellistä tutkimusta, jonka tunnusmerkit ovat mm. vastuullinen tutkija ja tutkimussuunnitelma.
”Minkälaisia tekijänoikeuksia liittyy julkishallinnon, viranomaisten tai poliitikkojen Twitter-tileiltä lähetettyjen twiittien käyttöön osana tutkimusaineistoa. Jos tutkii maisterintutkielmassa tietyllä periodilla tapahtunutta viranomaisviestintää ja sen välittymistä kansalaisille:saako käyttää esimerkiksi Aluehallintovirasto AVIn twiittejä aineistossa vapaasti vai tuleeko minun kysyä niiden käytöstä lupa, entä julkisten henkilöiden, esimerkiksi poliitikkojen twiittejä?”
Riittävän pitkä Twiitti voi olla suojattu, mutta viranomaisten lausumat ovat tekijänoikeudesta vapaa. Rajatapus on siinä, onko twiitti viranomaisena annettu vai henkilökohtainen.
Sitaattioikeus antaa mahdollisuuden siteerata hyvän tavan mukaisesti tarvittavassa laajuudessa. Myös esim. maalauksia voi käyttää sitaatteina, jos voidaan vedota siihen, että se on tarpeen tutkimuksen näkökulmasta.
Henkilökohtainen kopio voi ottaa ilman lupaa siitä, mihin on laillinen pääsy tutkimusvaiheessa ja myös kaveripiirin käyttöä varten, mutta sitä ei voi saattaa saataville siitä eteenpäin, joten tämä voi olla ongelma siinä vaiheessa, kun kerätyn aineiston haluaisi jakaa muiden kanssa.
”Liittyen elokuvien tekijänoikeuksiin, mikäli haluaa käyttää elokuvan ruutukaappauksia gradussa, lukeutuvatko nämä opetukseen ja koulutukseen kuuluviksi materiaaleiksi (eli onko ok liittää tutkielmaan), vai tuleeko hankkia lisenssi elokuvan ulkomaiselta/suomalaiselta tuottajayhtiöltä tms., jos kyseessä on amerikkalainen animaatio?”
Kuvasitaattisäännös koskee myös elokuvan ruutukaappauksia, kuten edellisessä vastauksessa mainittiin.
”Jos tutkii videopelien tai elokuvan multimodaalista kerrontaa, voiko ottaa kuvakaappauksia pelistä ja sisällyttää ne graduuni? Mistä haen luvan?”
Myös tähän sopii kuvasitaattisäännös. Pelituottajilla ei ole omaa tekijänoikeusorganisaatiota, josta voisi hakea luvan keskitetysti, mutta jos haluaa pätkän elokuvasta, voi ottaa yhteyttä Audio Visual Finland -järjestöön.
”Jos tutkii videopelin dialogeja, saako gradun liitteenä olla kyseisen pelin dialogilista? Entä voiko tällainen liite olla osa gradua, jos gradu on julkinen? Voiko e-thesiksessä julkaistusta gradusta jättää julkaisematta pelkästään mahdolliset tekijänoikeuden alaiset liitteet?”
Jos dialogilista tarkoittaa lista dialogeista, se ei ylitä teoskynnystä, vaikka yksittäisellä videopelin dialogilla on tekijänoikeus. Gradun voi toki jättää ilman liitteitä, mutta tässä voi tulla vastaan yliopston tieteellisen työn vaatimukset. Dialogia voisi kenties lainata tarpeellisessa laajuudessa itse gradussa ja kommentoida sitä mukaa kun se on tarpeen.
”Jos tekee kontrastiivista tutkimusta tekstityksen konventioiden vastaanotosta, saako esittää otteen tekstitetystä elokuvasta koeyleisölle? Jos ei, miten voi toimia? Entä saako tehdä samaan elokuvaotteeseen omia tekstityksiä vastaanottoeroja tutkiessa? Voiko näitä esittää?”
Käännös on oma tekijänoikeutensa. Jos tehdään kokonaan uusi se on uuden kääntäjän. Jos tehdään vain pieni muunnos, syntyy yhteisteos, johon sekä uudella että alkuperäisellä kääntäjällä on oikeus.
Yleisön saatavaille saattamista riippuu siitä onko yleisö ennalta rajattu henkilöjoukko, jolloin jos tutkija kutsuu ennalta nimetyt n. 10 henkilöä katsomaan ja arvioimaan elokuvaa, tämä ei ole julkista esittämistä.
Käännöstekstitystä voi toki tutkia myös esim. CC-BY-lisensioiduilla YouTube-videoilla, jolloin aineisto on vapaasti kaikkien arvioitavana ja päätelmien tieteellinen arviointi onnistuu helpommin.
”Jos tekee silmänliiketutkimusta elokuvaotteesta, onko elokuvan esittäminen kymmenelle ihmiselle yksitellen ja erikseen julkinen esitys? Kun elokuvaan sitten projisoi koehenkilöiden silmänliikkeet ja tämän ”tutkimustuloksen” esittää esimerkiksi luokkahuoneessa, onko teosta muokattu? Saako niin ylipäätään tehdä?”
Kymmenelle henkilölle sen voinee esittää kuten edellisessä vastauksessa todettiin. Tällaiselle koeyleisölle voinee myös esittää tutkimustuloksen. Kun tulosta halutaan näyttää luokkahuoneessa, joutunee hankkimaan luvan, ellei ole käyttänyt esim. aikaisemmin mainittua CC-BY videota.
”Onko Helsingin yliopistolla opiskelijoille olemassa valmista tekijänoikeusluvan hakemuspohjaa tai ylipäätään parhaita käytänteitä helpottamaan opiskelijoiden tutkimusprojektien etenemistä?”
Tekijänoikeudesta voi sopia melko vapaamuotoisesti. Siihen voi riittää jopa sähköpostiviesti oikeudenhaltijalta. Sopimukset ovat perinteisesti pitkä lähinnä sen takia, että halutaan varautua monenlaisiin ongelmatilanteisiin.
”Kuinka pitkistä prosesseista on kysymys, kun haetaan teoksen käyttölupaa tutkimukseen?”
Yksttäinen käyttö yhteen tarkoitukseen onnistuu yleensä hyvin nopeasti eikä ole kovin kallista suoraan tekijänoikeusorganisaatiolta. Ison aineiston saaminen useampaan tarkoitukseen on taas haastavampi.
Kopiostolla on tekijänoikeuteen liittyen Kopiraittila https://kopiraittila.fi/, josta selviää monia perusasioita.
”Mistä löydän teoksen (elokuvan/videopelin ja näiden suomennosten) tekijänoikeuksien haltijan?”
Tuottajalla on aika laajasti tiedot hallussaan, mutta mitään yleistä rekisteriä ei ole olemassa tekijänoikeuden haltijoista.
Jos oikeudenhaltija ei perusteellisten etsintöjen jälkeen löydy ja siitä ilmoittaa EU:n teollisoikeuksien virastolle, teosta voi sen jälkeen käyttää ilman lupaa. Tällainen selvitys on kuitenkin melko isotöinen.
”Saako julkisesta Facebook-ryhmästä lainata keskustelujen kommentteja tutkielmaan tai julkaistavaan artikkeliin ilman kirjoittajien lupaa? Jos saa, niin pitääkö kirjoittajien anonymiteettiä kuitenkin suojella? Entäpä Twitter tai Instagramin kaikille näkyvät julkaisut?”
Varsin lyhytkin teksti voi ylittää teoskynnyksen, mutta kommentit voidaan lainata hyvän tavan mukaisesti, kunhan mainitsee tekijän nimen. Jos tekijä puhuu muista, niistä on kuitenkin syytä käyttää pseudonymia.
Mikäli kieliaineistosi sisältää tekstiä, sen käsitteleminen on tehokkainta, jos aineisto on tallennettu raakatekstinä ja UTF-8-merkistökoodauksella. Tässä neuvotaan, miten se tapahtuu.
Jos tekstiä sisältävä aineistosi on tallennettu esimerkiksi Word-dokumentteina, voit käsitellä aineistoa vain Wordilla tai sen kanssa yhteensopivilla ohjelmilla. Word-dokumentti ei myöskään ole sellaisenaan arkistointikelpoinen muoto. Kun aineistosi on tallennettu raakatekstitiedostoina (plain text) ja lisäksi UTF-8-merkistökoodauksella, voit avata ja käsitellä tiedostoja tehokkaasti monenlaisilla kätevillä työkaluilla sekä Kielipankissa että sen ulkopuolella.
Raakatekstitiedosto sisältää kuitenkin vain merkkejä. Siihen eivät tallennu esimerkiksi Wordilla tehdyt tekstin asettelut, lihavointi tai kursiivi. Jos tarvitset tekstidokumenteista myös taitetut tai muotoillut versiot ihmisten luettaviksi, tallenna sellaiset erikseen. Pysyvää arkistointia varten taitetuista dokumenteista on syytä tehdä esimerkiksi pdf-muotoisia.
Tarvittaessa myös raakatekstin joukkoon voidaan lisätä erilaisia merkkauksia, joilla osoitetaan, missä kohtaa on vaikkapa kappaleen vaihto tai otsikko. Tällaiset merkkaukset kannattaa tehdä jossakin XML-yhteensopivassa muodossa (esim. TEI/XML), jolloin niitä voidaan ohjelmallisesti hyödyntää.
Jos alkuperäinen tiedosto on tehty Microsoft Word -ohjelmalla tai se on esim. RTF-muotoinen, toimi seuraavasti:
Unicode on kansainvälinen merkistöstandardi, jonka avulla lähes kaikki maailman kielet ja niissä käytetyt erikoismerkit voidaan kuvata yksiselitteisesti ja yhteensopivalla tavalla. Jokaisella Unicode-standardissa määritellyllä merkillä on yksilöllinen koodi. Koodeja on määritelty jopa yli 100 000 erilaiselle merkille. Unicode-standardi on otettu laajasti käyttöön, ja lähes kaikki nykyiset tekstiä prosessoivat sovellusohjelmat tukevat sitä.
UTF-8 on Unicode-standardin 8-bittinen koodaustapa. Se on osittain yhteensopiva niiden vanhempien järjestelmien kanssa, joissa merkkikoodeja käsitellään 8-bittisinä. UTF-8-muotoisen tiedoston sisältämät merkit näyttävät samoilta kaikilla tietokoneilla ja kaikissa käyttöjärjestelmissä, jos tiedostoa käytetään ohjelmalla, joka tukee Unicode-standardia ja UTF-8-tiedostoja. Useimmat nykyiset sovellukset tukevat ainakin UTF-8-merkistökoodausta.
UTF-16 on puolestaan Unicode-merkkien 16-bittinen koodaustapa, jossa jokaista merkkiä kuvataan aina kahden 8 bitin tavun muodostamana parina. UTF-16 on vielä hiukan harvinaisempi kuin UTF-8.
Kaikki Kielipankin tarjoamat työkalut edellyttävät, että käsiteltävät tekstitiedostot ovat UTF-8-muotoisia.
Voit esimerkiksi