<< Donate Speech resource page (commercial / non-academic use)

Suomeksi

Privacy Notice or Controller’s record of processing activities

Instructions for companies and other non-academic organizations

 

The Donate Speech datasets contain audio recordings of speech and written transcripts of the recordings. It is possible that an individual speaker could be identified at least indirectly by combining information included in the resource. Therefore, the resource contains personal data according to the General Data Protection Regulation (GDPR).

When processing the Donate Speech data for the purposes of a company or a non-academic organization, the company/organization must maintain a public record of the processing of personal data related to the Donate Speech resources, and a link to the document must be provided to the Language Bank. The purpose of the privacy statement is to help data subjects understand the purposes for which their data is used.

For more information on the processing of personal data and information for data subjects, see the website of the Data Protection Ombudsman.

Kielipankki – The Language Bank of Finland and the University of Helsinki are not responsible for the content, accuracy, legality or timeliness of the documentation produced by the company/organisation.

At least the following details are usually required for a privacy notice. However, please check the Data Protection Ombudsman’s website for up-to-date guidance.

  • The company or other non-academic organisation acting as controller and their contact details
  • Contact details of the data protection officer of the controller
  • Purpose of the processing of personal data
    • The legal basis of processing the personal data is to be included with respect to the purpose of processing of the controller in question (i.e., not regarding the purpose of processing by the Language Bank).
    • Note, however, that the legal basis for collecting the original Donate Speech data was based on legitimate interest (see the Privacy Notice of the Donate Speech campaign).
  • Legitimate interests of the controller or third party, in case the processing is based on a legitimate interest
  • Description of the personal data that are processed (categories of personal data and categories of data subjects)
  • Recipients of data
    • Here, the recipients of data do not refer to the employees of the controller specified in the notice, but to potential external entities.
    • Please note that in the case of the Donate Speech resources, the recipients can only be subcontractors or service providers acting as processors of personal data, with whom contracts have been concluded as required by law.
  • Transfer of data outside the EEA countries
  • Automated decision-making
  • How long the personal data need to be processed (retention period and determination criteria)
    • The notice should include the estimated end date of the processing.
    • Please note that the personal data may only be stored for as long as there is a legal basis for the processing, up to a maximum of 10 years.
  • The rights of the data subject

 

 

General terms for using the Donate Speech data (companies and non-academic organizations)

 

<< Donate Speech resource page (commercial / non-academic use)

 

 

Last updated: 9.5.2023


Persistent Identifier of this page: urn:nbn:fi:lb-2023042024

<< Lahjoita puhetta -aineistosivu (yritykset)

In English

Tietosuojailmoitus tai seloste henkilötietojen käsittelytoimista

Ohjeita yrityksille ja muille ei-akateemisille organisaatioille, jotka käsittelevät Lahjoita puhetta -aineistoja

 

Lahjoita puhetta -aineistopaketit sisältävät puheäänitteitä ja niiden tekstimuotoisia litteraatteja. Koska on mahdollista, että yksittäinen puhuja olisi tunnistettavissa ainakin epäsuorasti aineistossa esiintyviä tietoja yhdistelemällä, aineisto sisältää tietosuoja-asetuksessa tarkoitettuja henkilötietoja. 

Kun Kielipankin kautta saatua Puhelahjat-aineistoa käsitellään yrityksen tarkoituksiin, yrityksen tulee ylläpitää julkista selostetta aineistoon liittyvien henkilötietojen käsittelystä ja toimittaa dokumentin linkki Kielipankille. Selosteen tarkoitus on auttaa rekisteröityjä ymmärtämään, millaisiin tarkoituksiin heidän tietojaan käytetään. 

Lisätietoa henkilötietojen käsittelystä ja rekisteröityjen informoinnista on tietosuojavaltuutetun sivuilla, https://tietosuoja.fi/rekisteroidyn-informointi. 

Kielipankki ja Helsingin yliopisto eivät vastaa yrityksen/organisaation tuottaman dokumentaation sisällöstä, oikeellisuudesta, lainmukaisuudesta tai ajantasaisuudesta.

Alla on lueteltu tietoja, joita yleensä ainakin tarvitaan tietosuojailmoitukseen. Tarkistathan ajantasaiset ohjeet tietosuojavaltuutetun sivuilta. 

  • Rekisterinpitäjänä toimiva yritys tai muu ei-akateeminen organisaatio ja yhteystiedot
  • Rekisterinpitäjän tietosuojavastaavan yhteystiedot
  • Henkilötietojen käsittelyn tarkoitus
    • Henkilötietojen käsittelyn oikeusperuste on ilmoitettava rekisterinpitäjänä toimivan yrityksen tai organisaation oman käsittelytarkoituksen (ei siis esimerkiksi Kielipankin) osalta.
    • Huomaa kuitenkin, että alkuperäisen Lahjoita puhetta -aineiston keräämisen oikeusperusteena on ollut oikeutettu etu, ks. Lahjoita puhetta -kampanjan tietosuojaseloste.
  • Rekisterinpitäjän tai kolmannen osapuolen oikeutetut edut, jos käsittely perustuu oikeutettuun etuun
  • Kuvaus käsiteltävistä henkilötiedoista (henkilötietoryhmät ja rekisteröityjen ryhmät)
    • Mainitse kyseiseen tarkoitukseen käytettävän Lahjoita puhetta -aineiston/-aineistojen otsikko ja viitetiedot (ks. Lahjoita puhetta -aineistosivu).
    • Mainitse myös, että aineiston sisältämät tiedot on saatu Kielipankin kautta. (Kielipankista saatavaa Lahjoita puhetta -aineistoa käsiteltäessä tietoja ei siis kerätä suoraan rekisteröidyiltä.)
    • Kielipankista saatavan alkuperäisen Lahjoita puhetta -aineiston sisältämiä henkilötietoja on kuvattu aineiston akateemista tutkimuskäyttöä koskevissa tietosuojaehdoissa. Kuvauksesta voi tarvittaessa muokata sopivan version.
  • Tietojen vastaanottajat
    • Tietojen vastaanottajilla ei tarkoiteta rekisterinpitäjänä toimivan yrityksen tai organisaation omia työntekijöitä vaan mahdollisia muita tahoja.
    • Huomaa, että Lahjoita puhetta -aineistoa koskevien sopimusehtojen mukaan tietojen vastaanottajat voivat olla vain käsittelijöinä toimivia alihankkijoita tai palveluntarjoajia, joiden kanssa on tehty lain edellyttämät sopimukset.
  • Tietojen siirtäminen ETA-maiden ulkopuolelle
  • Automatisoitu päätöksenteko
  • Kuinka kauan henkilötietoja tarvitaan (säilytysaika ja määrittämiskriteerit)
    • Tietosuojailmoitukseen tulee kirjata mahdollisimman tarkka arvio ajankohdasta, jolloin henkilötietojen käsittelytarve päättyy.
    • Huomaa, että henkilötietoja saa säilyttää vain niin kauan kuin käsittelyyn on lain mukainen peruste, kuitenkin enintään 10 vuotta.
  • Mitä oikeuksia rekisteröidyllä on

 

 

Lahjoita puhetta -aineistojen käytön yleiset ehdot (yrityksille ja ei-akateemisille organisaatioille)

 

<< Lahjoita puhetta -aineistosivu (yritykset)

 

 

Viimeksi päivitetty: 9.5.2023


Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2023042023

Tietosuojailmoitus – ohjeita tutkijoille

Kun ryhdyt käsittelemään Kielipankista saatua henkilötietoja sisältävää aineistoa uuteen tarkoitukseen, sinun on tehtävä käsittelytarkoitusta koskeva tietosuojailmoitus, julkaistava se avoimesti sähköisessä muodossa ja toimitettava ilmoituksen linkki Kielipankille. 

Tälle sivulle tulee ohjeita tietosuojailmoituksen koostamista varten.

Tekijänoikeus

Tälle sivulle kootaan tekijänoikeuksiin liittyviä kysymyksiä ja ohjeita.

Kysymyksiä ja vastauksia AV-aineistojen tekijänoikeuksista

Linkkien takaa löytyvillä videoilla FIN-CLARINin tutkimusjohtaja Krister Lindén haastattelee lakimies Pekka Heikkistä, joka vastaa kääntämisen tutkielmaseminaarin opiskelijoiden ja opettajien esittämiin kysymyksiin.

Johdanto 1/2: Mitä tarkoittaa tekijänoikeus?

Määritelmä. Suhde muihin aineettomiin oikeuksiin. Tekijännokeudella on taloudellinen ja moraalinen puoli. Mitä seuraa luvatta käyttämisestä?

Johdanto 2/2: Miten tekijänoikeus eroaa tietosuojasta? Millä periaatteella tietosuojan alaista materiaalia voi kerätä?

Käyttörajoituksista yleensä. Tekijänoikeus on omaperäisyyden suoja. Tietosuoja suojaa henkilöihin liittyviä tietoja.

Henkilötiedot tutkimustarkoitukseen vaativat joko suostumuksen tai yleisen edun mukaista tieteellistä tutkimusta, jonka tunnusmerkit ovat mm. vastuullinen tutkija ja tutkimussuunnitelma.

Kysymys 1: Julkisuuden henkilöiden twiitit tutkimusaineistona

”Minkälaisia tekijänoikeuksia liittyy julkishallinnon, viranomaisten tai poliitikkojen Twitter-tileiltä lähetettyjen twiittien käyttöön osana tutkimusaineistoa. Jos tutkii maisterintutkielmassa tietyllä periodilla tapahtunutta viranomaisviestintää ja sen välittymistä kansalaisille:saako käyttää esimerkiksi Aluehallintovirasto AVIn twiittejä aineistossa vapaasti vai tuleeko minun kysyä niiden käytöstä lupa, entä julkisten henkilöiden, esimerkiksi poliitikkojen twiittejä?”

Riittävän pitkä Twiitti voi olla suojattu, mutta viranomaisten lausumat ovat tekijänoikeudesta vapaa. Rajatapus on siinä, onko twiitti viranomaisena annettu vai henkilökohtainen.

Sitaattioikeus antaa mahdollisuuden siteerata hyvän tavan mukaisesti tarvittavassa laajuudessa. Myös esim. maalauksia voi käyttää sitaatteina, jos voidaan vedota siihen, että se on tarpeen tutkimuksen näkökulmasta.

Henkilökohtainen kopio voi ottaa ilman lupaa siitä, mihin on laillinen pääsy tutkimusvaiheessa ja myös kaveripiirin käyttöä varten, mutta sitä ei voi saattaa saataville siitä eteenpäin, joten tämä voi olla ongelma siinä vaiheessa, kun kerätyn aineiston haluaisi jakaa muiden kanssa.

Kysymys 2: Elokuvien tekijänoikeudet

”Liittyen elokuvien tekijänoikeuksiin, mikäli haluaa käyttää elokuvan ruutukaappauksia gradussa, lukeutuvatko nämä opetukseen ja koulutukseen kuuluviksi materiaaleiksi (eli onko ok liittää tutkielmaan), vai tuleeko hankkia lisenssi elokuvan ulkomaiselta/suomalaiselta tuottajayhtiöltä tms., jos kyseessä on amerikkalainen animaatio?”

Kuvasitaattisäännös koskee myös elokuvan ruutukaappauksia, kuten edellisessä vastauksessa mainittiin.

Kysymys 3: Kuvakaappaukset peleistä

”Jos tutkii videopelien tai elokuvan multimodaalista kerrontaa, voiko ottaa kuvakaappauksia pelistä ja sisällyttää ne graduuni? Mistä haen luvan?”

Myös tähän sopii kuvasitaattisäännös. Pelituottajilla ei ole omaa tekijänoikeusorganisaatiota, josta voisi hakea luvan keskitetysti, mutta jos haluaa pätkän elokuvasta, voi ottaa yhteyttä Audio Visual Finland -järjestöön.

Kysymys 4: Videopelien dialogit

”Jos tutkii videopelin dialogeja, saako gradun liitteenä olla kyseisen pelin dialogilista? Entä voiko tällainen liite olla osa gradua, jos gradu on julkinen? Voiko e-thesiksessä julkaistusta gradusta jättää  julkaisematta pelkästään mahdolliset tekijänoikeuden alaiset liitteet?”

Jos dialogilista tarkoittaa lista dialogeista, se ei ylitä teoskynnystä, vaikka yksittäisellä videopelin dialogilla on tekijänoikeus. Gradun voi toki jättää ilman liitteitä, mutta tässä voi tulla vastaan yliopston tieteellisen työn vaatimukset. Dialogia voisi kenties lainata tarpeellisessa laajuudessa itse gradussa ja kommentoida sitä mukaa kun se on tarpeen.

Kysymys 5: Otteet elokuvien tekstityksestä

”Jos tekee kontrastiivista tutkimusta tekstityksen konventioiden vastaanotosta, saako esittää otteen tekstitetystä elokuvasta koeyleisölle? Jos ei, miten voi toimia? Entä saako tehdä samaan elokuvaotteeseen omia tekstityksiä vastaanottoeroja tutkiessa? Voiko näitä esittää?”

Käännös on oma tekijänoikeutensa. Jos tehdään kokonaan uusi se on uuden kääntäjän. Jos tehdään vain pieni muunnos, syntyy yhteisteos, johon sekä uudella että alkuperäisellä kääntäjällä on oikeus.

Yleisön saatavaille saattamista riippuu siitä onko yleisö ennalta rajattu henkilöjoukko, jolloin jos tutkija kutsuu ennalta nimetyt n. 10 henkilöä katsomaan ja arvioimaan elokuvaa, tämä ei ole julkista esittämistä.

Käännöstekstitystä voi toki tutkia myös esim. CC-BY-lisensioiduilla YouTube-videoilla, jolloin aineisto on vapaasti kaikkien arvioitavana ja päätelmien tieteellinen arviointi onnistuu helpommin.

Kysymys 6: Elokuvan näyttäminen silmänliiketutkimuksen koehenkilöille

”Jos tekee silmänliiketutkimusta elokuvaotteesta, onko elokuvan esittäminen kymmenelle ihmiselle yksitellen ja erikseen julkinen esitys? Kun elokuvaan sitten projisoi koehenkilöiden silmänliikkeet ja tämän ”tutkimustuloksen” esittää esimerkiksi luokkahuoneessa, onko teosta muokattu? Saako niin ylipäätään tehdä?”

Kymmenelle henkilölle sen voinee esittää kuten edellisessä vastauksessa todettiin. Tällaiselle koeyleisölle voinee myös esittää tutkimustuloksen. Kun tulosta halutaan näyttää luokkahuoneessa, joutunee hankkimaan luvan, ellei ole käyttänyt esim. aikaisemmin mainittua CC-BY videota.

Kysymys 7: Tekijänoikeuslupien hakeminen: mitä ohjeita opiskelijoille?

”Onko Helsingin yliopistolla opiskelijoille olemassa valmista tekijänoikeusluvan hakemuspohjaa tai ylipäätään parhaita käytänteitä helpottamaan opiskelijoiden tutkimusprojektien etenemistä?”

Tekijänoikeudesta voi sopia melko vapaamuotoisesti. Siihen voi riittää jopa sähköpostiviesti oikeudenhaltijalta. Sopimukset ovat perinteisesti pitkä lähinnä sen takia, että halutaan varautua monenlaisiin ongelmatilanteisiin.

Kysymys 8: Kauanko kestää luvan hakeminen tutkimuskäyttöön?

”Kuinka pitkistä prosesseista on kysymys, kun haetaan teoksen käyttölupaa tutkimukseen?”

Yksttäinen käyttö yhteen tarkoitukseen onnistuu yleensä hyvin nopeasti eikä ole kovin kallista suoraan tekijänoikeusorganisaatiolta. Ison aineiston saaminen useampaan tarkoitukseen on taas haastavampi.

Kopiostolla on tekijänoikeuteen liittyen Kopiraittila https://kopiraittila.fi/, josta selviää monia perusasioita.

Kysymys 9: Elokuvan/videopelin tekijänoikeuksien haltijan selvittäminen

”Mistä löydän teoksen (elokuvan/videopelin ja näiden suomennosten) tekijänoikeuksien haltijan?”

Tuottajalla on aika laajasti tiedot hallussaan, mutta mitään yleistä rekisteriä ei ole olemassa tekijänoikeuden haltijoista.

Jos oikeudenhaltija ei perusteellisten etsintöjen jälkeen löydy ja siitä ilmoittaa EU:n teollisoikeuksien virastolle, teosta voi sen jälkeen käyttää ilman lupaa. Tällainen selvitys on kuitenkin melko isotöinen.

Kysymys 10: Kommenttien lainaaminen julkisesta Facebook-ryhmästä

”Saako julkisesta Facebook-ryhmästä lainata keskustelujen kommentteja tutkielmaan tai julkaistavaan artikkeliin ilman kirjoittajien lupaa? Jos saa, niin pitääkö kirjoittajien anonymiteettiä kuitenkin suojella? Entäpä Twitter tai Instagramin kaikille näkyvät julkaisut?”

Varsin lyhytkin teksti voi ylittää teoskynnyksen, mutta kommentit voidaan lainata hyvän tavan mukaisesti, kunhan mainitsee tekijän nimen. Jos tekijä puhuu muista, niistä on kuitenkin syytä käyttää pseudonymia.

Tekstitiedoston tallentaminen UTF-8-muodossa

Mikäli kieliaineistosi sisältää tekstiä, sen käsitteleminen on tehokkainta, jos aineisto on tallennettu raakatekstinä ja UTF-8-merkistökoodauksella. Tässä neuvotaan, miten se tapahtuu.

 

Word-dokumentin muuntaminen UTF-8-muotoiseksi tekstitiedostoksi

Jos tekstiä sisältävä aineistosi on tallennettu esimerkiksi Word-dokumentteina, voit käsitellä aineistoa vain Wordilla tai sen kanssa yhteensopivilla ohjelmilla. Word-dokumentti ei myöskään ole sellaisenaan arkistointikelpoinen muoto. Kun aineistosi on tallennettu raakatekstitiedostoina (plain text) ja lisäksi UTF-8-merkistökoodauksella, voit avata ja käsitellä tiedostoja tehokkaasti monenlaisilla kätevillä työkaluilla sekä Kielipankissa että sen ulkopuolella.

Raakatekstitiedosto sisältää kuitenkin vain merkkejä. Siihen eivät tallennu esimerkiksi Wordilla tehdyt tekstin asettelut, lihavointi tai kursiivi. Jos tarvitset tekstidokumenteista myös taitetut tai muotoillut versiot ihmisten luettaviksi, tallenna sellaiset erikseen. Pysyvää arkistointia varten taitetuista dokumenteista on syytä tehdä esimerkiksi pdf-muotoisia.

Tarvittaessa myös raakatekstin joukkoon voidaan lisätä erilaisia merkkauksia, joilla osoitetaan, missä kohtaa on vaikkapa kappaleen vaihto tai otsikko. Tällaiset merkkaukset kannattaa tehdä jossakin XML-yhteensopivassa muodossa (esim. TEI/XML), jolloin niitä voidaan ohjelmallisesti hyödyntää.

Jos alkuperäinen tiedosto on tehty Microsoft Word -ohjelmalla tai se on esim. RTF-muotoinen, toimi seuraavasti:

  1. Avaa tiedosto MS Word -ohjelmalla tavalliseen tapaan.
  2. Valitse Save As…
  3. Valitse Format: Plain Text (.txt).
  4. Seuraavassa ikkunassa valitse ylhäältä oikeanpuoleinen pallero Other encoding: ja sen oikealla puolella olevasta listasta ’Unicode 5.0 UTF-8’.
    • Ei rastia kohtaan Insert line breaks
    • End lines with: valitse ’CR only’
    • (Ei rastia kohtaan Allow character substitution)
  5. MS Wordissa avoinna olevaa raakatekstitiedostoa voit toki edelleen jatkokäsitellä esim. Wordin etsi & korvaa-toiminnoilla. Muista tarvittaessa lopuksi varmistaa, että tiedosto on tallennettu (myös) UTF-8-muotoisena. Jos muokattavaa on paljon ja/tai haluat käsitellä vaikkapa hakemistollisen tekstitiedostoja kerrallaan, kannattaa etsi ja korvaa -toiminnot tehdä jollakin paremmin tällaiseen käyttöön suunnitellulla tekstieditorilla.
  6. Eri käyttöjärjestelmiin on tarjolla monia hyviä tekstieditoreja. Ellei koneellasi ole kunnollista tekstieditoria, harkitse sellaisen asentamista mahdollisimman pian.
  7. Windowsissa tallennettua tekstitiedostoa voi hätätilassa tarkastella esim. WordPad-ohjelmalla, mutta WordPadin ominaisuudet eivät ole kummoiset, eivätkä merkitkään välttämättä näy oikein.
    • Windows saattaa oletusarvoisesti avata .txt-päätteisen tiedoston Notepad-ohjelmalla, joka ei osaa käsitellä UTF-8-muotoisia tiedostoja ja näyttää ne yhtenä pötkönä ilman rivinvaihtoja.

 

 

 

Raakatekstitiedoston merkistön muuntaminen iconv-työkalulla (unix)

Miksi tiedostot pitää tallentaa UTF-8-merkistökoodauksella? (Mikä se on? Mikä ihme on Unicode?)

Unicode on kansainvälinen merkistöstandardi, jonka avulla lähes kaikki maailman kielet ja niissä käytetyt erikoismerkit voidaan kuvata yksiselitteisesti ja yhteensopivalla tavalla. Jokaisella Unicode-standardissa määritellyllä merkillä on yksilöllinen koodi. Koodeja on määritelty jopa yli 100 000 erilaiselle merkille. Unicode-standardi on otettu laajasti käyttöön, ja lähes kaikki nykyiset tekstiä prosessoivat sovellusohjelmat tukevat sitä.

UTF-8 on Unicode-standardin 8-bittinen koodaustapa. Se on osittain yhteensopiva niiden vanhempien järjestelmien kanssa, joissa merkkikoodeja käsitellään 8-bittisinä. UTF-8-muotoisen tiedoston sisältämät merkit näyttävät samoilta kaikilla tietokoneilla ja kaikissa käyttöjärjestelmissä, jos tiedostoa käytetään ohjelmalla, joka tukee Unicode-standardia ja UTF-8-tiedostoja. Useimmat nykyiset sovellukset tukevat ainakin UTF-8-merkistökoodausta.

UTF-16 on puolestaan Unicode-merkkien 16-bittinen koodaustapa, jossa jokaista merkkiä kuvataan aina kahden 8 bitin tavun muodostamana parina. UTF-16 on vielä hiukan harvinaisempi kuin UTF-8.

Kaikki Kielipankin tarjoamat työkalut edellyttävät, että käsiteltävät tekstitiedostot ovat UTF-8-muotoisia.

Voit esimerkiksi

UTF-8-muotoisen tiedoston jatkokäsittely: tekstieditorit

  • Niin kielentutkijan kuin ohjelmoijankin tarpeisiin soveltuvia, ilmaisia ja monipuolisia tekstieditoreja ovat esim. Notepad++ (Win), jEdit (Win/Mac/Linux), BBEdit (Mac), monenlaiseen käyttöön mukautuva Emacs (Win/Mac/Linux) tai vielä teknisemmin suuntautuneille Vim (Unix/Linux/Win).