Aineiston nimi: FinINTAS – Spontaanin ja ääneen luetun suomenkielisen puheen korpus

Aineiston pysyvä tunniste

http://urn.fi/urn:nbn:fi:lb-20140730194

Henkilötietoja sisältävän aineiston käsittelyperuste

Aineiston käsittelyperusteena on 24.5.2018 alkaen yleisen edun mukainen tutkimus.

Alkuperäistä tutkimusta varten äänitetyt puhujat saivat suullisesti tietoa tutkimuksesta sekä allekirjoittivat suostumuksen (ks. liite), jossa antoivat luvan käyttää aineistoa tutkimuksessa ja opetuksessa ja tallettaa sen pysyvästi Kielipankkiin. Puhujille kerrottiin lisäksi, että aineistosta aiotaan tutkia mm. puhekieltä ja suomen kielen ääntämiseen ja fonetiikkaan liittyviä piirteitä. Vaikka suostumukset ja äänityksiin liittyvät menettelytavat olivat asianmukaisia ainakin ko. tieteenalalla 2000-luvun alussa vallinneisiin käytänteisiin verrattuna, suostumukset ja tutkittavien saama informaatio eivät kaikilta osin täytä 25.5.2018 alkaen sovellettavan tietosuoja-asetuksen vaatimuksia. Aineiston iästä johtuen puhujia olisi ollut erittäin vaikeaa ellei mahdotonta enää tavoittaa suostumusten päivittämistä varten. Tästä syystä käsittelyperustetta on vaihdettu.

Rekisterinpitäjä

Helsingin yliopisto

Rekisterinpitäjän yhteyshenkilö

Mietta Lennes

Aineiston käsittely

FIN-CLARIN toimii aineiston käsittelijänä.

Varsinainen puheaineisto on äänitetty vuosina 2001–2004 Helsingin yliopiston silloisella puhetieteiden laitoksella. Vuoteen 2018 saakka aineisto on ollut Helsingin yliopistossa sekä Jyväskylän yliopiston kielten laitoksella Mietta Lenneksen ja muutamien yksittäisten fonetiikan tutkijoiden käytössä. Aineiston sijoittamisesta Kielipankkiin on sovittu FIN-CLARINin kanssa alustavasti vuonna 2011, kun Mietta Lennes alkoi työskennellä FIN-CLARINissa.

Alkuperäisen aineiston keruu tapahtui EU-rahoitteisessa INTAS-hankkeessa numero 00-915, jossa olivat suomalaisten Helsingin yliopiston ja Jyväskylän yliopiston lisäksi mukana Pietarin valtionyliopisto Venäjältä sekä Amsterdamin yliopisto Alankomaista. Yhteishankkeen tutkimussuunnitelman pohjalta kussakin kolmessa maassa kerättiin osittain samantyyppiset aineistot, jotta puheen ilmiöitä voitaisiin tutkia ja vertailla kielten välillä. Kaikkien kolmen osallistujamaan tutkimusryhmät luovuttivat keräämänsä aineistot kahden muun kumppanimaan tutkimusryhmille. Myös Helsingissä kerätty suomen kielen aineisto kopioitiin CD-ROMeille ja sekä Pietariin että Amsterdamiin luovutettiin yksi kopio. Vastaanottajien kanssa kuitenkin sovittiin, että materiaali on tarkoitettu ainoastaan kyseiseen hankkeeseen kuuluneiden laitosten sisäiseen käyttöön.

Edellisen lisäksi suurin osa ääniteaineistosta ja sen karkeat litteroinnit on vuonna 2013 luovutettu Aalto-yliopistoon professori Mikko Kurimon tutkimusryhmälle, joka on käyttänyt aineistoa suomenkielisen automaattisen puheentunnistimen parantamiseen. Aallossa aineistoa käsitteleville tutkijoille on luovutettu aineiston yhteydessä tekstimuotoinen käyttöehtojen kuvaus ja käyttöehdoista on sovittu erikseen aineiston vastaanottaneen tutkijan kanssa.

INTAS-tutkimushankkeen vastuullisena johtajana toimi fonetiikan professori Antti Iivonen. Äänitysten sekä aineiston litteroinnin ja annotoinnin koordinoinnista vastasi fonetiikan jatko-opiskelija Mietta Lennes, joka teki itse puolet äänityksistä silloisen Teknillisen korkeakoulun akustiikan ja äänenkäsittelytekniikan laitoksen kaiuttomissa huoneissa. Toisen puolen äänityksistä teki fonetiikan opiskelija Olli Rissanen eräässä äänitysstudiossa. Äänittäjien lisäksi aineiston litterointiin ja foneettiseen annotointiin osallistui joukko fonetiikan opiskelijoita Helsingin yliopistossa sekä kaksi pietarilaista suomen kielen tutkijaa. Mietta Lennes on osallistunut aineiston manuaaliseen ja puoliautomaattiseen annotointiin, kehittänyt uusia puheen annotoinnissa tarvittavia menetelmiä sekä käyttänyt aineistoa omassa suomenkielisen arkipuheen foneettista vaihtelua koskevassa väitöskirjatutkimuksessaan.

Aineiston luovutusperiaatteet ja käyttöehdot

Aineisto tulee saataville Kielipankin kautta FIN-CLARINin kanssa tehtävän tallennussopimuksen mukaisilla ehdoilla, todennäköisesti lisenssillä CLARIN RES +NC +PRIV +DEP. Lisenssin mukaisesti aineistoa voidaan luovuttaa ainoastaan niiden tutkijoiden käyttöön, jotka ovat esittäneet hyväksyttävän tutkimussuunnitelman ja joille rekisterinpitäjä (tai rekisterinpitäjän määräämä yhteyshenkilö) on myöntänyt määräaikaisen henkilökohtaisen käyttöoikeuden. Käyttöoikeushakemuksen yhteydessä hakijan on hyväksyttävä lisenssin mukaiset käyttöehdot. (Luvanvaraisen käytön on katsottu olevan myös periaatteiltaan linjassa tutkittavien antaman alkuperäisen suostumuksen kanssa, koska siinä tutkittavien annettiin mm. ymmärtää, ettei aineistoa levitetä ulkopuolisille tahoille.)

Kun aineisto on saatavilla Kielipankissa, tarkemmat aineistokohtaiset käyttöehdot kuvataan erillisellä lisenssisivulla, johon löytyy linkki aineiston kuvailutiedoista sekä Kielipankin aineistoluettelon Lisenssi-sarakkeesta.

Kun aineisto on tallennettu Kielipankkiin, FIN-CLARIN pyrkii saamaan yhteyden kaikkiin tiedossaan oleviin tutkijoihin, joilla on ennestään aineiston kopio käytössään, ja varmistamaan, että äänitteiden tarpeettomat kopiot tuhotaan, koska ne löytyvät jatkossa Kielipankista.

Kuvaus aineiston sisältämistä henkilötietoryhmistä

Aineisto sisältää studio-oloissa tallennettuja, teknisesti korkealaatuisia puheäänitteitä kahden, yleensä toisensa hyvin tuntevan puhujan välisistä vapaamuotoisista keskusteluista sekä samojen puhujien ääneen lukemista teksteistä. Puhujille ehdotettiin muutamia puheenaiheita, kuten koulunkäynti, elokuvat tai matkailu, mutta heillä on ollut mahdollisuus kuljettaa keskustelua haluamallaan tavalla. Puhujat saivat jutella rauhassa keskenään, mutta he olivat tietoisia siitä, että heidän keskustelunsa tallennetaan ja että äänitystilan ulkopuolella tai studion ikkunan takana on tutkija huolehtimassa teknisestä tarkkailusta ja tutkittavien yleisestä hyvinvoinnista. Keskusteluiden sisältö onkin aineiston litteroijien muistin mukaan harmitonta ja ulkopuolisista henkilöistä on puhuttu verrattain vähän. Jokainen puhuja osallistui kahteen äänitykseen, joista jälkimmäisessä tehtävänä oli lukea ääneen muutamia erilaisia tekstejä.

Puheäänitteitä sisältävää aineistoa ei voida käsitellä tunnisteettomaksi niin, että se kuitenkin säilyisi esimerkiksi foneettisen tai muun kielitieteellisen tutkimuksen kannalta käyttökelpoisena. Äänen lisäksi puhujien henkilötiedoista on tallennettu aineiston yhteyteen sukupuoli sekä ikäryhmä (joko nuoret aikuiset tai keski-ikäiset/varttuneet puhujat).

Äänitteistä ja litteraateista on poistettu niissä mainitut selvästi puhujiin itseensä viittaavat etu- ja sukunimet, mutta esimerkiksi koulujen ja paikkojen nimet on säilytetty, jotta aineiston käyttö foneettiseen tutkimukseen olisi mahdollista. Myös aineistosta tehdyt tekstimuotoiset litteraatit saattavat kuitenkin sisältää suoria tai epäsuoria tunnisteita.

Alkuperäisen tutkimuksen yhteydessä puhujista kerättiin lomakkeella taustatietoja esimerkiksi heidän ja heidän vanhempiensa asuinpaikoista, muusta murretaustasta ja kielitaidosta sekä erilaisista terveydentilaan liittyvistä piirteistä, jotka saattavat vaikuttaa puheääneen. Kyseiset lomakkeet on kuitenkin tuhottu. Suurin osa tiedoista katsottiin tutkimuksen kannalta tarpeettomiksi. Aineistossa on kuitenkin säilytetty välttämätön tieto kunkin puhujan kielitaidosta (ts. mitä vieraita kieliä on ilmoittanut osaavansa) sekä tieto siitä, onko puhuja joskus asunut pääkaupunkiseudun ulkopuolella.

Riskiarvio

24.5.2018 tehdyn arvion perusteella henkilötietojen mahdolliseen paljastumiseen liittyvät riskit on arvioitu pieniksi.

Suojatoimet

Aineiston käsittelyssä noudatetaan Kielipankin yleisiä tietosuojakäytänteitä. Pääsy Kielipankin kautta välitettävään aineistoon on ainoastaan henkilökohtaisen määräaikaisen käyttöoikeuden saaneilla tutkijoilla.

Tiedostojen ja hakemistojen nimissä ja aineistosta tehdyissä tekstimuotoisissa litteraateissa tutkittaviin viitataan koodeilla. Koodiavain ja alkuperäiset suostumukset ovat rekisterinpitäjän yhteyshenkilön hallussa ja niitä säilytetään lukitussa tilassa erillään varsinaisesta aineistosta. Aineiston julkiset kuvailutiedot on anonymisoitu.

Aineiston käyttöoikeuden saaneilla tutkijoilla on oikeus käsitellä aineistoa vain käyttöoikeushakemuksessa mainitsemaansa tutkimustarkoitukseen. Luvan saanut tutkija on velvollinen käsittelemään hallussaan olevaa aineistoa vain riittävän suojatussa ympäristössä. Hän ei saa levittää tunnisteellisia kopioita aineistosta tai sen osista. Hyviä tutkimuseettisiä käytänteitä noudattaen tutkija voi julkaista yksittäisiä, lyhyitä näytteitä alkuperäisestä ääniaineistosta tai äänitteiden litteraateista, mikäli kyseiset näytteet on joko kokonaan anonymisoitu tai pseudonymisoitu. Tutkija voi myös esittää tunnisteellisia tai muokattuja näytteitä tutkimusyhteisön sisäisissä tilaisuuksissa taikka opetustilanteissa, jos se on hänen käyttöoikeushakemuksessaan kuvatun käyttötarkoituksen mukaista ja näytteet valitaan tai käsitellään siten, että niissä olevien henkilötietojen määrä on mahdollisimman vähäinen. Mikäli tutkija haluaa julkaista tutkimustarkoitusta varten muokatun aineiston uudelleen, hänen tulee sopia uuden aineistoversion välittämisestä FIN-CLARINin kanssa. Käyttöoikeuden saanut tutkija sitoutuu poistamaan kaikki aineistosta tekemänsä kopiot, kun hakemuksen mukainen käyttötarkoitus on päättynyt.

Päivitykset

Tämä dokumentti on luotu 24.5.2018 ja sitä on päivitetty viimeksi 19.9.2018, jolloin on tarkennettu esimerkkejä käyttöoikeuden saajilta edellytettävistä suojatoimista.

 


Liite:

Puhujilta pyydetty alkuperäinen suostumusteksti (näyte)

 

Tallennusajat: (sovitut äänityspäivämäärät)
Tunnus: M1

(Kyselyosio puhujan/koehenkilön taustatiedoista, eivät sisällä nimeä tai yhteystietoja)

Puhujan suostumus

Olen tietoinen siitä, että puhettani tallennetaan/on tallennettu tämän lomakkeen sivulla 2 mainittuina aikoina. Hyväksyn sen, että minulta tallennettua puheaineistoa ja tämän lomakkeen sivuilla 2 ja 3 antamiani taustatietoja voidaan käyttää tutkimustarkoituksiin Helsingin yliopistossa, muissa korkeakouluissa ja akateemisissa tutkimuslaitoksissa. Hyväksyn myös, että tallennettu puheaineisto voidaan liittää osaksi opetusministeriön alaisen Tieteen tietotekniikan keskuksen (CSC) tietokantaa. Edellä antamiani tietoja ei kuitenkaan käytetä missään yhteydessä niin, että henkilöllisyyteni paljastuisi ulkopuolisten tietoon.

(rasti ruutuun) Lisäksi annan luvan käyttää minulta tallennettua puheaineistoa kaupallisiin tarkoituksiin ilman erillistä sopimusta. Henkilöllisyyttäni ei missään tapauksessa anneta yritysten tietoon.

Paikka ja päiväys / Allekirjoitus ja nimenselvennys

————

(Puhujan/koehenkilön yhteystiedot)

 

Hae Kielipankki-portaalista:
Kuukauden tutkija: Emma Sepänaho

 

Tulevat tapahtumat

  1. Course: Data Clinic 2019-20

    1.11.201917.4.2020
  2. Kielipankki kiertueella Vaasan yliopistossa

    12.2.2020 16.0018.00

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317