Aineiston nimi: Corpus of Age-related Voice Disguise (AVOID)

Aineiston pysyvä tunniste

http://urn.fi/urn:nbn:fi:lb-2018060621

Henkilötietoja sisältävän aineiston käsittelyperuste

Henkilötietojen käsittelyn perusteena on tutkittavien antama suostumus. Tutkittavat saivat kirjallista tietoa tutkimuksesta (ks. liite 1) ja siihen liittyvästä henkilötietojen käsittelystä sekä allekirjoittivat henkilötietojen käsittelyä koskevan suostumuksen (ks. liite 2).

Rekisterinpitäjät

Tomi Kinnunen ja Rosa González Hautamäki

Rekisterinpitäjän yhteyshenkilö(t)

Tomi Kinnunen ja Rosa González Hautamäki, Itä-Suomen yliopisto

Aineiston käsittely

Itä-Suomen yliopistossa aineistoa käsittelevät seuraavat tutkijat: Rosa González Hautamäki, Md Sahidullah, Ville Hautamäki, Maria Bentz, Stefan Werner ja Tomi Kinnunen. Lisäksi aineistoon voi olla tilapäinen pääsy opiskelijalla, jota  henkilökohtaisesti ohjaa joku edellä mainituista.

Rekisterinpitäjä on sopinut FIN-CLARINin Kielipankkia hallinnoivan Helsingin yliopiston kanssa aineiston tallentamisesta. Helsingin yliopisto toimii aineiston käsittelijänä.

Aineiston luovutusperiaatteet ja käyttöehdot

Aineisto on saatavilla Helsingin yliopiston hallinnoiman Kielipankin kautta. Aineistoa luovutetaan edelleen ainoastaan niiden tutkijoiden käyttöön, jotka ovat esittäneet hyväksyttävän tutkimussuunnitelman ja joille rekisterinpitäjä (tai rekisterinpitäjän määräämä yhteyshenkilö) on myöntänyt määräaikaisen henkilökohtaisen käyttöoikeuden. Käyttöoikeushakemuksen yhteydessä hakijan on hyväksyttävä käyttöehdot.

Kun aineisto on julkaistu Kielipankissa, sen käyttöehdot kuvataan erillisellä lisenssisivulla, johon löytyy linkki aineiston kuvailutiedoista sekä Kielipankin aineistoluettelon Lisenssi-sarakkeesta.

Kuvaus aineiston sisältämistä henkilötietoryhmistä

Aineisto sisältää 60 aikuiselta henkilöltä äänitettyjä puhenäytteitä. Puhujien tehtävänä on ollut lukea annetut suomen- ja englanninkieliset tekstit useita kertoja ääneen useilla eri tavoilla: joko normaalilla äänellään tai siten, että he pyrkivät kuulostamaan joko lapselta tai vanhukselta. Teksteinä oli kaksi suomenkielistä tarinaa (Sateenkaaritarina, Pohjantuuli ja aurinko) sekä kaksi englanninkielistä virkettä. Kukin puhuja osallistui äänitykseen kaksi kertaa, joista kummallakin kerralla suoritettiin samat ääneenlukutehtävät.

Ääni- tai videomuotoista aineistoa ei ole mahdollista käsitellä tunnisteettomaksi niin, että se kuitenkin säilyisi tutkimuksen kannalta käyttökelpoisena. Puhujat voi olla mahdollista tunnistaa äänensä perusteella, mutta arkistoitavissa äänitteissä ei suoraan mainita esimerkiksi puhujien nimiä tai muita tunnistetietoja.

Äänitteiden lisäksi aineiston mukana on tallennettu kunkin puhujan ikä äänityshetkellä sekä sukupuoli. Aineiston käyttötarkoituksen kannalta kyseisten tietojen pitkäaikainen säilyttäminen on välttämätöntä.

Riskiarvio

24.9.2018 tehdyn arvion perusteella henkilötietojen mahdolliseen väärinkäyttöön liittyvät riskit on arvioitu pieniksi.

Suojatoimet

Aineiston käsittelyssä noudatetaan Kielipankin yleisiä tietosuojakäytänteitä.

Aineiston julkiset kuvailutiedot on anonymisoitu. Tiedostojen ja hakemistojen nimissä tutkittaviin viitataan koodeilla. Koodiavain on rekisterinpitäjän (yhteyshenkilön) hallussa ja sitä säilytetään erillään varsinaisesta aineistosta.

Ainoastaan tässä dokumentissa mainituilla aineiston käsittelijöillä sekä määräaikaisen henkilökohtaisen käyttöoikeuden saaneilla tutkijoilla on pääsy aineiston sisältämiin puheäänitteisiin ja muihin tunnisteellisiin tietoihin. Pääsy verkkopalvelussa olevaan aineistoon edellyttää tunnistautumista. Aineiston henkilökohtaisen käyttöoikeuden saaneilla tutkijoilla on oikeus käsitellä aineistoa vain käyttöoikeushakemuksessa mainitsemaansa tutkimustarkoitukseen. Jokainen aineistoa käsittelevä on velvollinen noudattamaan sekä Kielipankin yleisiä että aineistokohtaisia käyttöehtoja.

Päivitykset

Tämä dokumentti on luotu 24.9.2018 ja sitä voidaan tarvittaessa päivittää.

Liitteet:

Tutkittaville annettu tutkimusta koskeva informaatio
Tutkittavilta pyydetyn alkuperäisen suostumuksen tekstisisältö (näyte)


Liite 1:

Tutkittaville annettu tutkimusta koskeva informaatio

(Kopio alkuperäisen, tutkittaville annetun tiedotteen tekstisisällöstä)

Sinä olet osallistumassa muokatun puheen datan keräykseen, jonka järjestää tietojenkäsittelytiede, yleisenkielittiede, ja kieliteknologia, Itä-Suomen yliopistosta.

Informaatio tutkimuksesta

Keräämme puhetiedostoja siitä, miten koehenkilö pystyy muuntelemaan ääntään. Tämä kerätty tutkimusmateriaali on hyödyllinen tutkittaessa ääneen perustuvaa tunnistautumista.

Tässä kokeessa sinua pyydetään puhumaan ja lukemaan lauseita omalla äänelläsi ja sitten puhumaan muuntelemalla ääntäsi, jotta kuulostaisit kokonaan eri henkilöltä tai henkilöhahmolta. Äänesi nauhoitetaan mikrofonilla ja älypuhelimilla. Keräämme myös äänihuulten toimintaa elektroglottografin (EGG) kanssa. Tällä laitteella kirjataan äänihuulten värähtelyjen muotoa äänentuoton aikana niin, ettei koehenkilöön kohdisteta mitään invasiivista. Tässä metodissa käytetään elektrodipareja, jotka kiinnitetään koehenkilön kaulaan. EGG:n käyttö on todettu turvalliseksi eikä ole mitään tunnettuja riskejä sen käytön suhteen. 

Yksi äänitystuokio kestää alle 45 minuuttia. Sinua pyydetään osallistumaan ainakin kahteen sessioon. Osallistumisesi tähän tutkimukseen on täysin vapaaehtoista. Jos päätät osallistua ja muutat mielesi myöhemmin, voit peruuttaa osallistumisesi ilman sanktiota milloin vain.

Henkilökohtainen tieto, jota keräämme tutkimuksessamme, on täysin luottamuksellista. Yksityisyyttäsi varjellaan kaikessa tutkimuksesta julkaistavassa materiaalissa. Tässä kokeessa kerätty materiaali säilytetään käytettäväksi myös tulevissa tutkimuksissa.

 


Liite 2:

Tutkittavilta pyydetyn alkuperäisen suostumuksen tekstisisältö (näyte)

Annan suostumukseni siihen, että puheestani tehtyä äänitallennetta voidaan käyttää tutkimusaineistona ja tiedeyhteisön sisäisissä tilaisuuksissa esittelymateriaalina. Aineistoa käsitellään nimettömänä, toisin sanoen tutkimukseen osallistuvien tietosuoja turvataan muuttamalla nimet ja muut tunnistamisen mahdollistavat tiedot julkaistavassa tutkimusmateriaalissa. Aineisto saadaan arkistoida riittävän tietoturvan tason tarjoavaan tieteellisen aineiston arkistoon.

Paikka ja päiväys:

_________________________________________   ____  /  ____  / ___________

__________________________________

Allekirjoitus

Nimen selvennys:

Tätä lupaa allekirjoitetaan kahtena kappaleena, joista toinen jää tutkittavalle. Tämä suostumus voidaan peruuttaa ilmoittamalla asiasta tutkijalle.

 

Aineiston nimi: FinINTAS – Spontaanin ja ääneen luetun suomenkielisen puheen korpus

Aineiston pysyvä tunniste

http://urn.fi/urn:nbn:fi:lb-20140730194

Henkilötietoja sisältävän aineiston käsittelyperuste

Aineiston käsittelyperusteena on 24.5.2018 alkaen yleisen edun mukainen tutkimus.

Alkuperäistä tutkimusta varten äänitetyt puhujat saivat suullisesti tietoa tutkimuksesta sekä allekirjoittivat suostumuksen (ks. liite), jossa antoivat luvan käyttää aineistoa tutkimuksessa ja opetuksessa ja tallettaa sen pysyvästi Kielipankkiin. Puhujille kerrottiin lisäksi, että aineistosta aiotaan tutkia mm. puhekieltä ja suomen kielen ääntämiseen ja fonetiikkaan liittyviä piirteitä. Vaikka suostumukset ja äänityksiin liittyvät menettelytavat olivat asianmukaisia ainakin ko. tieteenalalla 2000-luvun alussa vallinneisiin käytänteisiin verrattuna, suostumukset ja tutkittavien saama informaatio eivät kaikilta osin täytä 25.5.2018 alkaen sovellettavan tietosuoja-asetuksen vaatimuksia. Aineiston iästä johtuen puhujia olisi ollut erittäin vaikeaa ellei mahdotonta enää tavoittaa suostumusten päivittämistä varten. Tästä syystä käsittelyperustetta on vaihdettu.

Rekisterinpitäjä

Helsingin yliopisto

Rekisterinpitäjän yhteyshenkilö

Mietta Lennes

Aineiston käsittely

FIN-CLARIN toimii aineiston käsittelijänä.

Varsinainen puheaineisto on äänitetty vuosina 2001–2004 Helsingin yliopiston silloisella puhetieteiden laitoksella. Vuoteen 2018 saakka aineisto on ollut Helsingin yliopistossa sekä Jyväskylän yliopiston kielten laitoksella Mietta Lenneksen ja muutamien yksittäisten fonetiikan tutkijoiden käytössä. Aineiston sijoittamisesta Kielipankkiin on sovittu FIN-CLARINin kanssa alustavasti vuonna 2011, kun Mietta Lennes alkoi työskennellä FIN-CLARINissa.

Alkuperäisen aineiston keruu tapahtui EU-rahoitteisessa INTAS-hankkeessa numero 00-915, jossa olivat suomalaisten Helsingin yliopiston ja Jyväskylän yliopiston lisäksi mukana Pietarin valtionyliopisto Venäjältä sekä Amsterdamin yliopisto Alankomaista. Yhteishankkeen tutkimussuunnitelman pohjalta kussakin kolmessa maassa kerättiin osittain samantyyppiset aineistot, jotta puheen ilmiöitä voitaisiin tutkia ja vertailla kielten välillä. Kaikkien kolmen osallistujamaan tutkimusryhmät luovuttivat keräämänsä aineistot kahden muun kumppanimaan tutkimusryhmille. Myös Helsingissä kerätty suomen kielen aineisto kopioitiin CD-ROMeille ja sekä Pietariin että Amsterdamiin luovutettiin yksi kopio. Vastaanottajien kanssa kuitenkin sovittiin, että materiaali on tarkoitettu ainoastaan kyseiseen hankkeeseen kuuluneiden laitosten sisäiseen käyttöön.

Edellisen lisäksi suurin osa ääniteaineistosta ja sen karkeat litteroinnit on vuonna 2013 luovutettu Aalto-yliopistoon professori Mikko Kurimon tutkimusryhmälle, joka on käyttänyt aineistoa suomenkielisen automaattisen puheentunnistimen parantamiseen. Aallossa aineistoa käsitteleville tutkijoille on luovutettu aineiston yhteydessä tekstimuotoinen käyttöehtojen kuvaus ja käyttöehdoista on sovittu erikseen aineiston vastaanottaneen tutkijan kanssa.

INTAS-tutkimushankkeen vastuullisena johtajana toimi fonetiikan professori Antti Iivonen. Äänitysten sekä aineiston litteroinnin ja annotoinnin koordinoinnista vastasi fonetiikan jatko-opiskelija Mietta Lennes, joka teki itse puolet äänityksistä silloisen Teknillisen korkeakoulun akustiikan ja äänenkäsittelytekniikan laitoksen kaiuttomissa huoneissa. Toisen puolen äänityksistä teki fonetiikan opiskelija Olli Rissanen eräässä äänitysstudiossa. Äänittäjien lisäksi aineiston litterointiin ja foneettiseen annotointiin osallistui joukko fonetiikan opiskelijoita Helsingin yliopistossa sekä kaksi pietarilaista suomen kielen tutkijaa. Mietta Lennes on osallistunut aineiston manuaaliseen ja puoliautomaattiseen annotointiin, kehittänyt uusia puheen annotoinnissa tarvittavia menetelmiä sekä käyttänyt aineistoa omassa suomenkielisen arkipuheen foneettista vaihtelua koskevassa väitöskirjatutkimuksessaan.

Aineiston luovutusperiaatteet ja käyttöehdot

Aineisto tulee saataville Kielipankin kautta FIN-CLARINin kanssa tehtävän tallennussopimuksen mukaisilla ehdoilla, todennäköisesti lisenssillä CLARIN RES +NC +PRIV +DEP. Lisenssin mukaisesti aineistoa voidaan luovuttaa ainoastaan niiden tutkijoiden käyttöön, jotka ovat esittäneet hyväksyttävän tutkimussuunnitelman ja joille rekisterinpitäjä (tai rekisterinpitäjän määräämä yhteyshenkilö) on myöntänyt määräaikaisen henkilökohtaisen käyttöoikeuden. Käyttöoikeushakemuksen yhteydessä hakijan on hyväksyttävä lisenssin mukaiset käyttöehdot. (Luvanvaraisen käytön on katsottu olevan myös periaatteiltaan linjassa tutkittavien antaman alkuperäisen suostumuksen kanssa, koska siinä tutkittavien annettiin mm. ymmärtää, ettei aineistoa levitetä ulkopuolisille tahoille.)

Kun aineisto on saatavilla Kielipankissa, tarkemmat aineistokohtaiset käyttöehdot kuvataan erillisellä lisenssisivulla, johon löytyy linkki aineiston kuvailutiedoista sekä Kielipankin aineistoluettelon Lisenssi-sarakkeesta.

Kun aineisto on tallennettu Kielipankkiin, FIN-CLARIN pyrkii saamaan yhteyden kaikkiin tiedossaan oleviin tutkijoihin, joilla on ennestään aineiston kopio käytössään, ja varmistamaan, että äänitteiden tarpeettomat kopiot tuhotaan, koska ne löytyvät jatkossa Kielipankista.

Kuvaus aineiston sisältämistä henkilötietoryhmistä

Aineisto sisältää studio-oloissa tallennettuja, teknisesti korkealaatuisia puheäänitteitä kahden, yleensä toisensa hyvin tuntevan puhujan välisistä vapaamuotoisista keskusteluista sekä samojen puhujien ääneen lukemista teksteistä. Puhujille ehdotettiin muutamia puheenaiheita, kuten koulunkäynti, elokuvat tai matkailu, mutta heillä on ollut mahdollisuus kuljettaa keskustelua haluamallaan tavalla. Puhujat saivat jutella rauhassa keskenään, mutta he olivat tietoisia siitä, että heidän keskustelunsa tallennetaan ja että äänitystilan ulkopuolella tai studion ikkunan takana on tutkija huolehtimassa teknisestä tarkkailusta ja tutkittavien yleisestä hyvinvoinnista. Keskusteluiden sisältö onkin aineiston litteroijien muistin mukaan harmitonta ja ulkopuolisista henkilöistä on puhuttu verrattain vähän. Jokainen puhuja osallistui kahteen äänitykseen, joista jälkimmäisessä tehtävänä oli lukea ääneen muutamia erilaisia tekstejä.

Puheäänitteitä sisältävää aineistoa ei voida käsitellä tunnisteettomaksi niin, että se kuitenkin säilyisi esimerkiksi foneettisen tai muun kielitieteellisen tutkimuksen kannalta käyttökelpoisena. Äänen lisäksi puhujien henkilötiedoista on tallennettu aineiston yhteyteen sukupuoli sekä ikäryhmä (joko nuoret aikuiset tai keski-ikäiset/varttuneet puhujat).

Äänitteistä ja litteraateista on poistettu niissä mainitut selvästi puhujiin itseensä viittaavat etu- ja sukunimet, mutta esimerkiksi koulujen ja paikkojen nimet on säilytetty, jotta aineiston käyttö foneettiseen tutkimukseen olisi mahdollista. Myös aineistosta tehdyt tekstimuotoiset litteraatit saattavat kuitenkin sisältää suoria tai epäsuoria tunnisteita.

Alkuperäisen tutkimuksen yhteydessä puhujista kerättiin lomakkeella taustatietoja esimerkiksi heidän ja heidän vanhempiensa asuinpaikoista, muusta murretaustasta ja kielitaidosta sekä erilaisista terveydentilaan liittyvistä piirteistä, jotka saattavat vaikuttaa puheääneen. Kyseiset lomakkeet on kuitenkin tuhottu. Suurin osa tiedoista katsottiin tutkimuksen kannalta tarpeettomiksi. Aineistossa on kuitenkin säilytetty välttämätön tieto kunkin puhujan kielitaidosta (ts. mitä vieraita kieliä on ilmoittanut osaavansa) sekä tieto siitä, onko puhuja joskus asunut pääkaupunkiseudun ulkopuolella.

Riskiarvio

24.5.2018 tehdyn arvion perusteella henkilötietojen mahdolliseen paljastumiseen liittyvät riskit on arvioitu pieniksi.

Suojatoimet

Aineiston käsittelyssä noudatetaan Kielipankin yleisiä tietosuojakäytänteitä. Pääsy Kielipankin kautta välitettävään aineistoon on ainoastaan henkilökohtaisen määräaikaisen käyttöoikeuden saaneilla tutkijoilla.

Tiedostojen ja hakemistojen nimissä ja aineistosta tehdyissä tekstimuotoisissa litteraateissa tutkittaviin viitataan koodeilla. Koodiavain ja alkuperäiset suostumukset ovat rekisterinpitäjän yhteyshenkilön hallussa ja niitä säilytetään lukitussa tilassa erillään varsinaisesta aineistosta. Aineiston julkiset kuvailutiedot on anonymisoitu.

Aineiston käyttöoikeuden saaneilla tutkijoilla on oikeus käsitellä aineistoa vain käyttöoikeushakemuksessa mainitsemaansa tutkimustarkoitukseen. Luvan saanut tutkija on velvollinen käsittelemään hallussaan olevaa aineistoa vain riittävän suojatussa ympäristössä. Hän ei saa levittää tunnisteellisia kopioita aineistosta tai sen osista. Hyviä tutkimuseettisiä käytänteitä noudattaen tutkija voi julkaista yksittäisiä, lyhyitä näytteitä alkuperäisestä ääniaineistosta tai äänitteiden litteraateista, mikäli kyseiset näytteet on joko kokonaan anonymisoitu tai pseudonymisoitu. Tutkija voi myös esittää tunnisteellisia tai muokattuja näytteitä tutkimusyhteisön sisäisissä tilaisuuksissa taikka opetustilanteissa, jos se on hänen käyttöoikeushakemuksessaan kuvatun käyttötarkoituksen mukaista ja näytteet valitaan tai käsitellään siten, että niissä olevien henkilötietojen määrä on mahdollisimman vähäinen. Mikäli tutkija haluaa julkaista tutkimustarkoitusta varten muokatun aineiston uudelleen, hänen tulee sopia uuden aineistoversion välittämisestä FIN-CLARINin kanssa. Käyttöoikeuden saanut tutkija sitoutuu poistamaan kaikki aineistosta tekemänsä kopiot, kun hakemuksen mukainen käyttötarkoitus on päättynyt.

Päivitykset

Tämä dokumentti on luotu 24.5.2018 ja sitä on päivitetty viimeksi 19.9.2018, jolloin on tarkennettu esimerkkejä käyttöoikeuden saajilta edellytettävistä suojatoimista.

 


Liite:

Puhujilta pyydetty alkuperäinen suostumusteksti (näyte)

 

Tallennusajat: (sovitut äänityspäivämäärät)
Tunnus: M1

(Kyselyosio puhujan/koehenkilön taustatiedoista, eivät sisällä nimeä tai yhteystietoja)

Puhujan suostumus

Olen tietoinen siitä, että puhettani tallennetaan/on tallennettu tämän lomakkeen sivulla 2 mainittuina aikoina. Hyväksyn sen, että minulta tallennettua puheaineistoa ja tämän lomakkeen sivuilla 2 ja 3 antamiani taustatietoja voidaan käyttää tutkimustarkoituksiin Helsingin yliopistossa, muissa korkeakouluissa ja akateemisissa tutkimuslaitoksissa. Hyväksyn myös, että tallennettu puheaineisto voidaan liittää osaksi opetusministeriön alaisen Tieteen tietotekniikan keskuksen (CSC) tietokantaa. Edellä antamiani tietoja ei kuitenkaan käytetä missään yhteydessä niin, että henkilöllisyyteni paljastuisi ulkopuolisten tietoon.

(rasti ruutuun) Lisäksi annan luvan käyttää minulta tallennettua puheaineistoa kaupallisiin tarkoituksiin ilman erillistä sopimusta. Henkilöllisyyttäni ei missään tapauksessa anneta yritysten tietoon.

Paikka ja päiväys / Allekirjoitus ja nimenselvennys

————

(Puhujan/koehenkilön yhteystiedot)

 

Tämä sisältö on suojattu salasanalla. Syötä salasanasi näyttääksesi sisällön:

Hae Kielipankki-portaalista:
Krister Lindén
Kuukauden tutkija: Krister Lindén

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot