Title of Resource: Follow-up Study of Dialects of Finnish (seuruu)
Metadata: urn:nbn:fi:lb-2014073043
License: urn:nbn:fi:lb-2015041307
This page describes the specific conditions regarding the processing of the personal data in the Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland.
Institute for the Languages of Finland
Hakaniemenranta 6
00530 Helsinki
Data Protection Officer of the Institute for the Languages of Finland
Email: maija.sutinen@kotus.fi
The Language Bank of Finland is a Data Processor on behalf of the Controller.
For further details on the data protection of the resources in the Language Bank of Finland, please contact the helpdesk of the Language Bank.
The Resource consists of
A large part of the recordings represent thematic interviews, the topics of which follow the life stages of the interviewees and local issues. At the beginning of the recordings, the full name of the interviewee and the place where the interview was conducted are usually mentioned. The identity of the interviewee may also be revealed indirectly on the basis of their voice, the things mentioned in the interview and the background information included in the Resource, especially in cases of small rural towns.
Efforts have not been made in order to completely remove the identifiers from the recordings, as this would hinder the primary uses of the material, i.e., comparing and monitoring dialects. The recordings cannot be edited to the extent of making them completely anonymous without also making it impossible to carry out the intended research in an appropriate way.
The interviewees were verbally informed that the data collected from them would be used for research and that the interviews would also be archived for later research use. However, no comprehensive documents exist about the permissions asked from the interviewees. Some of the researchers and students who acted as interviewers were instructed to avoid emphasizing dialect or language research when informing their interviewees, in order not to affect their speech and language use. The interviewees were also told that they might be asked to participate in further interviews. Participation was voluntary in all cases.
The data subjects were native speakers of Finnish who represented different ages and ten different rural municipalities in Finland (Alastaro, Alatornio, Artjärvi, Eurajoki, Kauhava, Lapinlahti, Liperi, Pälkäne, Savitaipale, Sotkamo) and volunteered to be interviewed one or more times. Two rounds of interviews were completed partly with the same subjects. The first round of interviews started in 1989 and the second round lasted from 1999 to 2007.
The aim of collecting the data was to study, compare and monitor dialects and their changes over time, both on an individual level and between groups of speakers and localities. Even later, further rounds of interviews, partly with the same interviewees, have been carried out in the same municipalities by new research projects at approximately 10-year intervals.
In these data protection terms and conditions, End-User means the party acting as the Controller for the Resource received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the Language Bank user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally.
The End-User understands that when receiving the Resources, it becomes a controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data.
When applying for access to this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice. The link can be updated at a later time by using this form. This information will be published on the website of the Language Bank of Finland.
This page was last updated on 19.7.2024.
Persistent identifier of this page: urn:nbn:fi:lb-2021062247
Aineiston nimi: Murteenseuruukorpus (seuruu)
Aineiston kuvailutiedot: urn:nbn:fi:lb-2014073043
Lisenssi: urn:nbn:fi:lb-2015041317
Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.
Kotimaisten kielten keskus
Hakaniemenranta 6
00530 Helsinki
Kotimaisten kielten keskuksen tietosuojavastaava
Sähköpostiosoite: maija.sutinen@kotus.fi
Kielipankki toimii tämän Aineiston osalta henkilötietojen käsittelijänä.
Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.
Aineisto koostuu
Suuri osa tallenteista on teemahaastatteluja, joiden puheenaiheet myötäilevät haastateltavien elämänvaiheita ja paikkakunnan asioita. Äänitteiden alussa mainitaan useimmiten haastateltavan koko nimi ja paikkakunta, jolla haastattelu on tehty. Haastateltavan henkilöllisyys saattaa käydä ilmi myös muista kohdista epäsuorasti hänen oman puheäänensä, haastattelussa mainittujen asioiden ja muiden Aineistoon sisältyvien tietojen perusteella etenkin, kun kyseessä ovat olleet pienehköt maaseutupaikkakunnat.
Äänitteissä esiintyviä tunnisteita ei ole pyritty poistamaan tai häivyttämään, koska tämä haittaisi Aineiston pääasiallista käyttöä murteiden vertailuun ja seurantaan. Äänitteitä ei voida muokata täysin tunnisteettomiksi siten, että tutkimuksen toteuttaminen olisi edelleen mahdollista tarkoituksenmukaisella tavalla.
Haastateltaville on suullisesti kerrottu, että heiltä kerättyjä tietoja tullaan käyttämään tutkimukseen ja että haastattelut myös arkistoidaan myöhempää tutkimuskäyttöä varten. Kattavia dokumentteja ei varhaisemmista äänitteistä kuitenkaan ole. Toisinaan haastattelijoina toimineet tutkijat ja opiskelijat ovat myös saaneet ohjeekseen välttää korostamasta murre- tai kielentutkimusta, jottei taustoitus vaikuttaisi haastateltavien puheeseen ja kielenkäyttöön. Haastateltaville kerrottiin lisäksi, että heitä voitaisiin pyytää osallistumaan myös uusiin haastattelukierroksiin. Osallistuminen oli kuitenkin kaikissa tapauksissa vapaaehtoista.
Rekisteröidyt ovat kymmeneltä eri maaseutupaikkakunnalta (Alastaro, Alatornio, Artjärvi, Eurajoki, Kauhava, Lapinlahti, Liperi, Pälkäne, Savitaipale, Sotkamo) kotoisin olevia eri-ikäisiä suomalaisia, jotka suostuivat vapaaehtoisesti haastateltaviksi. Ensimmäinen haastattelukierros aloitettiin vuonna 1989 ja toinen kierros kesti vuodesta 1999 vuoteen 2007.
Aineiston keräämisen tavoitteena on ollut, että murteita ja niiden muuttumista ajan mittaan voitaisiin tutkia, vertailla ja seurata sekä yksilötasolla että puhujaryhmien ja paikkakuntien välillä. Samoilla paikkakunnilla on uusina tutkimushankkeina toteutettu haastattelukierroksia osaksi samojen tutkittavien kanssa vielä myöhemminkin noin 10 vuoden välein.
Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.
Käyttäjä ymmärtää, että aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.
Kun haet käyttöoikeutta tähän Aineistoon, ilmoita oman hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille. Linkkiä voi tarvittaessa päivittää myöhemmin tällä lomakkeella. Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.
Tätä sivua on viimeksi päivitetty 19.7.2024.
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2021062248
http://urn.fi/urn:nbn:fi:lb-2018060621
Henkilötietojen käsittelyn perusteena on tutkittavien antama suostumus. Tutkittavat saivat kirjallista tietoa tutkimuksesta (ks. liite 1) ja siihen liittyvästä henkilötietojen käsittelystä sekä allekirjoittivat henkilötietojen käsittelyä koskevan suostumuksen (ks. liite 2).
Tomi Kinnunen ja Rosa González Hautamäki
Tomi Kinnunen ja Rosa González Hautamäki, Itä-Suomen yliopisto
Itä-Suomen yliopistossa aineistoa käsittelevät seuraavat tutkijat: Rosa González Hautamäki, Md Sahidullah, Ville Hautamäki, Maria Bentz, Stefan Werner ja Tomi Kinnunen. Lisäksi aineistoon voi olla tilapäinen pääsy opiskelijalla, jota henkilökohtaisesti ohjaa joku edellä mainituista.
Rekisterinpitäjä on sopinut FIN-CLARINin Kielipankkia hallinnoivan Helsingin yliopiston kanssa aineiston tallentamisesta. Helsingin yliopisto toimii aineiston käsittelijänä.
Aineisto on saatavilla Helsingin yliopiston hallinnoiman Kielipankin kautta. Aineistoa luovutetaan edelleen ainoastaan niiden tutkijoiden käyttöön, jotka ovat esittäneet hyväksyttävän tutkimussuunnitelman ja joille rekisterinpitäjä (tai rekisterinpitäjän määräämä yhteyshenkilö) on myöntänyt määräaikaisen henkilökohtaisen käyttöoikeuden. Käyttöoikeushakemuksen yhteydessä hakijan on hyväksyttävä käyttöehdot.
Kun aineisto on julkaistu Kielipankissa, sen käyttöehdot kuvataan erillisellä lisenssisivulla, johon löytyy linkki aineiston kuvailutiedoista sekä Kielipankin aineistoluettelon Lisenssi-sarakkeesta.
Aineisto sisältää 60 aikuiselta henkilöltä äänitettyjä puhenäytteitä. Puhujien tehtävänä on ollut lukea annetut suomen- ja englanninkieliset tekstit useita kertoja ääneen useilla eri tavoilla: joko normaalilla äänellään tai siten, että he pyrkivät kuulostamaan joko lapselta tai vanhukselta. Teksteinä oli kaksi suomenkielistä tarinaa (Sateenkaaritarina, Pohjantuuli ja aurinko) sekä kaksi englanninkielistä virkettä. Kukin puhuja osallistui äänitykseen kaksi kertaa, joista kummallakin kerralla suoritettiin samat ääneenlukutehtävät.
Ääni- tai videomuotoista aineistoa ei ole mahdollista käsitellä tunnisteettomaksi niin, että se kuitenkin säilyisi tutkimuksen kannalta käyttökelpoisena. Puhujat voi olla mahdollista tunnistaa äänensä perusteella, mutta arkistoitavissa äänitteissä ei suoraan mainita esimerkiksi puhujien nimiä tai muita tunnistetietoja.
Äänitteiden lisäksi aineiston mukana on tallennettu kunkin puhujan ikä äänityshetkellä sekä sukupuoli. Aineiston käyttötarkoituksen kannalta kyseisten tietojen pitkäaikainen säilyttäminen on välttämätöntä.
24.9.2018 tehdyn arvion perusteella henkilötietojen mahdolliseen väärinkäyttöön liittyvät riskit on arvioitu pieniksi.
Aineiston käsittelyssä noudatetaan Kielipankin yleisiä tietosuojakäytänteitä.
Aineiston julkiset kuvailutiedot on anonymisoitu. Tiedostojen ja hakemistojen nimissä tutkittaviin viitataan koodeilla. Koodiavain on rekisterinpitäjän (yhteyshenkilön) hallussa ja sitä säilytetään erillään varsinaisesta aineistosta.
Ainoastaan tässä dokumentissa mainituilla aineiston käsittelijöillä sekä määräaikaisen henkilökohtaisen käyttöoikeuden saaneilla tutkijoilla on pääsy aineiston sisältämiin puheäänitteisiin ja muihin tunnisteellisiin tietoihin. Pääsy verkkopalvelussa olevaan aineistoon edellyttää tunnistautumista. Aineiston henkilökohtaisen käyttöoikeuden saaneilla tutkijoilla on oikeus käsitellä aineistoa vain käyttöoikeushakemuksessa mainitsemaansa tutkimustarkoitukseen. Jokainen aineistoa käsittelevä on velvollinen noudattamaan sekä Kielipankin yleisiä että aineistokohtaisia käyttöehtoja.
Tämä dokumentti on luotu 24.9.2018 ja sitä voidaan tarvittaessa päivittää.
Liitteet:
Tutkittaville annettu tutkimusta koskeva informaatio
Tutkittavilta pyydetyn alkuperäisen suostumuksen tekstisisältö (näyte)
(Kopio alkuperäisen, tutkittaville annetun tiedotteen tekstisisällöstä)
Sinä olet osallistumassa muokatun puheen datan keräykseen, jonka järjestää tietojenkäsittelytiede, yleisenkielittiede, ja kieliteknologia, Itä-Suomen yliopistosta.
Informaatio tutkimuksesta
Keräämme puhetiedostoja siitä, miten koehenkilö pystyy muuntelemaan ääntään. Tämä kerätty tutkimusmateriaali on hyödyllinen tutkittaessa ääneen perustuvaa tunnistautumista.
Tässä kokeessa sinua pyydetään puhumaan ja lukemaan lauseita omalla äänelläsi ja sitten puhumaan muuntelemalla ääntäsi, jotta kuulostaisit kokonaan eri henkilöltä tai henkilöhahmolta. Äänesi nauhoitetaan mikrofonilla ja älypuhelimilla. Keräämme myös äänihuulten toimintaa elektroglottografin (EGG) kanssa. Tällä laitteella kirjataan äänihuulten värähtelyjen muotoa äänentuoton aikana niin, ettei koehenkilöön kohdisteta mitään invasiivista. Tässä metodissa käytetään elektrodipareja, jotka kiinnitetään koehenkilön kaulaan. EGG:n käyttö on todettu turvalliseksi eikä ole mitään tunnettuja riskejä sen käytön suhteen.
Yksi äänitystuokio kestää alle 45 minuuttia. Sinua pyydetään osallistumaan ainakin kahteen sessioon. Osallistumisesi tähän tutkimukseen on täysin vapaaehtoista. Jos päätät osallistua ja muutat mielesi myöhemmin, voit peruuttaa osallistumisesi ilman sanktiota milloin vain.
Henkilökohtainen tieto, jota keräämme tutkimuksessamme, on täysin luottamuksellista. Yksityisyyttäsi varjellaan kaikessa tutkimuksesta julkaistavassa materiaalissa. Tässä kokeessa kerätty materiaali säilytetään käytettäväksi myös tulevissa tutkimuksissa.
Annan suostumukseni siihen, että puheestani tehtyä äänitallennetta voidaan käyttää tutkimusaineistona ja tiedeyhteisön sisäisissä tilaisuuksissa esittelymateriaalina. Aineistoa käsitellään nimettömänä, toisin sanoen tutkimukseen osallistuvien tietosuoja turvataan muuttamalla nimet ja muut tunnistamisen mahdollistavat tiedot julkaistavassa tutkimusmateriaalissa. Aineisto saadaan arkistoida riittävän tietoturvan tason tarjoavaan tieteellisen aineiston arkistoon.
Paikka ja päiväys:
_________________________________________ ____ / ____ / ___________
__________________________________
Allekirjoitus
Nimen selvennys:
Tätä lupaa allekirjoitetaan kahtena kappaleena, joista toinen jää tutkittavalle. Tämä suostumus voidaan peruuttaa ilmoittamalla asiasta tutkijalle.
Title of Resource: Aalto University DSP Course Conversation Corpus 2013- (DSPCON)
Metadata: urn:nbn:fi:lb-2015101901
License: urn:nbn:fi:lb-2016112312
This page describes the specific conditions regarding the processing of the personal data in this Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland.
University of Helsinki
PO Box 3
00014 University of Helsinki
Phone: 02941 911
For further details on the data protection of the resources in the Language Bank of Finland, please contact FIN-CLARIN helpdesk.
Data Protection Officer of the University of Helsinki
Email: tietosuoja@helsinki.fi
This information is currently being updated. Please check the metadata of the Resource (see the link on top of this page).
This information is currently being updated. Please check the metadata of the Resource (see the link on top of this page).
In these data protection terms and conditions, End-User means the party acting as the Controller for the Resources received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the CLARIN service user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally.
The End-User understands that when receiving the Resource, it becomes a Controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data.
In order to process the Resource outside the European Economic Area, a license may be granted only on the basis of a specific application. In that case, please contact the Language Bank of Finland.
When you start using this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice by using this form. This information will be published on the website of the Language Bank of Finland.
This page was last updated on 24.6.2021.
Persistent identifier of this page: urn:nbn:fi:lb-2021062221
Aineiston nimi: Aalto-yliopiston DSP-kurssin keskustelukorpus 2013- (DSPCON)
Aineiston kuvailutiedot: urn:nbn:fi:lb-2015101901
Lisenssi: urn:nbn:fi:lb-2016112312
Tämä Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.
Helsingin yliopisto
PL 3
00014 Helsingin yliopisto
Puhelin: 02941 911
Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.
Helsingin yliopiston tietosuojavastaava
Sähköpostiosoite: tietosuoja@helsinki.fi
Aineisto koostuu opiskelijoiden itse äänittämistä lyhyistä ja vapaamuotoisista keskusteluista toisen saman kurssin osallistujan kanssa. Opiskelijat ovat itse litteroineet pienen osan omista puheenvuoroistaan. Äänitykset on tehty Aalto-yliopistossa pidettyyn kurssiin liittyvänä harjoitustyönä. Opiskelijoille on kerrottu, että aineisto tullaan tallentamaan Kielipankkiin. Opiskelijoiden nimiä ei ole tallennettu aineistoon.
Aineisto on kerätty erityisesti automaattisen puheentunnistuksen kehittämistä varten, ja tähän tarkoitukseen tarvitaan mahdollisimman paljon luonnollista puheaineistoa, josta tarkka sanallinen sisältö on tiedossa ainakin jostakin aineiston osasta. Tästä syystä myös tekstimuotoiset litteraatit saattavat sisältää suoria tai epäsuoria tunnisteita, koska opiskelijoiden tehtävänä on ollut litteroida puhe mahdollisimman tarkasti. Aineiston koon vuoksi sen kattava tarkistaminen ei ole ollut jälkikäteen mahdollista.
Tiedostojen ja hakemistojen nimissä ja aineistosta tehdyissä tekstimuotoisissa litteraateissa tutkittaviin viitataan koodeilla. Opiskelijoiden nimet on poistettu jo tallennusvaiheessa. Aineiston julkiset kuvailutiedot on anonymisoitu.
Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan Aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja Aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.
Käyttäjä ymmärtää, että Aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.
Aineiston voi saada käsiteltäväksi Euroopan talousalueen ulkopuolella vain erillisestä hakemuksesta. Ota siinä tapauksessa yhteyttä Kielipankkiin.
Kun ryhdyt käyttämään tätä Aineistoa, ilmoita oman hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille tällä lomakkeella. Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.
Tätä sivua on viimeksi päivitetty 24.6.2021.
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-202106222
Title of Resource: Speech and EGG (Electroglottography) Simultaneous Recordings (aku-egg)
Metadata: urn:nbn:fi:lb-2020112923
License: urn:nbn:fi:lb-2015041301
This page describes the specific conditions regarding the processing of the personal data in this Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland.
University of Helsinki
PO Box 3
00014 University of Helsinki
Phone: 02941 911
For further details on the data protection of the resources in the Language Bank of Finland, please contact FIN-CLARIN helpdesk.
Data Protection Officer of the University of Helsinki
Email: tietosuoja@helsinki.fi
The Resource contains brief speech samples (individual words, isolated vowels and some read-aloud text about weather phenomena) from individual speakers and the EGG signal that was registered simultaneously from them. The recordings were made in acoustically high quality conditions. It may be possible to identify individual speakers on the basis of their voice, but apart from the speech signals, he Resource does not contain any other identifying information.
The participants were 12 native Finnish speaking adult volunteers (6 male, 6 female).
In these data protection terms and conditions, End-User means the party acting as the Controller for the Resource received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the CLARIN service user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally.
The End-User understands that when receiving the Resource, it becomes a Controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data.
In order to process the Resource outside the European Economic Area, a license may be granted only on the basis of a specific application. In that case, please contact the Language Bank of Finland.
When you start using this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice by using this form. This information will be published on the website of the Language Bank of Finland.
This page was last updated on 24.6.2021.
Persistent identifier of this page: urn:nbn:fi:lb-2021062229
Aineiston nimi: Puheen ja EGG:n samanaikaiset tallenteet
Aineiston kuvailutiedot: urn:nbn:fi:lb-2020112923
Lisenssi: urn:nbn:fi:lb-2015041301
Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.
Helsingin yliopisto
PL 3
00014 Helsingin yliopisto
Puhelin: 02941 911
Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.
Helsingin yliopiston tietosuojavastaava
Sähköpostiosoite: tietosuoja@helsinki.fi
Aineisto sisältää lyhyitä puhenäytteitä (irrallisina äännettyjä sanoja ja vokaaleja sekä ääneen luettua sääaiheista tekstiä) yksittäisiltä puhujilta sekä heiltä samanaikaisesti tallennettua elektroglottografiasignaalia (EGG). Yksittäisiä puhujia saattaa olla mahdollista tunnistaa heidän äänensä perusteella, mutta Aineisto ei sisällä muita heitä koskevia tunnistetietoja.
Tutkimukseen osallistuneet puhujat olivat aikuisia, äidinkielenään suomea puhuvia vapaaehtoisia henkilöitä. Puhujia oli yhteensä 12 (6 naista, 6 miestä).
Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.
Käyttäjä ymmärtää, että aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.
Aineiston voi saada käsiteltäväksi Euroopan talousalueen ulkopuolella vain erillisestä hakemuksesta. Ota siinä tapauksessa yhteyttä Kielipankkiin.
Kun ryhdyt käyttämään tätä Aineistoa, ilmoita hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille tällä lomakkeella. Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.
Tätä sivua on viimeksi päivitetty 24.6.2021.
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2021062230
Aineiston nimi: Lahjoita puhetta -aineisto (puhelahjat)
Aineiston kuvailutiedot: urn:nbn:fi:lb-2020090321
Lisenssi: urn:nbn:fi:lb-2022020221
Tämä Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.
Helsingin yliopisto
PL 3
00014 Helsingin yliopisto
Puhelin: 02941 911
Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.
Helsingin yliopiston tietosuojavastaava
Sähköpostiosoite: tietosuoja@helsinki.fi
Alkuperäinen Aineisto koostuu puheäänitteistä, äänitteiden tallennukseen liittyvistä teknisistä oheistiedoista sekä puhettaan lahjoittaneiden henkilöiden vapaaehtoisesti antamista taustatiedoista. Kuhunkin äänitallenteeseen voi liittyä myös puheen sanallisen sisällön tekstimuotoinen kuvaus eli litteraatti sekä muita kuvauksia ja merkkauksia, joita on tuotettu käsin tai koneellisesti.
Aineistoon kuuluvat äänitteet ovat alkuperäisen sisältönsä osalta muokkaamattomia, vaikka äänitiedostojen tallennusformaatti saattaa käytännön syistä vaihdella. Joissakin tapauksissa puhujan henkilöllisyys voi käydä ilmi joko suoraan tai epäsuorasti esimerkiksi hänen oman puheäänensä tai äänitteessä mainittujen asioiden perusteella. Aineistoa ei kuitenkaan saa käyttää puhujien henkilöllisyyden selvittämiseen.
Äänitteiden oheistietoihin sisältyvät
Tekniset oheistiedot on tallennettu Aineistoon karkealla tasolla siten, että laitetietojen perusteella ei voi selvittää tallenteen tekijän tai laitteen käyttäjän henkilöllisyyttä.
Puheen lahjoittajien vapaaehtoisesti antamiin taustatietoihin kuuluu seuraavia tietoja:
Taustatietojen oikeellisuutta ei ole mahdollista jälkikäteen tarkistaa. Puheen lahjoittajat ovat voineet halutessaan jättää taustatietokysymyksiä väliin tai he ovat saattaneet antaa niihin vääriä tietoja. Vapaatekstinä kirjoitettavat vastaukset on voinut antaa haluamallaan tarkkuudella. Jos puhetta on lahjoitettu samalla laitteella useita kertoja, lahjoittaja on voinut antaa samoihin taustatietokysymyksiin useita erilaisia vastauksia.
Rekisteröidyt ovat Lahjoita puhetta –kampanjaan osallistuneita henkilöitä, jotka ovat vapaaehtoisesti lahjoittaneet puhettaan ja valitsemiaan taustatietoja.
Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan Aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja Aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.
Käyttäjä ymmärtää, että Aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.
Käyttäjän on ilmoitettava viivytyksettä Kielipankille, jos se havaitsee tai epäilee, että Aineisto sisältää:
Käyttäjän tulee liittää ilmoitukseen tiedot, joiden avulla Kielipankki voi tunnistaa kyseisen äänitteen.
Kielipankki voi tuottaa Aineistosta uusia versioita esimerkiksi sen varmistamiseksi, että tietosuojalainsäädännön mukaiset rekisteröidyn oikeudet toteutetaan ja Aineisto ei sisällä lainvastaista sisältöä. Kun Kielipankki tuottaa Aineistosta uuden version ja ilmoittaa siitä sähköpostitse Käyttäjälle, Käyttäjän on viivytyksettä poistettava vanha versio Aineistosta ja korvattava se uudella. Käyttäjän on toimitettava Kielipankille toimiva ja ajantasainen sähköpostiosoitteensa, johon ilmoitetaan Aineiston päivityksistä.
Kun ryhdyt käyttämään tätä Aineistoa, ilmoita oman hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille tällä lomakkeella. Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.
Tätä sivua on viimeksi päivitetty 21.10.2022.
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022020222
Title of Resource: Donate Speech Corpus (puhelahjat)
Metadata: urn:nbn:fi:lb-2020090321
License: urn:nbn:fi:lb-2022020223
This page describes the specific conditions regarding the processing of the personal data in the Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland.
University of Helsinki
PO Box 3
00014 University of Helsinki
Phone: 02941 911
For further details on the data protection of the resources in the Language Bank of Finland, please contact the helpdesk of the Language Bank.
Data Protection Officer of the University of Helsinki
Email: tietosuoja@helsinki.fi
The original Resource consists of audio recordings of speech, technical metadata regarding the recording process, and answers that were voluntarily given by the speech donors to a set of non-mandatory background questions. Each piece of recorded audio may also be supplemented with a transcript of the speech content and other descriptions and mark-up that may be created manually or automatically.
The recordings included in the Resource have not been edited with respect to their original content, although the technical format of the audio files may vary due to practical reasons. In some cases, the identity of the speaker may become evident either directly or indirectly, for instance due to their speaking voice or due to some of the content mentioned in the recording. However, the Resource may not be used for identifying speakers.
The technical metadata includes the following types of information:
The technical metadata have been collected and included in the Resource on a coarse level. It is not possible to reveal the identity of the speech donor or the user of the device on the basis of the technical information.
The background details provided by the speech donors include the following:
It is not possible to verify the correctness of the background information mentioned above. The speech donors may have chosen to skip background questions or to submit false information. The free text answers could be provided at the desired level of detail. In case speech was donated several times via the same device, the donor may have given several different answers to the same background questions.
The data subjects are volunteers who participated in the Donate Speech campaign (Lahjoita puhetta) by donating their speech and the background details of their choice.
In these data protection terms and conditions, End-User means the party acting as the Controller for the Resource received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the Language Bank user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally.
The End-User understands that when receiving the Resources, it becomes a controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data.
The End-User shall notify the Language Bank without delay if it identifies or suspect the presence of the following content in the Resource:
The notification made by the End-User shall include information that enables the Language Bank to identify the relevant recording.
The Language Bank may produce new versions of the Resource to ensure, for example, that the rights of data subjects in accordance with Data Protection Legislation are fulfilled and that there is no unlawful content in the Resource. When the Language Bank produces a new version of the Resource and notifies the contact person of the End-User by email, the End-User shall, without delay, delete the old version of the Resource and replace it with the new version. The End-User must submit a functional and valid email address to the Language Bank to which notifications of updates to the Resource are to be sent.
When you start using this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice by using this form. This information will be published on the website of the Language Bank of Finland.
This page was last updated on 1.3.2022.
Persistent identifier of this page: urn:nbn:fi:lb-2022020224
Due to historical reasons, some corpora in the UHLCS collection have suffered from technical issues regarding, e.g., character encodings and file formats. After a complete review of the available UHLCS corpora during the past couple of years, a major part of the issues have now been fixed.
For a listing of all available versions and variants, see the resource group page.
Historiallisista syistä UHLCS-korpuskokoelman joissakin aineistoissa on ollut mm. tiedostomuotoihin ja merkistöihin liittyneitä vikoja, jotka ovat voineet haitata korpusten käyttöä. Parin viime vuoden aikana kaikki saatavilla olevat UHLCS-korpukset on käyty läpi ja nyt suurin osa teknisistä ongelmista on korjattu.
Kaikki UHLCS-kokoelman osakorpukset löytyvät aineistoryhmän sivulta.
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, VRT is available at the download service at Kielipankki. Access to this resource is restricted (apply for access).
Please note that this resource is very large: the total size of all 25 download packages is more than half a terabyte. The downloadable VRT version contains about 22 billion words of text supplemented with the various types of annotations added by the Language Bank. For beginning users, we recommend the previously published Korp version of the same data. For a listing of all available versions and variants, see the resource group page.
The oldest texts from the years 1771-1874 were considered by the Language Bank as copyright-free. A copy of this part is separately available as a downloadable public resource, The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (1771-1874), VRT.
Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus versio 2, VRT on saatavilla Kielipankin latauspalvelussa. Pääsy aineistoon on luvanvarainen (hae käyttöoikeutta).
Huomaa, että tämä ladattava aineisto on valtavan kokoinen: 25 latauspaketin yhteenlaskettu koko on yli puoli teratavua. Ladattava VRT-versio sisältää yhteensä noin 22 miljardia sanetta tekstiä sekä niihin Kielipankissa lisätyt annotaatiot. Aloitteleville käyttäjille suosittelemme mieluummin saman aineiston Korp-versiota. Listan aineiston kaikista saatavilla olevista versioista löydät aineistoryhmäsivulta.
Aineiston vanhimmat tekstit vuosilta 1771-1874 on Kielipankissa katsottu tekijänoikeusvapaiksi. Tämän osan kopio on erikseen saatavilla julkisesti ladattavana aineistona, Kansalliskirjaston sanoma- ja aikakauslehtikokoelman suomenkielinen osakorpus versio 2 (1771-1874), VRT.
This corpus contains newspapers and magazines from Finland starting from 1770, compiled by the National Library of Finland.
NB: The Finnish acronym for the corpora The Newspaper and Periodical OCR Corpus of the National Library of Finland used to be ”Digilib”. Currently, however, the acronym ”klk” and the short names klk-fi-1874-dl and klk-fi-1920-dl are recommended instead.
Latest versions/subcorpora: | |
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (1771-1874), VRT Metadata and license Attribution instructions |
Download the resource |
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, VRT Metadata and license Attribution instructions |
Download the resource |
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp Metadata and license Attribution instructions Example queries in Korp |
Select the corpus in Korp |
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version Metadata and license Attribution instructions |
Select the corpus in Korp |
The Swedish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version Metadata and license Attribution instructions |
Select the corpus in Korp |
The Newspaper and Periodical OCR Corpus of the National Library of Finland (1771-1874) Metadata and license Attribution instructions |
Download the resource |
The Newspaper and Periodical OCR Corpus of the National Library of Finland (1875-1920) Metadata and license Attribution instructions |
Download the resource |
The Newspaper and Periodical Corpus of the National Library of Finland, Swedish sub-corpus, 1771–1879, VRT Metadata and license Attribution instructions |
Download the resource |
The Newspaper and Periodical Corpus of the National Library of Finland, Swedish sub-corpus, 1880–1948, scrambled, VRT Metadata and license Attribution instructions |
Download the resource |
Search for these versions in META-SHARE |
Of this language corpus different versions/subcorpora are published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.
Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.
Based on the KLK data, word-level collections of uni-, bi- and trigrams have been created and are available for download. These are their own data sets:
The N-grams of the Newspaper and Periodical Corpus of the National Library of Finland
The corpora consist mainly of digitized versions of texts originally printed on paper. These physical papers have been scanned, and optical character recognition (OCR) was performed on the resulting images. The digitized material spans a long period and contains different kinds of texts, writing styles and fonts. Scanning some parts of the material is more complex than scanning other parts, and the physical condition of the original texts also varies. The OCR techniques used have also varied, and there is the possibility that some of the texts have gone through manual post-correction. This results in some parts of the corpora being of terrible quality while others are of good quality. We have collected a list of publications related to OCR quality and collection processing:
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021092404
Last updated: 19.6.2024
The Finnish News Agency Archive 2022-2023, source is available at the download service at Kielipankki.
More information can be found on the resource group page.
STT:n uutisarkisto 2022-2023, lähdemateriaali on saatavilla Kielipankin latauspalvelussa.
Lisätiedot löytyvät aineistoryhmäsivulta.
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2024061302
Tätä sivua on viimeksi päivitetty: 14.06.2024
Aineisto(t):
Kielipankin arvion mukaan tämä Aineisto on tekijänoikeusvapaata eikä lisenssiä tarvita. Aineiston käyttö ja edelleen välittäminen tapahtuu kuitenkin Käyttäjän omalla vastuulla.
Persistent identifier of this page: urn:nbn:fi:lb-2024061301
This page was last modified: 14.06.2024
Resource(s):
According to the judgment made by the Language Bank of Finland, this Resource is copyright-free and requires no license. However, the use and distribution of the Resource is at the End-User’s own risk and responsibility.
Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-xxxxxxxxxx
Tätä sivua on viimeksi päivitetty: dd.mm.yyyy
Aineisto(t):
Kielipankin arvion mukaan tämä Aineisto on tekijänoikeusvapaata eikä lisenssiä tarvita. Aineiston käyttö ja edelleen välittäminen tapahtuu kuitenkin Käyttäjän omalla vastuulla.
Persistent identifier of this page: urn:nbn:fi:lb-xxxxxxxxxx
This page was last modified: dd.mm.yyyy
Resource(s):
According to the judgment made by the Language Bank of Finland, this Resource is copyright-free and requires no license. However, the use and distribution of the Resource is at the End-User’s own risk and responsibility.