puhelahjat: Removal requests – Poistopyynnöt

Tällä sivulla on lueteltu ne Lahjoita puhetta -aineistokokonaisuuteen kuuluvat laitetunnisteet (clientID), joiden mukaiset tiedostot käyttäjien tulee poistaa aineiston kaikista versioista.

 • Jos esimerkiksi clientID-tunniste ”clt0012345” olisi mainittu listassa, jokaisen käyttäjän on tarkistettava, ettei hänen laitteillaan ole tiedostoja, joiden nimi alkaa merkkijonolla ”clt0012345_”, eikä mitään niiden muunnelmia tai palasia. Tässä esimerkkitapauksessa käyttäjän pitäisi etsiä ja tarvittaessa poistaa laitteiltaan mm. seuraavat tiedostot:
  • clt0012345_rec0003.flac
  • clt0012345_ses12_rec0012.flac
  • clt0012345_ses12_rec0012.txt
  • clt0012345_ses12_rec0012.TextGrid
  • sekä kaikki em. tiedostoista tehdyt muunnelmat tai yhdistelmät, joissa on mukana samoja tietoja.

Mikäli löydät poistettavaksi määrätyn tiedoston Kielipankissa olevasta aineistosta, ilmoitathan meille välittömästi.


This page provides a list of all clientID’s whose corresponding files must be deleted from all versions of the data. Look for any filenames starting with one of the clientID’s plus underscore, and remove them. In case you discover that some of the datasets in Kielipankki still contain files that were marked for removal, please inform us immediately.

 

clientID Removal date (Corpus versions may be affected if accessed before this)
[to be published]

 

 

 


Last updated / Viimeksi päivitetty: 20.1.2023

Donate Speech (puhelahjat): Datasets for companies and non-academic organizations

Suomeksi

Are you a researcher? Information about the Donate Speech datasets for academic research use is available on another page.

Please note that the descriptions and size information are based on our current estimates and may be updated at a later stage.

For companies and non-academic organizations, the following versions of this resource are currently available or forthcoming:
Donate Speech Corpus: Sample
icon-info-circle Metadata
A free sample that contains a randomly selected set of 40 audio files and their corresponding transcripts as plain text files and as annotation files including time alignments. The metadata regarding the recorded samples and the background details supplied by the speakers (if available) are also included. The total duration of the audio files is about 35 minutes.
Price: Free of charge

See instructions.


Download the resource

Donate Speech: Selected dataset
icon-info-circle Metadata
This resource contains five different subsets that were selected at Aalto University especially for developing, training and testing ASR systems. The total duration of the audio files is about 131 hours.
Price: 1000 €

See instructions.

(The download package is in preparation; the link will be added here when ready.)

Donate Speech: Annotated dataset
icon-info-circle Metadata
This resource contains all the annotated audio files, their transcriptions as raw text files and annotation files, and the background information regarding the recordings and speakers. The total duration of the audio files is about 1600 hours.
Price: 5000 €

See instructions.

(The download package is in preparation; the link will be added here when ready.)

Donate Speech: Complete dataset, version 1
icon-info-circle Metadata
The Complete dataset (version 1) includes the Annotated dataset (and the Selected dataset and the Sample). In addition, the Complete dataset also includes the audio files that were not transcribed or annotated.
Price: 10 000 €

See instructions.


Download the resource

Contents of the datasets

The first version of the Donate Speech Corpus (Puhelahjat) is a collection of speech recordings accumulated during the Donate Speech campaign between 16.6.2020 and 14.9.2021.

The resource contains a total of about 3200 hours of speech recordings, out of which about 1600 hours have been transcribed. The resource also includes information about the elicitation tasks for which each of the speech samples was donated in the original campaign, and the background details that were voluntarily provided by speech donors.

The resource is available via the download service of the Language Bank of Finland under restricted terms and conditions. The services of the Language Bank are directed at academic researchers. For companies and non-academic organizations, access to Puhelahjat datasets may be acquired for a fee. Further details can be requested by email at lahjoita-puhetta@helsinki.fi.

How to obtain access to use the material? Instructions for companies and non-academic organizations

NB: These instructions are still subject to change.

In accordance with the specific terms and conditions of the Puhelahjat resource, it is also possible to grant access to the data for commercial and non-academic purposes. However, in this case, a separate license agreement between the University of Helsinki and the company or organization is required. When the agreement is signed and the payment has been made, access can be granted to the representative authorized by the user organization.

 1. Companies and organizations interested in using the data may contact us for further information at lahjoita-puhetta@helsinki.fi.
 2. A copy of the general terms included in the agreements is provided online for reference, see http://urn.fi/urn:nbn:fi:lb-2022060130.
 3. Before acquiring a paid dataset, the company may obtain access to a small sample material free of charge. However, access to the sample material is subject to the same terms and conditions as the paid versions of the material, and an agreement is needed.
 4. When the agreement has been signed, the representative authorized by the company/organization may apply for access to the desired dataset (either to the free sample or to one of the paid datasets) via the Language Bank Rights (LBR) system. The representative may log in by using an eDuuni identity.
 5. In connection with the application, the company applying for the right of use must provide a public link to their data protection notice regarding the processing of the personal data contained in the material. This information will be published on the website of the Language Bank.
 6. The license fee must be paid before access to the resource can be granted. Instructions for payment can be requested by email at lahjoita-puhetta@helsinki.fi.
 7. When the application for access is approved in the Language Bank Rights, the applicant can access the data via the same user identity that was used in the application process.

When applying for the use of paid material, it must be shown that the license fee has been paid.


Last updated: 23.12.2022

 

Persistent Identifier of this page: urn:nbn:fi:lb-2022111627

Lahjoita puhetta (puhelahjat): Aineistot yrityksille ja ei-akateemisille organisaatioille

In English

Oletko tutkija? Lahjoita puhetta -aineistot akateemiseen tutkimuskäyttöön löytyvät toiselta sivulta.

 

Huom. Aineistopakettien sisältökuvaukset ja kokotiedot perustuvat alustavaan arvioon ja niitä voidaan tarvittaessa tarkentaa.

Tästä aineistosta tarjotaan yritysten ja ei-akateemisten organisaatioiden käyttöön seuraavat paketit:
Lahjoita puhetta -aineisto: Näyte
icon-info-circle Kuvailutiedot
Ilmainen näyte, joka sisältää 40 satunnaisesti valittua äänitiedostoa, niiden litteraatit raakatekstinä ja kohdistustiedostoina sekä käytettävissä olevat äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 35 minuuttia.
Hinta: Maksuton näyte

Hanki käyttöoikeus

Lataa aineisto

Lahjoita puhetta: Valikoitu aineisto
icon-info-circle Kuvailutiedot
Tämä kokoelma sisältää viisi eri osa-aineistoa, jotka on poimittu Aalto-yliopistossa erityisesti automaattisen puheentunnistuksen kehitys-, opetus- ja testausvaiheita varten. Äänitteiden yhteenlaskettu kesto on noin 131 tuntia.

Hinta: 1000 €

Hanki käyttöoikeus

Aineistopaketti on valmisteilla, latauslinkki tuleemet tähän

Lahjoita puhetta: Annotoitu aineisto
icon-info-circle Kuvailutiedot
Tämä kokoelma sisältää koko aineiston versioon 1 kuuluvat litteroidut äänitteet, litteraatit raakatekstinä ja kohdistustiedostoina sekä äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 1600 tuntia.
Hinta: 5000 €

Hanki käyttöoikeus

Aineistopaketti on valmisteilla, latauslinkki tulee tähän

Lahjoita puhetta: Koko aineisto (versio 1)
icon-info-circle Kuvailutiedot
Kokoelmassa on mukana kaikki aineiston versioon 1 kuuluvat litteroidut ja litteroimattomat äänitteet, litteraatit raakatekstinä ja kohdistustiedostoina sekä äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 3200 tuntia.
icon-quote-right Tämän version viittausohje
Hinta: 10.000 €

Hanki käyttöoikeus

Lataa aineisto

Aineiston sisältö

Lahjoita puhetta -aineisto eli Puhelahjat on koostettu 16.6.2020 alkaneessa Vaken, Ylen ja Helsingin yliopiston toteuttamassa kampanjassa, jossa kuka tahansa ainakin hieman suomea osaava on voinut helppokäyttöisen selain- tai mobiilisovelluksen kautta lahjoittaa omaa puhettaan. Aineisto on siinä mielessä ainutlaatuinen, että se on alusta alkaen kerätty mahdollisimman läpinäkyvästi sekä tutkijoiden että yritysten rajoitettuun käyttöön siten, että puheen lahjoittajien tietosuojasta pyritään huolehtimaan aineiston koko elinkaaren ajan.

Aineistosta on jo saatavilla taikka tulossa saataville erilaisia paketteja Kielipankin latauspalveluun, josta luvan saaneet tutkijat, yritykset ja ei-akateemiset organisaatiot pääsevät niitä käyttämään. Kielipankin palvelut on lähtökohtaisesti suunnattu vain tutkijoille. Yrityksille ja ei-akateemisille organisaatioille aineiston käyttö on maksullista. Lisätietoja saa osoitteesta lahjoita-puhetta@helsinki.fi.

Kuinka aineistoa pääsee käyttämään? Ohjeet yrityksille

Huom. Ohjeita päivitetään edelleen.

Puhelahjat-aineiston käyttöehtojen mukaisesti käyttöoikeuksia voidaan myöntää myös yrityksille tai ei-akateemisille organisaatioille. Kunkin ei-akateemisen käyttäjätahon kanssa tehdään kirjallinen sopimus halutun aineiston käytöstä. Kun sopimuksen mukaiset velvoitteet on suoritettu, pääsy aineistoon voidaan myöntää yrityksen valtuuttamalle edustajalle.

 1. Aineiston käyttämisestä kiinnostuneet yritykset voivat ottaa yhteyttä osoitteeseen lahjoita-puhetta@helsinki.fi.
 2. Yrityksiä koskevien lisenssisopimusten yleisiin ehtoihin voi tutustua täällä.
 3. Ennen maksullisen aineiston hankkimista yritys voi saada veloituksetta pääsyn pieneen näyteaineistoon (”Lahjoita puhetta -aineisto: Näyte”). Myös näyteaineiston käsittelyä koskevat samat käyttöehdot kuin aineiston maksullisia versioita, joten erillinen sopimus tarvitaan.
 4. Kun lisenssisopimus on tehty, yrityksen valtuuttama edustaja voi hakea pääsyä joko näyte- tai varsinaisen aineistoon Kielipankin oikeudet -palvelussa (LBR, Language Bank Rights).
  Palvelu edellyttää hakijan sähköistä tunnistautumista eDuunin välittämällä identiteetillä tai jonkin luottamusverkostoihin kuuluvan akateemisen organisaation myöntämällä käyttäjätunnuksella. Tarvittaessa pääsyhakemuksen tekijä voi luoda itselleen eDuuni-identiteetin, jolla hän voi kirjautua palveluun. Identiteetin vahvistamiseen tarvitaan hakijan omassa käytössä oleva sähköpostiosoite.
  Huom. eDuuni-identiteetin luominen on ilmaista! Yrityksen ei siis tarvitse ostaa muita eDuunin kautta tarjottuja palveluita.
 5. Pääsyhakemuksen yhteydessä yrityksen on ilmoitettava oman hankkeensa julkinen otsikko sekä linkki aineistoon sisältyvien henkilötietojen käsittelyä koskevaan julkiseen tietosuojailmoitukseen. Tiedot julkaistaan Kielipankin verkkosivuilla.
 6. Sopimuksen mukaisen lisenssimaksun on oltava suoritettuna ennen kuin pääsy maksulliseen aineistoon voidaan myöntää. Maksuohjeet saa osoitteesta lahjoita-puhetta@helsinki.fi.
 7. Kun pääsyhakemus on hyväksytty, hakemuksen tehnyt henkilö saa pääsyn aineistoon sillä käyttäjätunnuksella, jolla hakemus tehtiin.

Viimeksi päivitetty: 23.12.2022

 

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022111628

Lahjoita puhetta -aineistot (puhelahjat) tutkimuskäyttöön

In English

Lahjoita puhetta -aineistot yrityskäyttöön ja ei-akateemisille organisaatioille: katso lisätiedot toiselta sivulta.

Aineiston versiot:
Lahjoita puhetta -aineisto, versio 1.0
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)

icon-quote-right Tämän version viittausohje
Hae käyttöoikeutta (vain tutkijoille; yhdellä hakemuksella saa pääsyn kaikkiin aineiston versioihin)

+PRIV: Aineisto sisältää henkilötietoja.
Toimita julkinen ilmoitus henkilötietojen käsittelystä

Lataa aineisto
Lahjoita puhetta -aineisto: Näyte
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Lataa aineisto
Lahjoita puhetta -aineisto: Opetusdata (100h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Testidata (10h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Kehitysdata (10h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Usean litteroijan testidata (1h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Testidata useaan kertaan litteroiduilta puhujilta (10h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Etsi muut saatavilla olevat versiot

Aineiston sisältö

Lahjoita puhetta -aineisto, lyhytnimeltään Puhelahjat, on koostettu 16.6.2020 alkaneessa Vake Oy:n (sittemmin Ilmastorahasto), Ylen ja Helsingin yliopiston toteuttamassa Lahjoita puhetta -kampanjassa, jossa kuka tahansa suomea osaava henkilö on voinut halutessaan lahjoittaa omaa puhettaan kielentutkimuksen sekä kieliteknologian kehitystyön edistämiseksi. Lahjoitettu puhe on tallennettu helppokäyttöisen selain- tai mobiilisovelluksen kautta.

Kevääseen 2021 mennessä lahjoitetuista puhenäytteistä on rakennettu ääniaineiston ensimmäinen versio, jonka kokonaiskesto on noin 3200 tuntia. Vuonna 2021 näistä äänitteistä litteroitiin käsityönä noin 1600 tuntia ja näin syntyneet tekstimuotoiset litteroinnit kohdistettiin vastaaviin äänitteisiin automaattisilla menetelmillä.

Aineiston ensimmäinen varsinainen versio 1.0 on saatavilla Kielipankin latauspalvelussa, josta luvan saaneet tutkijat ja myöhemmin myös yritykset pääsevät sitä käyttämään. Samaan aineistoon sisältyviä, esimerkiksi automaattisen puheentunnistuksen kehittämistä varten poimittuja osa-aineistoja on lisäksi tarjolla erillisinä paketteina, joiden sisältö ja viittauskäytänteet löytyvät kunkin aineistoversion kuvailutietueesta.

Lahjoita puhetta -aineistokokonaisuutta on tarkoitus myös myöhemmin päivittää ja laajentaa, kun uusia lahjoituksia on kertynyt riittävästi. Uusia versioita tehdään myös sitä mukaa, kun tutkijat tai yritykset jatkavat olemassa olevien äänitteiden litterointia ja muuta annotointia.

Kuinka aineistoa pääsee käyttämään?

Puhelahjat-aineiston käyttäminen on luvanvaraista. Puhelahjat-ryhmän kaikkien osa-aineistojen tutkimuskäyttöä koskee sama lisenssi, johon sisältyy myös aineistokohtaisia tietosuojaehtoja.

Tutkimuskäyttö

 1. Tutkijat voivat hakea aineiston käyttöoikeutta tavanomaisella hakemusmenettelyllä Kielipankin oikeudet -palvelussa (ks. ohjeet).
 2. Tutkijan on syytä jo hakemusvaiheessa huomioida aineistokohtaiset käyttöehdot, ml. tietosuojaehdot, joiden mukaisissa rajoissa tutkimus on voitava toteuttaa myös henkilötietojen käsittelyn osalta, ks. lisenssi (tutkijoille).
 3. Ennen aineiston käsittelyn aloittamista tutkijan on lomakkeella toimitettava Kielipankin julkaistavaksi hankkeensa yleistajuinen otsikko sekä linkki henkilötietojen käsittelyä koskevaan julkiseen tietosuojailmoitukseen.
 4. Luvan saanut tutkija saa samalla hakemuksella pääsyn koko Lahjoita puhetta -aineistoon ja sen eri versioihin ja osa-aineistoihin.

Yrityskäytön ohjeet löytyvät omalta sivultaan.

 


Viimeksi päivitetty: 23.12.2022

 

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022102122

Donate Speech datasets (puhelahjat) for research use

Suomeksi

Donate Speech datasets for commercial use: further details will be available soon.

Versions of this resource:
Donate Speech Corpus, version 1.0
icon-info-circle Metadata
icon-info-circle License (for researchers)
icon-quote-right Attribution instructions
Apply for access rights, academic research use only

+PRIV: This resource contains personal data.
Submit public information about personal data processing

Download the resource
Donate Speech Corpus: Sample
icon-info-circle Metadata
icon-info-circle License (for researchers)
icon-quote-right Attribution instructions
Download the resource
Donate Speech Corpus: Training data (100h)
icon-info-circle Metadata
icon-info-circle License (for researchers)
icon-quote-right Attribution instructions
(The download link will appear here)
Donate Speech Corpus: Test data (10h)
icon-info-circle Metadata
icon-info-circle License (for researchers)
icon-quote-right Attribution instructions
(The download link will appear here)
Donate Speech Corpus: Development data (10h)
icon-info-circle Metadata
icon-info-circle License (for researchers)
icon-quote-right Attribution instructions
(The download link will appear here)
Donate Speech Corpus: Multi-transcriber test data (1h)
icon-info-circle Metadata
icon-info-circle License (for researchers)
icon-quote-right Attribution instructions
(The download link will appear here)
Donate Speech Corpus: Test data from multi-transcriber speakers (10h)
icon-info-circle Metadata
icon-info-circle License (for researchers)
icon-quote-right Attribution instructions
(The download link will appear here)
Look for other versions of this resource

 

Contents of the resource

The Donate Speech Corpus, abbreviated Puhelahjat, was compiled in the Donate Speech campaign implemented by Vake Oy (later Ilmastorahasto), Yle and the University of Helsinki, launched on June 16, 2020. During the project, anyone who speaks some Finnish had the opportunity to donate their own speech in order to promote language research and the development of language technology. The donated speech was recorded via an easy-to-use browser or mobile application.

The first version of the audio material includes the speech samples that were donated by spring 2021. The total duration of the recordings in this version is approximately 3200 hours. In 2021, approximately 1,600 hours of the recordings were transcribed by hand, and the resulting transcriptions were aligned with the corresponding audio recordings using automatic methods.

The version 1.0 of the dataset is available in the download service for researchers that have been granted access. Some subsets of the complete dataset (selected for instance for the development of automatic speech recognition) will also be made available as separate download packages. The description and the citation practices of each subset can be found in the corresponding metadata records.

The Donate Speech datasets can be updated later, for instance after a sufficient amount of new donations have accumulated. New versions can also be created as researchers or companies continue to transcribe and annotate the existing recordings more extensively.

How to obtain access to use the material?

The research use of the Donate Speech Corpus and any of its subsets is subject to the license of the resource. Note that the license also includes resource-specific data protection conditions.

Research use

 1. Researchers can apply for the right to use the data via the usual application procedure in the Language Bank Rights system (see instructions).
 2. When applying for access, the researcher must consider to the license requirements, including the resource-specific data protection terms and conditions regarding the processing of personal data, see license (for researchers).
 3. Before starting to process the data, the researcher must submit the title of the project and the link to the public Privacy Notice regarding the processing of personal data in their project (see the e-form).
 4. When the application is approved, the researcher can access the entire Donate Speech Corpus as well as all versions and subsets of the resource.

The instructions for commercial use can be found on a separate page.

 


Last updated: 27.10.2022

 

Persistent identifier of this page: urn:nbn:fi:lb-2022102121