Lahjoita puhetta -aineistot (puhelahjat) yrityskäyttöön

In English (coming soon)

Oletko tutkija? Lahjoita puhetta -aineistot tutkimuskäyttöön löytyvät toiselta sivulta.

 

Huom. Aineistopakettien sisältökuvaukset ja kokotiedot perustuvat alustavaan arvioon ja niitä voidaan tarvittaessa tarkentaa.

Tästä aineistosta tarjotaan yrityskäyttöön seuraavat paketit:
Lahjoita puhetta -aineisto: Näyte
icon-info-circle Kuvailutiedot
Ilmainen näyte, joka sisältää 40 satunnaisesti valittua äänitiedostoa, niiden litteraatit raakatekstinä ja kohdistustiedostoina sekä käytettävissä olevat äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 35 minuuttia.
Hinta: Maksuton näyte

Hanki käyttöoikeus

Aineiston latauslinkki on tulossa tähän

Lahjoita puhetta: Valikoitu aineisto
icon-info-circle Kuvailutiedot
Tämä kokoelma sisältää viisi eri osa-aineistoa, jotka on poimittu Aalto-yliopistossa erityisesti automaattisen puheentunnistuksen kehitys-, opetus- ja testausvaiheita varten. Äänitteiden yhteenlaskettu kesto on noin 131 tuntia.

Hinta: 1000 €

Hanki käyttöoikeus

Aineiston latauslinkki on tulossa tähän

Lahjoita puhetta: Annotoitu aineisto
icon-info-circle Kuvailutiedot
Tämä kokoelma sisältää koko aineiston versioon 1 kuuluvat litteroidut äänitteet, litteraatit raakatekstinä ja kohdistustiedostoina sekä äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 1600 tuntia.
Hinta: 5000 €

Hanki käyttöoikeus

Aineiston latauslinkki on tulossa tähän

Lahjoita puhetta: Koko aineisto (versio 1)
icon-info-circle Kuvailutiedot
Kokoelmassa on mukana kaikki aineiston versioon 1 kuuluvat litteroidut ja litteroimattomat äänitteet, litteraatit raakatekstinä ja kohdistustiedostoina sekä äänitteisiin ja puhujiin liittyvät taustatiedot. Äänitteiden yhteenlaskettu kesto on noin 3200 tuntia.
icon-quote-right Tämän version viittausohje
Hinta: 10.000 €

Hanki käyttöoikeus

Lataa aineisto

Aineiston sisältö

Lahjoita puhetta -aineisto eli Puhelahjat on koostettu 16.6.2020 alkaneessa Vaken, Ylen ja Helsingin yliopiston toteuttamassa kampanjassa, jossa kuka tahansa ainakin hieman suomea osaava on voinut helppokäyttöisen selain- tai mobiilisovelluksen kautta lahjoittaa omaa puhettaan. Aineisto on siinä mielessä ainutlaatuinen, että se on alusta alkaen kerätty mahdollisimman läpinäkyvästi sekä tutkijoiden että yritysten rajoitettuun käyttöön siten, että puheen lahjoittajien tietosuojasta pyritään huolehtimaan aineiston koko elinkaaren ajan.

Aineistosta on tulossa saataville erilaisia paketteja Kielipankin latauspalveluun, josta luvan saaneet tutkijat ja yritykset pääsevät niitä käyttämään. Lisätietoja saa osoitteesta lahjoita-puhetta@helsinki.fi.

Kuinka aineistoa pääsee käyttämään? Ohjeet yrityksille

Huom. Ohjeita päivitetään edelleen!

Puhelahjat-aineiston käyttöehtojen mukaisesti käyttöoikeuksia voidaan myöntää myös yrityksille. Jokaisen yrityksen kanssa tehdään kirjallinen sopimus Puhelahjat-aineiston käytöstä, minkä jälkeen pääsy aineistoon voidaan myöntää yrityksen valtuuttamalle edustajalle.

 1. Aineiston käyttämisestä kiinnostuneet yritykset voivat ottaa yhteyttä osoitteeseen lahjoita-puhetta@helsinki.fi.
 2. Yrityksiä koskevien lisenssisopimusten yleisiin ehtoihin voi tutustua täällä.
 3. Ennen maksullisen aineiston hankkimista yritys voi saada veloituksetta pääsyn pieneen näyteaineistoon (”Lahjoita puhetta -aineisto: Näyte”). Myös näyteaineiston käsittelyä koskevat samat käyttöehdot kuin aineiston maksullisia versioita.
 4. Kun lisenssisopimus on tehty, yrityksen valtuuttama edustaja voi hakea pääsyä joko näyte- tai varsinaisen aineistoon Kielipankin oikeudet -palvelussa (LBR, Language Bank Rights).
  Palvelu edellyttää hakijan sähköistä tunnistautumista joko eDuunin välittämällä identiteetillä tai jonkin luottamusverkostoihin kuuluvan akateemisen organisaation myöntämällä käyttäjätunnuksella. Tarvittaessa pääsyhakemuksen tekijä voi luoda itselleen eDuuni-identiteetin, jolla hän voi kirjautua palveluun. Identiteetin vahvistamiseen tarvitaan hakijan omassa käytössä oleva sähköpostiosoite.
  Huom. eDuuni-identiteetin luominen on ilmaista! Yrityksen ei siis tarvitse ostaa muita eDuunin kautta tarjottuja palveluita.
 5. Pääsyhakemuksen yhteydessä yrityksen on ilmoitettava oman hankkeensa julkinen otsikko sekä linkki aineistoon sisältyvien henkilötietojen käsittelyä koskevaan julkiseen tietosuojailmoitukseen. Tiedot julkaistaan Kielipankin verkkosivuilla.
 6. Sopimuksen mukaisen lisenssimaksun on oltava suoritettuna ennen kuin pääsy maksulliseen aineistoon voidaan myöntää. Maksuohjeet saa osoitteesta lahjoita-puhetta@helsinki.fi.
 7. Kun pääsyhakemus on hyväksytty, hakemuksen tehnyt henkilö saa pääsyn aineistoon sillä käyttäjätunnuksella, jolla hakemus tehtiin.

Viimeksi päivitetty: 16.11.2022

 

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022111628

Lahjoita puhetta -aineistot (puhelahjat) tutkimuskäyttöön

In English

Lahjoita puhetta -aineistot yrityskäyttöön: katso lisätiedot toiselta sivulta.

Aineiston versiot:
Lahjoita puhetta -aineisto, versio 1.0
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)

icon-quote-right Tämän version viittausohje
Hae käyttöoikeutta (vain tutkijoille)

+PRIV: Aineisto sisältää henkilötietoja.
Toimita julkinen ilmoitus henkilötietojen käsittelystä

Lataa aineisto
Lahjoita puhetta -aineisto: Näyte
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Opetusdata (100h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Testidata (10h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Kehitysdata (10h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Usean litteroijan testidata (1h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Lahjoita puhetta -aineisto: Testidata useaan kertaan litteroiduilta puhujilta (10h)
icon-info-circle Kuvailutiedot
icon-info-circle Lisenssi (tutkijoille)
icon-quote-right Tämän version viittausohje

Aineiston latauslinkki tulee tähän
Etsi muut saatavilla olevat versiot

Aineiston sisältö

Lahjoita puhetta -aineisto, lyhytnimeltään Puhelahjat, on koostettu 16.6.2020 alkaneessa Vake Oy:n (sittemmin Ilmastorahasto), Ylen ja Helsingin yliopiston toteuttamassa Lahjoita puhetta -kampanjassa, jossa kuka tahansa suomea osaava henkilö on voinut halutessaan lahjoittaa omaa puhettaan kielentutkimuksen sekä kieliteknologian kehitystyön edistämiseksi. Lahjoitettu puhe on tallennettu helppokäyttöisen selain- tai mobiilisovelluksen kautta.

Kevääseen 2021 mennessä lahjoitetuista puhenäytteistä on rakennettu ääniaineiston ensimmäinen versio, jonka kokonaiskesto on noin 3200 tuntia. Vuonna 2021 näistä äänitteistä litteroitiin käsityönä noin 1600 tuntia ja näin syntyneet tekstimuotoiset litteroinnit kohdistettiin vastaaviin äänitteisiin automaattisilla menetelmillä.

Aineiston ensimmäinen varsinainen versio 1.0 on saatavilla Kielipankin latauspalvelussa, josta luvan saaneet tutkijat ja myöhemmin myös yritykset pääsevät sitä käyttämään. Samaan aineistoon sisältyviä, esimerkiksi automaattisen puheentunnistuksen kehittämistä varten poimittuja osa-aineistoja on lisäksi tarjolla erillisinä paketteina, joiden sisältö ja viittauskäytänteet löytyvät kunkin aineistoversion kuvailutietueesta.

Lahjoita puhetta -aineistokokonaisuutta on tarkoitus myös myöhemmin päivittää ja laajentaa, kun uusia lahjoituksia on kertynyt riittävästi. Uusia versioita tehdään myös sitä mukaa, kun tutkijat tai yritykset jatkavat olemassa olevien äänitteiden litterointia ja muuta annotointia.

Kuinka aineistoa pääsee käyttämään?

Puhelahjat-aineiston käyttäminen on luvanvaraista. Puhelahjat-ryhmän kaikkien osa-aineistojen tutkimuskäyttöä koskee sama lisenssi, johon sisältyy myös aineistokohtaisia tietosuojaehtoja.

Tutkimuskäyttö

 1. Tutkijat voivat hakea aineiston käyttöoikeutta tavanomaisella hakemusmenettelyllä Kielipankin oikeudet -palvelussa (ks. ohjeet).
 2. Tutkijan on syytä jo hakemusvaiheessa huomioida aineistokohtaiset käyttöehdot, ml. tietosuojaehdot, joiden mukaisissa rajoissa tutkimus on voitava toteuttaa myös henkilötietojen käsittelyn osalta, ks. lisenssi (tutkijoille).
 3. Ennen aineiston käsittelyn aloittamista tutkijan on lomakkeella toimitettava Kielipankin julkaistavaksi hankkeensa yleistajuinen otsikko sekä linkki henkilötietojen käsittelyä koskevaan julkiseen tietosuojailmoitukseen.
 4. Luvan saanut tutkija saa samalla hakemuksella pääsyn koko Lahjoita puhetta -aineistoon ja sen eri versioihin ja osa-aineistoihin.

Yrityskäytön ohjeet löytyvät omalta sivultaan.

 


Viimeksi päivitetty: 16.11.2022

 

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2022102122

Kieliteknologian rautaisannos: Monikielistä kieliteknologiaa ELRC-työpajassa ja eurooppalaisen kieliteknologia-alustan esittely ELG-työpajassa

FIN-CLARIN järjestää kolmannen ELRC-työpajan (European Language Resource Coordination) 15.12.2020 klo 9.30-12.30. Tapahtumassa kohtaavat suomalaiset yritykset, organisaatiot ja tutkijat, jotka kehittävät, tarjoavat tai hyödyntävät kieliteknologiaa ja haluavat tarjota tai käyttää monikielisiä palveluita.Työpaja toteutetaan etäyhteydellä.

Iltapäivällä klo 14-16.30 jatketaan samassa virtuaalikokoushuoneessa ELG:n (European Language Grid) alueellisella työpajalla, jossa esitellään tehokas, yhteiseurooppalainen alusta kieliteknologiatyökalujen tarjoamiseen ja käyttöön.

Ilmoittaudu mukaan ja tutustu kieliteknologian kenttään!

Donate Speech (Lahjoita puhetta)

Suomeksi

The Language Bank of Finland (Kielipankki) is working together with the Finnish Broadcasting Company (Yle) and the Finnish State Development Company (Vake Oy) in the Donate Speech campaign (Lahjoita puhetta). Experts from Aalto University and the University of Turku have also participated in the project.

The goal is to gather 10000 hours of ordinary, casual Finnish speech that can be used for studying language as well as for developing technology and services that can be readily used in Finnish. In this project, particular attention has been paid in order to allow for both academic and commercial use of the material under given terms.

Speech is donated via the web browser or mobile app that offers a selection of tasks under fun themes that can inspire and encourage you to talk. The app was developed by Solita.

Who can donate?

All variants of spoken Finnish are welcome, including the speech of second-language Finnish learners. As long as you speak some Finnish and can understand the Finnish information and instructions in the app, you can donate!

What happens to the donated speech?

The speech material donated during the campaign will be stored in the Language Bank of Finland (Kielipankki), coordinated by the University of Helsinki.

The speech material can be redistributed to individual researchers, universities and research organizations or private companies that need it for studying language or artificial intelligence, for developing AI solutions or for higher education purposes related to the aforementioned areas.

Read more about processing personal data in the Donate Speech campaign (in Finnish) and the privacy practices of the Language Bank of Finland.

How much does it cost to use the speech material?

The Language Bank of Finland will begin redistributing the speech data when a sufficient amount of material has been donated and when the appropriate application process is in place. For academic researchers, the use of the data will be free of charge, similarly to the rest of the services of the Language Bank of Finland. For commercial use, a fee will probably be charged in order to cover handling costs. Details about the pricing will be provided at a later stage.

What kind of research is performed on data that are available via the Language Bank of Finland?

You can find some examples of research topics in the Researcher of the Month archive of the Language Bank of Finland.

Feedback about the Donate Speech campaign especially?

Please contact the email address lahjoita-puhetta (ATT) kielipankki.fi.

Kielipankin Mietta Lennes haastateltavana Yle Puheen Aamussa 16.6.2020

Lahjoita puhetta -kampanjan käynnistymistä sekä puheentutkimusta koskeva haastattelu on kuunneltavissa Yle Areenassa 23.6. saakka (alkaa suunnilleen kohdasta 2:09:00).

Lahjoita puhetta

In English

Kielipankki on mukana Ylen, Helsingin yliopiston ja Valtion kehitysyhtiö Vaken toteuttamassa Lahjoita puhetta -kampanjassa, jossa kerätään puhetta kaikkialta Suomesta, erilaisilta ihmisiltä. Hankkeen suunnittelussa on ollut mukana asiantuntijoita myös Aalto-yliopistosta ja Turun yliopistosta.

Hankkeen tavoitteena on saada kasaan 10000 tuntia ihan tavallista, arkista puhetta. Aineiston avulla autetaan sekä tutkijoita että tekoälyä kehittäviä yrityksiä ymmärtämään paremmin puhutun suomen ominaisuuksia ja kehittämään puheella ohjattavia tulevaisuuden sovelluksia ja palveluita, jotka toimivat sujuvasti suomeksi. Kampanjassa on kiinnitetty erityistä huomiota siihen, että aineistoa on mahdollista tietyin ehdoin käyttää sekä tieteelliseen tutkimukseen että kaupallisiin tarkoituksiin.

Omaa puhetta voi lahjoittaa joko verkkoselaimella tai mobiilisovelluksella, jossa on tarjolla hauskoja, puhumaan innostavia tehtäviä. Sovelluksen on kehittänyt Solita.

Kuka voi lahjoittaa?

Kaikkien puhe on tähän kampanjaan tervetullutta. Voit lahjoittaa, vaikka puhuisit suomea esimerkiksi toisena tai vieraana kielenä. Pääasia on, että ymmärrät sovelluksessa kerrotut tiedot ja ohjeet ja osaat omasta mielestäsi puhua suomea riittävästi.

Mitä lahjoitetulle puheelle jatkossa tapahtuu?

Lahjoita puhetta -kampanjassa kerättävä aineisto tallennetaan Kielipankkiin. Kielipankista aineistoa voidaan luovuttaa yrityksille sekä tutkijoille, korkeakouluille ja tutkimuslaitoksille, jotka tarvitsevat aineistoa tekoälyn tutkimusta ja kehitystä, kielen tutkimusta tai näihin liittyvää korkeakouluopetusta varten. Kielipankin toiminnasta vastaa Helsingin yliopisto.

Lue lisää Lahjoita puhetta -kampanjan tietosuojasta ja tutustu Kielipankin tietosuojakäytänteisiin.

Mitä aineiston käyttäminen maksaa?

Kielipankki alkaa välittää aineistoa, kun sitä on kertynyt riittävästi ja kun asianmukainen hakemusprosessi on toiminnassa. Tutkijoille aineiston käyttö on maksutonta muiden Kielipankin tarjoamien palveluiden tapaan. Yrityskäytöstä tullaan todennäköisesti perimään maksu, jolla katetaan tähän liittyviä käsittelykustannuksia. Tarkempi hinnoittelu selviää myöhemmin. Tavoitteena kuitenkin on, että myös pienemmillä toimijoilla on mahdollisuus hyödyntää aineistoa.

Millaista tutkimusta Kielipankin kautta välitettävillä aineistoilla tehdään?

Kielipankin Kuukauden tutkija -arkistosta löydät esimerkkejä siitä, millaisia aiheita on tähän mennessä tutkittu muiden Kielipankissa olevien aineistojen avulla.

Jos haluat lähettää Lahjoita puhetta -kampanjaan liittyvää palautetta

ota yhteyttä sähköpostitse osoitteeseen lahjoita-puhetta (ät) kielipankki.fi.

Hae Kielipankki-portaalista:
Marjatta Palander
Kuukauden tutkija: Marjatta Palander

 

Tulevat tapahtumat

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot