Koltansaamen dokumentaatiokorpus (2016)

Viimeisimmät versiot: 
Koltansaamen dokumentaatiokorpus (2016), ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Hae käyttöoikeutta
Lataa aineisto (tulossa pian!)
Koltansaamen dokumentaatiokorpus (2016) LAT-palvelussa
on poistunut käytöstä joulukuussa 2020.
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
(Aineiston LAT-versio ei ole enää saatavilla)
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta on poistettu käytöstä joulukuussa 2020. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus on tulossa saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104203

Murteenseuruukorpus

Viimeisimmät versiot:
Murteenseuruukorpus (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Etsi muut saatavilla olevat versiot

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104202

Puheen ja EGG:n samanaikaiset tallenteet

Viimeisimmät versiot: 
Puheen ja EGG:n samanaikaiset tallenteet, ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Puheen ja EGG:n samanaikaiset tallenteet
(LAT-versio, poistunut käytöstä)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
ei enää saatavilla
Etsi muut saatavilla olevat versiot 

Tärkeää tietoa tämän aineiston LAT-version poistumisesta vuonna 2020

Kielipankin LAT-alusta poistui käytöstä joulukuussa 2020. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Vastaava aineisto tulee saataville Kielipankin latauspalvelussa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104201

Lahjoita puhetta

In English

Kielipankki on mukana Ylen, Helsingin yliopiston ja Valtion kehitysyhtiö Vaken toteuttamassa Lahjoita puhetta -kampanjassa, jossa kerätään puhetta kaikkialta Suomesta, erilaisilta ihmisiltä. Hankkeen suunnittelussa on ollut mukana asiantuntijoita myös Aalto-yliopistosta ja Turun yliopistosta.

Hankkeen tavoitteena on saada kasaan 10000 tuntia ihan tavallista, arkista puhetta. Aineiston avulla autetaan sekä tutkijoita että tekoälyä kehittäviä yrityksiä ymmärtämään paremmin puhutun suomen ominaisuuksia ja kehittämään puheella ohjattavia tulevaisuuden sovelluksia ja palveluita, jotka toimivat sujuvasti suomeksi. Kampanjassa on kiinnitetty erityistä huomiota siihen, että aineistoa on mahdollista tietyin ehdoin käyttää sekä tieteelliseen tutkimukseen että kaupallisiin tarkoituksiin.

Omaa puhetta voi lahjoittaa joko verkkoselaimella tai mobiilisovelluksella, jossa on tarjolla hauskoja, puhumaan innostavia tehtäviä. Sovelluksen on kehittänyt Solita.

Kuka voi lahjoittaa?

Kaikkien puhe on tähän kampanjaan tervetullutta. Voit lahjoittaa, vaikka puhuisit suomea esimerkiksi toisena tai vieraana kielenä. Pääasia on, että ymmärrät sovelluksessa kerrotut tiedot ja ohjeet ja osaat omasta mielestäsi puhua suomea riittävästi.

Mitä lahjoitetulle puheelle jatkossa tapahtuu?

Lahjoita puhetta -kampanjassa kerättävä aineisto tallennetaan Kielipankkiin. Kielipankista aineistoa voidaan luovuttaa yrityksille sekä tutkijoille, korkeakouluille ja tutkimuslaitoksille, jotka tarvitsevat aineistoa tekoälyn tutkimusta ja kehitystä, kielen tutkimusta tai näihin liittyvää korkeakouluopetusta varten. Kielipankin toiminnasta vastaa Helsingin yliopisto.

Lue lisää Lahjoita puhetta -kampanjan tietosuojasta ja tutustu Kielipankin tietosuojakäytänteisiin.

Mitä aineiston käyttäminen maksaa?

Kielipankki alkaa välittää aineistoa, kun sitä on kertynyt riittävästi ja kun asianmukainen hakemusprosessi on toiminnassa. Tutkijoille aineiston käyttö on maksutonta muiden Kielipankin tarjoamien palveluiden tapaan. Yrityskäytöstä tullaan todennäköisesti perimään maksu, jolla katetaan tähän liittyviä käsittelykustannuksia. Tarkempi hinnoittelu selviää myöhemmin. Tavoitteena kuitenkin on, että myös pienemmillä toimijoilla on mahdollisuus hyödyntää aineistoa.

Millaista tutkimusta Kielipankin kautta välitettävillä aineistoilla tehdään?

Kielipankin Kuukauden tutkija -arkistosta löydät esimerkkejä siitä, millaisia aiheita on tähän mennessä tutkittu muiden Kielipankissa olevien aineistojen avulla.

Jos haluat lähettää Lahjoita puhetta -kampanjaan liittyvää palautetta

ota yhteyttä sähköpostitse osoitteeseen lahjoita-puhetta (ät) kielipankki.fi.

Raja-Karjalan korpus (FINKA)

The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.

The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.

The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.

Viimeisimmät versiot: 
Raja-Karjalan korpus, Kielipankin LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Avaa aineisto LAT-palvelussa icon-question-circle
Raja-Karjalan korpuksen ladattava versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohje tähän versioon
Lataa aineisto
Etsi muut saatavilla olevat versiot 

Raja-Karjalan korpus sisältää yhteensä noin 120 tuntia wav-muotoisia äänitiedostoja sekä niiden suomalais-ugrilaisella tarkekirjoituksella tuotetut transkriptiot sekä raakatekstimuodossa että ääneen kohdistettuina TextGrid-tiedostoina, joista on ”riisuttu” tarkemerkit. TextGrid-muotoisissa annotaatiotiedostoissa eri puhujien puheenvuorot on merkitty eri kerroksiin.

Litterointimerkkien kuvaus (pdf)

Äänitteet edustavat 1800-luvun lopulla ja 1900-luvun alussa syntyneiden rajakarjalaisten haastattelupuhetta, jota on tallennettu Kotimaisten kielten keskuksen Suomen kielen nauhoitearkiston kokoelmiin pääosin 1960- ja 1970-luvuilla. Näytteet edustavat Ilomantsin, Korpiselän, Suojärven, Suistamon, Impilahden ja Salmin pitäjien murretta.

Aineistosta on tarjolla toistaiseksi kaksi versiota. Aineistoa voi kuunnella ja litteraateista voi tehdä hakuja Kielipankin LAT-palvelussa. LAT-palvelusta voi myös ladata yksittäisten haastattelujen (”sessioiden”) tiedostoja niputettuina omalle koneelle. Aineistosta on myös saatavilla kokonaan omalle koneelle ladattava versio.

Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2014073033

Kurssi: Puheen analyysin perusteet

Tällä kaikille suomalaisille yliopistoille avoimella verkkokurssilla otetaan haltuun perustyökalut puhenäytteiden tutkimiseen ja opitaan suunnittelemaan oman puhekorpuksen keräämistä.

Kurssi tarjoaa yleiskuvan puheaineistojen käsittelystä ja puheen akustis-foneettisista analyysimenetelmistä. Kurssilla tutustutaan erityisesti Praat-puheanalyysiohjelman käyttömahdollisuuksiin ja opitaan soveltamaan ohjelman ominaisuuksia joustavasti omassa työssä. Kurssilla opetellaan käyttämään myös ELAN-ohjelmaa, jolla voi litteroida ja annotoida äänen lisäksi videota.

Lue lisää ja tule mukaan!

 

Verkkokurssi Puheen analyysin perusteet alkaa jälleen

Kurssilla otetaan haltuun perustyökalut puhenäytteiden tutkimiseen ja opitaan käyttämään erityisesti Praat-ohjelmaa. Kurssille ovat tervetulleita kaikkien suomalaisten yliopistojen opiskelijat ja se suoritetaan kokonaan etänä Moodle-oppimisympäristön kautta. Kurssi on suomenkielinen.

Lisätiedot ja ilmoittautuminen: https://courses.helsinki.fi/fi/kik-lg212/120960613

Huom. Vastaava kurssi järjestetään seuraavan kerran todennäköisesti syksyllä 2018 sekä suomen- että englanninkielisenä.

FIN-CLARIN järjestää 31.10. – 18.12.2016 verkkokurssin Puheen analyysin perusteet Praat- ja ELAN-ohjelmilla.

Kurssi on suunnattu erityisesti fonetiikan, puhetieteiden ja kieliaineiden opiskelijoille, mutta se sopii kaikille, jotka suunnittelevat hyödyntävänsä puheäänitteitä tutkimusaineistona esim. opinnäytetyössään. Kurssi suoritetaan kokonaisuudessaan etäopiskeluna. Myös muiden kuin Helsingin yliopiston opiskelijat ovat tervetulleita mukaan!

Lisätietoa ja ilmoittautumisohjeet löytyvät kurssin kotisivulta (ks. ohessa).

FIN-CLARIN järjestää Aineistoklinikka-kurssin 21.11.2016 – 5.5.2017. Kurssi käynnistyy nelipäiväisellä intensiivijaksolla 21.-24.11.2016.

Aineistoklinikka-kurssi soveltuu kieliaineistojen parissa työskenteleville humanististen ja yhteiskuntatieteellisten alojen opiskelijoille ja tutkijoille. Myös muiden kuin Helsingin yliopiston opiskelijat ovat tervetulleita mukaan!

Lisätietoa ja ilmoittautumisohjeet löytyvät kurssin kotisivulta (ks. ohessa).

Hae Kielipankki-portaalista:
Therese Lindström Tiedemann
Månadens forskare: Therese Lindström Tiedemann

 

Tulevat tapahtumat

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot