Viimeisimmät versiot: | |
Koltansaamen dokumentaatiokorpus (2016), ladattava versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Hae käyttöoikeutta Lataa aineisto (tulossa pian!) |
Koltansaamen dokumentaatiokorpus (2016) LAT-palvelussa on poistunut käytöstä joulukuussa 2020. Kuvailutiedot ja lisenssi Tämän version viittausohje | (Aineiston LAT-versio ei ole enää saatavilla) |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta on poistettu käytöstä joulukuussa 2020. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin tallessa ja korpus on tulossa saataville ladattavassa muodossa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104203
Viimeisimmät versiot: | |
Murteenseuruukorpus (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Tämän version viittausohje |
|
Etsi muut saatavilla olevat versiot |
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104202
Viimeisimmät versiot: | |
Puheen ja EGG:n samanaikaiset tallenteet, ladattava versio Kuvailutiedot ja lisenssi Tämän version viittausohje | Lataa aineisto |
Puheen ja EGG:n samanaikaiset tallenteet (LAT-versio, poistunut käytöstä) Kuvailutiedot ja lisenssi Tämän version viittausohje | ei enää saatavilla |
Etsi muut saatavilla olevat versiot |
Kielipankin LAT-alusta poistui käytöstä joulukuussa 2020. Sen jälkeen tätä aineistoa ei enää voi käyttää LAT-näkymän kautta. Vastaava aineisto tulee saataville Kielipankin latauspalvelussa samoilla käyttöehdoilla kuin aiemmin. Jatkossa aineistoa voi tutkia ja käsitellä omalla koneella, esimerkiksi Praat– tai ELAN-ohjelmilla.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-202104201
Kielipankki on mukana Ylen, Helsingin yliopiston ja Valtion kehitysyhtiö Vaken toteuttamassa Lahjoita puhetta -kampanjassa, jossa kerätään puhetta kaikkialta Suomesta, erilaisilta ihmisiltä. Hankkeen suunnittelussa on ollut mukana asiantuntijoita myös Aalto-yliopistosta ja Turun yliopistosta.
Hankkeen tavoitteena on saada kasaan 10000 tuntia ihan tavallista, arkista puhetta. Aineiston avulla autetaan sekä tutkijoita että tekoälyä kehittäviä yrityksiä ymmärtämään paremmin puhutun suomen ominaisuuksia ja kehittämään puheella ohjattavia tulevaisuuden sovelluksia ja palveluita, jotka toimivat sujuvasti suomeksi. Kampanjassa on kiinnitetty erityistä huomiota siihen, että aineistoa on mahdollista tietyin ehdoin käyttää sekä tieteelliseen tutkimukseen että kaupallisiin tarkoituksiin.
Omaa puhetta voi lahjoittaa joko verkkoselaimella tai mobiilisovelluksella, jossa on tarjolla hauskoja, puhumaan innostavia tehtäviä. Sovelluksen on kehittänyt Solita.
Kaikkien puhe on tähän kampanjaan tervetullutta. Voit lahjoittaa, vaikka puhuisit suomea esimerkiksi toisena tai vieraana kielenä. Pääasia on, että ymmärrät sovelluksessa kerrotut tiedot ja ohjeet ja osaat omasta mielestäsi puhua suomea riittävästi.
Lahjoita puhetta -kampanjassa kerättävä aineisto tallennetaan Kielipankkiin. Kielipankista aineistoa voidaan luovuttaa yrityksille sekä tutkijoille, korkeakouluille ja tutkimuslaitoksille, jotka tarvitsevat aineistoa tekoälyn tutkimusta ja kehitystä, kielen tutkimusta tai näihin liittyvää korkeakouluopetusta varten. Kielipankin toiminnasta vastaa Helsingin yliopisto.
Lue lisää Lahjoita puhetta -kampanjan tietosuojasta ja tutustu Kielipankin tietosuojakäytänteisiin.
Kielipankki alkaa välittää aineistoa, kun sitä on kertynyt riittävästi ja kun asianmukainen hakemusprosessi on toiminnassa. Tutkijoille aineiston käyttö on maksutonta muiden Kielipankin tarjoamien palveluiden tapaan. Yrityskäytöstä tullaan todennäköisesti perimään maksu, jolla katetaan tähän liittyviä käsittelykustannuksia. Tarkempi hinnoittelu selviää myöhemmin. Tavoitteena kuitenkin on, että myös pienemmillä toimijoilla on mahdollisuus hyödyntää aineistoa.
Kielipankin Kuukauden tutkija -arkistosta löydät esimerkkejä siitä, millaisia aiheita on tähän mennessä tutkittu muiden Kielipankissa olevien aineistojen avulla.
ota yhteyttä sähköpostitse osoitteeseen lahjoita-puhetta (ät) kielipankki.fi.
The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.
The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.
The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.
Viimeisimmät versiot: | |
Raja-Karjalan korpus, Kielipankin LAT-versio (LAT-palvelussa; tämä versio poistuu marraskuussa 2020) Kuvailutiedot ja lisenssi Viittausohje tähän versioon | Avaa aineisto LAT-palvelussa |
Raja-Karjalan korpuksen ladattava versio Kuvailutiedot ja lisenssi Viittausohje tähän versioon | Lataa aineisto |
Etsi muut saatavilla olevat versiot |
Raja-Karjalan korpus sisältää yhteensä noin 120 tuntia wav-muotoisia äänitiedostoja sekä niiden suomalais-ugrilaisella tarkekirjoituksella tuotetut transkriptiot sekä raakatekstimuodossa että ääneen kohdistettuina TextGrid-tiedostoina, joista on ”riisuttu” tarkemerkit. TextGrid-muotoisissa annotaatiotiedostoissa eri puhujien puheenvuorot on merkitty eri kerroksiin.
Litterointimerkkien kuvaus (pdf)
Äänitteet edustavat 1800-luvun lopulla ja 1900-luvun alussa syntyneiden rajakarjalaisten haastattelupuhetta, jota on tallennettu Kotimaisten kielten keskuksen Suomen kielen nauhoitearkiston kokoelmiin pääosin 1960- ja 1970-luvuilla. Näytteet edustavat Ilomantsin, Korpiselän, Suojärven, Suistamon, Impilahden ja Salmin pitäjien murretta.
Aineistosta on tarjolla toistaiseksi kaksi versiota. Aineistoa voi kuunnella ja litteraateista voi tehdä hakuja Kielipankin LAT-palvelussa. LAT-palvelusta voi myös ladata yksittäisten haastattelujen (”sessioiden”) tiedostoja niputettuina omalle koneelle. Aineistosta on myös saatavilla kokonaan omalle koneelle ladattava versio.
Tarkempaa tietoa eri aineistoversioiden sisällöstä löytyy niiden kuvailutiedoista.
Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö on kuitenkin saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2014073033
Tällä kaikille suomalaisille yliopistoille avoimella verkkokurssilla otetaan haltuun perustyökalut puhenäytteiden tutkimiseen ja opitaan suunnittelemaan oman puhekorpuksen keräämistä.
Kurssi tarjoaa yleiskuvan puheaineistojen käsittelystä ja puheen akustis-foneettisista analyysimenetelmistä. Kurssilla tutustutaan erityisesti Praat-puheanalyysiohjelman käyttömahdollisuuksiin ja opitaan soveltamaan ohjelman ominaisuuksia joustavasti omassa työssä. Kurssilla opetellaan käyttämään myös ELAN-ohjelmaa, jolla voi litteroida ja annotoida äänen lisäksi videota.
Kurssilla otetaan haltuun perustyökalut puhenäytteiden tutkimiseen ja opitaan käyttämään erityisesti Praat-ohjelmaa. Kurssille ovat tervetulleita kaikkien suomalaisten yliopistojen opiskelijat ja se suoritetaan kokonaan etänä Moodle-oppimisympäristön kautta. Kurssi on suomenkielinen.
Lisätiedot ja ilmoittautuminen: https://courses.helsinki.fi/fi/kik-lg212/120960613
Huom. Vastaava kurssi järjestetään seuraavan kerran todennäköisesti syksyllä 2018 sekä suomen- että englanninkielisenä.
FIN-CLARIN järjestää 31.10. – 18.12.2016 verkkokurssin Puheen analyysin perusteet Praat- ja ELAN-ohjelmilla.
Kurssi on suunnattu erityisesti fonetiikan, puhetieteiden ja kieliaineiden opiskelijoille, mutta se sopii kaikille, jotka suunnittelevat hyödyntävänsä puheäänitteitä tutkimusaineistona esim. opinnäytetyössään. Kurssi suoritetaan kokonaisuudessaan etäopiskeluna. Myös muiden kuin Helsingin yliopiston opiskelijat ovat tervetulleita mukaan!
Lisätietoa ja ilmoittautumisohjeet löytyvät kurssin kotisivulta (ks. ohessa).
FIN-CLARIN järjestää Aineistoklinikka-kurssin 21.11.2016 – 5.5.2017. Kurssi käynnistyy nelipäiväisellä intensiivijaksolla 21.-24.11.2016.
Aineistoklinikka-kurssi soveltuu kieliaineistojen parissa työskenteleville humanististen ja yhteiskuntatieteellisten alojen opiskelijoille ja tutkijoille. Myös muiden kuin Helsingin yliopiston opiskelijat ovat tervetulleita mukaan!
Lisätietoa ja ilmoittautumisohjeet löytyvät kurssin kotisivulta (ks. ohessa).