Tulossa olevat aineistot

In English

>> Katso jo julkaistut aineistot

100suom
Sata suomalaista kielellistä elämäkertaa
a
b
MP4,DOCX,XLSX
b
MP4,DOCX,XLSX
a
BHanna Lappalainenhttps://blogs.helsinki.fi/100suomalaista/
Akkala
Puhutun ja kirjoitetun akkalansaamen korpus
a
a
a
VRT
a
Korp
Michael Riessler
amph-korp
Ajatella, miettiä, pohtia, harkita -korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
Antti Arppe
coronavirus-2021-05-src
The Coronavirus Corpus - Kielipankin versio 2021-05, lähdemateriaali
RES
R
a
BFIN-CLARIN
DIALUKI
DIALUKI - toisen ja vieraan kielen lukemisen ja kirjoittamisen diagnosointi
RES
R
c
a
TXT
a
VRT
a
Korp
Ari Huhta
digitala-autumn2021
DigiTala: lukioissa ja yliopistossa kerätty S2-aineisto, syksy 2021
RES
R
a
b
WAV, TXT
b
WAV, TXT
a
BAnna von Zansenhttps://zenodo.org/communities/digitala/about/
digitala-spring2021
DigiTala: lukioissa kerätty S2-aineisto, kevät 2021
RES
R
a
b
WAV, TXT
b
WAV, TXT
a
BAnna von Zansenhttps://zenodo.org/communities/digitala/about/
digitala-yki
DigiTalan YKI-aineisto
RES
R
a
b
WAV, TXT
b
WAV, TXT
a
BHeini Kalliohttps://zenodo.org/communities/digitala/about/
dma-v2
Digitaalinen muoto-opin arkisto, uusi versio
PUB
P
c
VRT
a
Korp
dma-wn-fn-src
Muoto-opin arkiston sanaliput sekä keruukertomukset, lähdemateriaali
RES
R
c
PDF
icon-question-circle
dma-wn-src
Digitaalisen muoto-opin arkiston sanaliput, lähdemateriaali
RES
R
c
a
PDF
a
icon-question-circle
DSPCON2013-2015-korp
Aalto-yliopiston DSP-kurssin keskustelukorpus 2013-2015, Helsinki-Korp-version
c
c
TXT
a
VRT
a
Korp
Mikko Kurimo,
Seppo Enarvi
eduskunta-v2-dl
Eduskunnan täysistunnot, ladattava versio 2
a
a
MP4, WAV, TXT
a
WAV, ELAN, VRT
a
icon-question-circle
eduskunta-v2-korp
Eduskunnan täysistunnot, Kielipankin Korp-versio 2
a
c
TXT
a
WAV, ELAN, VRT
a
Korp
icon-question-circle
enets
Enetsin korpus
a
a
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
Download, Korp
Olesya Khanina
english-uhlcs-korp
Englannin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
erme-dl
ERME Ersän ja mokšan laajennettu korpus, kokotekstit/ladattava versio
c
b
XML
b
VRT
Jack Rueter
Ersä
Ersän puhekielen korpus
c
c
a
ELAN
a
Riho Grünthal
erzya-moksha-komi-uhlcs-korp
Ersän ja mokšan kirjallisuutta ja julkaisuja ja komisyrjäänin kirjallisuutta (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
erzya-moksha-uhlcs-korp
Ersän ja mokšan sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
estonian1-uhlcs-korp
Viron korpus 1:n (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
estonian2-uhlcs-korp
Viron korpus 2:n (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
fcaa
Keskusteluntutkimuksen arkisto
a
a
WAV,MP3,MP4,RTF,PDF
a
Mari Siiroinenhttps://metashare.csc.fi/repository/browse/finnish-conversation-analysis-archive/65669f5eb7e611eb9cdefa163ec5ae3e69c8f5f510064ad999f16144700b1156/
fedidi
Murteita käsittelevien fennististen väitöskirjojen lähdetietokanta
a
c
TXT
c
TXT
a
findarc
Suomenkielisen pimeän verkon kauppapaikka-aineisto
RES
R
a
c
JSONLINE
a
VRT
a
Tuomas Harviainen
finears
Suomalaisen elektroakustisen musiikin haastatteluaineisto
a
b
WAV,DOCX
b
WAV,TXT
a
Mikko Ojanenhttps://blogs.helsinki.fi/finnish-electroacoustic-resources/
FinIntas
The FinINTAS Corpus of Spontaneous and Read-aloud Finnish Speech
a
c
wav + Praat
a
ELAN
a
Mietta Lennes
finlangus
Amerikansuomalaisten siirtolaisten ja verrokkipuhujien puhuttu suomen kieli ja kielelliset tehtävät
a
Nana Lehtinen
finnish-bibles-uhlcs-korp
Suomen korpus (raamatut) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
finnish-literature-uhlcs-korp
Suomen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
FinnTreeBank1-korp
Suomen puupankki FinnTreeBank 1:n Helsinki-Korp-versio
PUB
P
c
c
TXT
a
VRT
a
Korp
ha-korp
Ha-kieliaineiston Helsinki-Korp-versio
PUB
P
c
c
TXT
a
VRT
a
Korp
Lotta Aunio
hanty-uhlcs-korp
Hantin korpus (pohjoishantin aineistot ja käännökset) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
helpuhe-2010txt
Helsingin puhekielen pitkittäiskorpus (2010-luvun tekstimuotoinen aineisto)
c
c
TextGrid
a
VRT
a
Korp
icon-question-circleHanna Lappalainen
helpuhe-v2-korp
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki Korp versio 2
RES
R
c
a
a
a
icon-question-circleHanna Lappalainen
helpuhe-v2-lat
Helsingin puhekielen pitkittäiskorpuksen (1970, 1990, 2010) Helsinki LAT versio 2
RES
R
c
c
TextGrid
b
ELAN
a
Bicon-question-circleHanna Lappalainen
HS
Helsingin Sanomien arkisto -korpus
c
a
a
VRT
a
Korp
Jarkko Rahkonen
ingrian-uhlcs-korp
Inkeroisen korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
Inkerin murteet
Inkerin murteiden korpus
a
a
WORD-DOC, MP3, WAV
a
VRT, ELAN
a
Marjatta Palanderwww, muuta
iweb-src
The Intelligent Web Corpus - Kielipankin versio, lähdemateriaali
a
BFIN-CLARIN
kikosa-haa
Oulun yliopiston Kikosa-kokoelma: Ryhmähaastattelut
a
c
WAV, EAF, TXT
c
WAV, EAF, TXT
a
Maria Frick
kikosa-kok
Oulun yliopiston Kikosa-kokoelma:Opiskelijakokoukset
a
c
WAV, EAF, TXT
c
WAV, EAF, TXT
a
Maria Frick
Kiltinänsaame
Kirjoitetun kiltinänsaamen korpus
PUB
P
a
a
a
VRT
b
Korp
Mikael Riessler
Kiltinänsaame (UHLCS)
Kiltinänsaamen korpus (UHLCS)
c
c
PDF
b
PDF
a
Pirkko Suihkonen
komi-ikdp
Puhutun komin korpus: IKDP
a
b
MP4, WAV, ELAN
a
MP4, WAV, ELAN
a
Niko Partanen
komi-uhlcs-korp
Komisyrjäänin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
kra-korp
Keskiranskan korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
latin-uhlcs-korp
Latinan korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
long-second
Long Second -korpus: Suomen kielen kehittyminen alakoulun valmistavalla luokalla
b
c
ELAN, MP4
a
VRT, ELAN
a
Download, Korp
Maria Ahlholm
Lönnrot
Elias Lönnrotin kirjeenvaihto
PUB
P
c
a
XML
a
VRT
a
Korp
Kirsi Keravuoriwww
lude-uhlcs-korp
Lyydin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
medievalturku
Turun keskiaikaisten asiakirjojen maamerkkien korpus, lähdeaineisto
PUB
P
a
b
XML
a
XML, VRT, TXT
a
BHanna-Mari Kupari
mepu-src
Puhutun meänkielen korpus, lähdeaineisto
RES
R
a
b
WAV, TXT
b
WAV, TXT
a
BNiina Kunnas
mlcca
MLCCA, Monikielinen sopimustekstien korpus
RES
R
a
c
XML, VRT
c
XML, VRT
a
AMikhail Mikhailov
movie-src
The Movie Corpus - Kielipankin versio, lähdemateriaali
a
BFIN-CLARIN
mutable-src
Kuvailutulkkaus sokeiden ja näkevien yhteistyönä
a
c
MP4, EAF, TXT
b
MP4, EAF, TXT
a
BMaija Hirvonenhttps://projects.tuni.fi/mutable/the-mutable-corpus/
nenets-uhlcs-korp
Nenetsin korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
Nganasan
Nganasanin kielen puhekorpus
c
a
ELAN
a
VRT, ELAN
a
Larisa Leisiö
nmk-korp
Nimimaiseman muutos -korpuksen Helsinki Korp -versio
ACA
A
c
a
a
VRT
a
Korp
Elisa Stenvall
nmk-lat
Nimimaiseman muutos -korpuksen Helsinki LAT -versio
ACA
A
c
a
a
ELAN
a
Elisa Stenvall
NorDiga
Nordican digitaalinen arkisto
a
a
a
VRT
a
Korp
Jan Lindströmwww
north-saami-literature-uhlcs-korp
Pohjoissaamen korpus (kirjallisuutta) (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
north-saami-report-uhlcs-korp
Pohjoissaamen korpuksen (Sámikultuvradoaibmagotti smiehttamush) (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
now-2021-05-src
News on the Web - Kielipankin versio 2021-05, lähdemateriaali
a
BFIN-CLARIN
nzadi
Nzadin korpus
a
a
WAV, PDF, TXT
a
WAV, PDF, TXT
a
Download, Korp
Thera Marie Crane
ona
Oulun nauhoitearkisto
RES
R
c
b
a
ELAN
a
Niina Kunnas
Opus ECB
Opus EKP -korpus
PUB
P
a
a
a
Jörg Tiedemann
Opus EU
Opus EU -korpus
PUB
P
a
a
a
Jörg Tiedemann
Opus Localization
Opus lokalisointi -korpus
a
a
a
Jörg Tiedemann
Opus Subtitles
Opus tekstitys -korpus
PUB
P
a
a
a
Jörg Tiedemann
oulu-korp
Oulun korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
parole-fi-korp
Suomen kielen Parole-korpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
PERSO
PERSO Databases for Finnish Speech Synthesis
c
c
TXT, WAV
a
ELAN
a
Martti Vainio, Heini Kallio
ProoF
ProoF - Maahanmuuttajien suomen kielen ääntäminen
a
a
wav + Praat
a
ELAN
a
Mietta Lennes
Prosodiakorpus
Suomen kielen prosodian variaation korpus
a
a
a
ELAN
a
Tommi Kurki, Tommi Nieminen
puhelahjat-annotated
Lahjoita puhetta: Annotoitu aineisto (yrityskäyttöön)
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleFIN-CLARINhttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-annotated
Lahjoita puhetta: Annotoitu aineisto
RES
R
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
c
Aicon-question-circleFIN-CLARINhttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-dev
Lahjoita puhetta, Valikoitu aineisto: Kehitysdata (10h)
RES
R
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-dev
Lahjoita puhetta, Valikoitu aineisto: Kehitysdata (10h) (yrityskäyttöön)
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-korp
Lahjoita puhetta -aineisto, Korp
RES
R
a
c
TXT, TextGrid
a
VRT
a
Korp
Aicon-question-circleFIN-CLARIN
puhelahjat-selected
Lahjoita puhetta: Valikoitu aineisto (yrityskäyttöön)
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleFIN-CLARINhttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-selected
Lahjoita puhetta: Valikoitu aineisto
RES
R
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
c
Aicon-question-circleFIN-CLARINhttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-test
Lahjoita puhetta, Valikoitu aineisto: Testidata (10h)
RES
R
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-test
Lahjoita puhetta, Valikoitu aineisto: Testidata (10h) (yrityskäyttöön)
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-test-mtr
Lahjoita puhetta, Valikoitu aineisto: Usean litteroijan testidata (1h)
RES
R
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-test-mtr
Lahjoita puhetta, Valikoitu aineisto: Usean litteroijan testidata (1h) (yrityskäyttöön)
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-test-mtrs
Lahjoita puhetta, Valikoitu aineisto: Testidata useaan kertaan litteroiduilta puhujilta (10h)
RES
R
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-test-mtrs
Lahjoita puhetta, Valikoitu aineisto: Testidata useaan kertaan litteroiduilta puhujilta (10h) (yrityskäyttöön)
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-train
Lahjoita puhetta, Valikoitu aineisto: Opetusdata (100h)
RES
R
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
puhelahjat-train
Lahjoita puhetta, Valikoitu aineisto: Opetusdata (100h) (yrityskäyttöön)
c
c
WAV, FLAC, JSON
c
FLAC, CSV, TXT, TextGrid, ELAN
b
Aicon-question-circleAnssi Moisiohttps://www.kielipankki.fi/lahjoita-puhetta/
quantlang-uhlcs-korp
Kvantifiointi suomessa ja keskisen Volgan ja Kaman alueella puhuttavissa kielissä (UHLCS), Helsinki-Korp-versio
c
c
PDF
a
VRT
a
Korp
Saamen kielen korpus
Puhutun saamen kielen korpus (Giellagas)
c
c
a
ELAN
b
Marko Jouste
sapu
Satakuntalaisuus puheessa -korpus
RES
R
a
b
WAV, TextGrid, TXT
b
WAV, TextGrid, TXT
a
Tommi Kurki
sfnet-korp
SFNET-keskusteluryhmäkorpuksen Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
SignWiki
Viittomakielten SignWiki-hanke
a
a
a
ELAN
a
Leena Savolainenwww
skk-vrt
Suomalaisen kirjallisuuden klassikoita, VRT
PUB
P
c
VRT
icon-question-circlePetri Lauerma
soap-src
Corpus of American Soap Operas - Kielipankin versio, lähdemateriaali
a
BFIN-CLARIN
stat-fi-en
Tilastokeskuksen suomi-englanti-käännösmuisti
c
TMX
b
TMX
a
stat-fi-sv
Tilastokeskuksen suomi-ruotsi-käännösmuisti
c
TMX
b
TMX
a
stt-fi-1992-2018-korp
STT:n uutisarkisto 1992-2018, Kielipankin Korp-versio
PUB
P
c
a
VRT
a
Korp
Olli Viitala
sus-fieldwork
Suomalais-Ugrilaisen Seuran kenttätyökorpus
PUB
P
c
a
a
VRT
a
Korp
Jack Rueter
Suvi
Suvi-verkkosanakirja
a
a
a
ELAN
a
Leena Savolainenwww
TAITO
TAITO-hankkeen kirjalliset ja suulliset aineistot
a
a
TXT
a
ELAN
a
Marjo Vesalainenwww
tampuhe
Tampereen puhekielen pitkittäisaineisto
RES
R
a
b
WAV, TextGrid
b
WAV, TextGrid
a
Liisa Mustanoja
tboneslim-src
T-Bone Slim -korpus, lähdemateriaali
PUB
P
a
b
PDF, JPG, TIFF
a
PDF, TXT
a
AKirsti Salmi-Niklanderhttps://blogs.helsinki.fi/tboneslim
testipiste
Testipisteaineisto
c
a
VRT
a
Korp
Janne Laitinen
Turjansaame
Puhutun ja kirjoitetun turjansaamen korpus
PUB
P
a
a
TXT
a
VRT
a
Korp
Michael Riessler
tv-src
The TV Corpus - Kielipankin versio, lähdemateriaali
a
BFIN-CLARIN
tver-1980
Tverinkarjalan korpus 1957-1971
a
c
WAV, EAF, TXT
c
WAV, EAF, TXT
a
BMarjatta Palander
tver-2020
Tverinkarjalan korpus 2016-2019
a
c
WAV, EAF, TXT
c
WAV, EAF, TXT
a
BMarjatta Palander
ume-saami-uhlcs-korp
Uumajansaamen korpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
uralic-uhlcs-korp
Uralilaisia, turkkilaisia, indo-iranilaisia ja mongolikieliä sekä Siperian ja Kaukasian kieliä (UHLCS), Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
uzbek-uhlcs-korp
Uzbekki-englanti sanakirjan (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
VVKS
Virtuaalinen vanha kirjasuomi (VVKS) -kokoelman Kielipankin Korp-versio
PUB
P
c
a
a
VRT
a
Korp
Mari Siiroinen
wikipedia-fi-2017-korp
Suomenkielinen Wikipedia 2017, Korp
PUB
P
c
c
VRT
b
VRT
a
Korp
Tatu Huovilainen
wordlists-uhlcs-korp
Sanaluettelokorpuksen (UHLCS) Helsinki-Korp-versio
c
c
TXT
a
VRT
a
Korp
Yle-subtitle
Ylen ruututekstikorpus
a
a
TXT
a
VRT
a
Korp
Jukka Mäkisalo
ylenews-fi-2019-2021-selko-korp
Ylen suomenkielisen uutisarkiston selkouutiset 2019-2021, Korp
ACA
A
a
Korp
Aicon-question-circle
ylenews-fi-2019-2021-selko-s-korp
Ylen suomenkielisen uutisarkiston selkouutiset 2019-2021, sekoitettu, Korp
PUB
P
a
Korp
Aicon-question-circle