
Olli Kuparinen kertoo suomen kielen variaatioon ja muutokseen liittyvästä tutkimuksistaan, joissa hän on käyttänyt mm. Helsingin puhekielen pitkittäiskorpusta (1970, 1990, 2010) , Suomen kielen näytteitä -korpusta ja Lauseopin arkiston murrekorpusta.
Vanha kunnon ”Reittidemo” on nyt saatavilla Kielipankin latauspalvelussa. Erilaisiin kokeiluihin ja demoihin tarkoitettu aineisto on käytettävissä täysin avoimella lisenssillä (CC0, public domain).
Helsinki Corpus of English Texts, VRT latauspalvelussa Helsinki Corpus of English Texts VRT-muodossa on saatavilla Kielipankin latauspalvelussa www.kielipankki.fi/download. Helsinki Corpus of English Texts, VRT: korpuksen kuvailutiedot, korpus latauspalvelussa Lisätiedot löytyvät […]
Helsinki Corpus of Scottish Correspondence (1540-1750), VRT latauspalvelussa Helsinki Corpus of Scottish Correspondence (1540-1750) VRT-muodossa on saatavilla Kielipankin latauspalvelussa www.kielipankki.fi/download. Helsinki Corpus of Scottish Correspondence (1540-1750), VRT: korpuksen kuvailutiedot, korpus […]
Ylen suomenkielisen uutisarkiston selkouutiset 2019-2020, lähdemateriaali latauspalvelussa Korpus, joka sisältää artikkelit YLE -sivulta https://yle.fi/uutiset/osasto/selkouutiset/ vuosilta 2019 ja 2020, on saatavilla Kielipankin latauspalvelussa www.kielipankki.fi/download/. Ylen suomenkielisen uutisarkiston selkouutiset 2019-2020, lähdemateriaali: Korpuksen […]
Nyt latauspalvelussa: Haastatteluaineisto Yves Montand Neuvostoliitossa, lähdemateriaali Haastatteluaineisto Yves Montand Neuvostoliitossa, lähdemateriaali (MONTINT-aineisto) on nyt saatavilla Kielipankin latauspalvelussa. Aineistoon pohjautuvaa tutkimusta on julkaistu myös tuoreessa teoksessa: Oiva, Mila; Salmi, Hannu; […]
Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita Kersti Juvan suomentamina, englanti-suomi-rinnakkaiskorpus, sekoitettu, ladattava versio Englantilaisen ja amerikkalaisen kirjallisuuden klassikoita Kersti Juvan suomentamina, englanti-suomi-rinnakkaiskorpus, sekoitettu, ladattava versio on nyt latauspalvelussa.
Karita Suomalainen kertoo ”sä-passiiviin” ja muihin vuorovaikutuksen kieliopillisiin rakenteisiin liittyvästä tutkimuksestaan, jossa hän on käyttänyt mm. Suomenkielisten arkikeskustelujen morfosyntaktista tietokantaa (Arkisyn), Lauseopin arkiston murrekorpusta ja Suomi 24 -korpusta.
ANEE:n leksikaaliset portaalit akkadille Muinaisen Lähi-idän imperiumit-huippuyksikön (ANEE) tiimi 1 on luonut kaksi leksikaalista portaalia joissa ensimmäistä kertaa havainnollistetaan akkadinkielisten sanojen leksikaalisia suhteita sanaverkkoina. Käyttämällä fastText ja Pointwise Mutual Information […]
Kielentunnistin HeLI-OTS 1.0 nyt ladattavissa Zenodosta HeLI-OTS 1.0 on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan jokaisen annetussa tekstitiedostossa olevan tekstirivin kielen. HeLI-OTS 1.0 valitsee sopivimman vaihtoehdon 200 kielen joukosta. HeLI-OTS […]
Ylen suomenkielinen uutisarkisto 2019-2020, lähdeaineisto latauspalvelussa Korpus, joka sisältää artikkelit YLE -sivulta https://yle.fi vuosilta 2019 ja 2020, on saatavilla Kielipankin latauspalvelussa www.kielipankki.fi/download. Ylen suomenkielinen uutisarkisto 2019-2020, lähdeaineisto: Korpuksen kuvailutiedot, korpus […]
Ylen ruotsinkielinen uutisarkisto 2019-2020, lähdeaineisto latauspalvelussa Korpus, joka sisältää artikkelit Svenska YLE -sivulta https://svenska.yle.fi vuosilta 2019 ja 2020, on saatavilla Kielipankin latauspalvelussa www.kielipankki.fi/download. Ylen ruotsinkielinen uutisarkisto 2019-2020, lähdeaineisto: Korpuksen kuvailutiedot, […]
Kielipankin projektisuunnittelija Mietta Lennes keskustelee Kia Tolppasen ja Harri Moision kanssa puheentunnistuksesta ja puheteknologian merkityksestä Telian podcastissa 12.5.2021.
Mila Oiva kertoo kulttuurihistoriaan liittyvästä tutkimuksestaan, jonka myötä on syntynyt mm. Yves Montand Neuvostoliitossa -haastatteluaineisto.
Muinaiskirkkoslaavin korpus latauspalvelussa Corpus Cyrillo-Methodianum Helsingiense: Muinaiskirkkoslaavin korpus, lähdemateriaali on saatavilla latauspalvelussa. Aineisto on tarjolla sekä zip-pakettina että www-sivuina.
Iijoki-kokoelma teksti- sekä VRT-muodossa latauspalvelussa Iijoki, Oulun yliopiston Päätalo-kokoelma on saatavilla latauspalvelussa tekstimuotoisena lähdeaineistona sekä jäsennettynä VRT-muodossa.
Gwenaëlle Bauvois kertoo Kielipankissa olevaan Eduskunnan täysistuntojen ladattavaan versioon 1 ja muihin media-aineistoihin liittyvästä tutkimuksestaan.
Ylen uutisarkisto VRT-muodossa latauspalvelussa Lähdemateriaalien lisäksi Ylen uutisaineistot ovat nyt ladattavissa VRT-muodossa Kielipankin latauspalvelusta kahtena versiona, jotka sisältävät samat virkkeet mutta joilla on erilainen saatavuus ja erilaiset ominaisuudet: Kirjautuneiden tutkijoiden […]
FinEst BERT latauspalvelussa FinEst BERT, kolmella kielellä (suomea, eesti ja englantia) harjoitettu monikielinen BERT on saatavilla Kielipankin latauspalvelussa korp.csc.fi/download. FinEst BERT: korpuksen kuvailutiedot, korpus latauspalvelussa
STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali latauspalvelussa Korpus on saatavilla Kielipankin latauspalvelussa korp.csc.fi/download. Tämä on jäsennetty versio STT:n uutisarkisto 1992-2018, lähdemateriaali:sta. Khalid Alnajjar (Helsingin yliopisto) jäsensi korpuksen käyttämällä Turku neural parser […]
| < Aiemmat uutiset | Tuoreemmat uutiset > |