Uutisia


Kielipankki, puheteknologia ja Lahjoita puhetta -kampanja esillä Telian podcastissa

12.5.2021

Kielipankin projektisuunnittelija Mietta Lennes keskustelee Kia Tolppasen ja Harri Moision kanssa puheentunnistuksesta ja puheteknologian merkityksestä Telian podcastissa 12.5.2021.


Kuukauden tutkija: Mila Oiva

10.5.2021

Mila Oiva kertoo kulttuurihistoriaan liittyvästä tutkimuksestaan, jonka myötä on syntynyt mm. Yves Montand Neuvostoliitossa -haastatteluaineisto.


Muinaiskirkkoslaavin korpus latauspalvelussa

23.4.2021

Muinaiskirkkoslaavin korpus latauspalvelussa Corpus Cyrillo-Methodianum Helsingiense: Muinaiskirkkoslaavin korpus, lähdemateriaali on saatavilla latauspalvelussa. Aineisto on tarjolla sekä zip-pakettina että www-sivuina.


Iijoki-kokoelma latauspalvelussa

16.4.2021

Iijoki-kokoelma teksti- sekä VRT-muodossa latauspalvelussa Iijoki, Oulun yliopiston Päätalo-kokoelma on saatavilla latauspalvelussa tekstimuotoisena lähdeaineistona sekä jäsennettynä VRT-muodossa.


Kuukauden tutkija: Gwenaëlle Bauvois

12.4.2021

Gwenaëlle Bauvois kertoo Kielipankissa olevaan Eduskunnan täysistuntojen ladattavaan versioon 1 ja muihin media-aineistoihin liittyvästä tutkimuksestaan.


YLEn uutisaineistot

1.4.2021

Ylen uutisarkisto VRT-muodossa latauspalvelussa Lähdemateriaalien lisäksi Ylen uutisaineistot ovat nyt ladattavissa VRT-muodossa Kielipankin latauspalvelusta kahtena versiona, jotka sisältävät samat virkkeet mutta joilla on erilainen saatavuus ja erilaiset ominaisuudet: Kirjautuneiden tutkijoiden käytettävissä olevassa versiossa virkkeet ovat alkuperäisessä järjestyksessä, kun taas kaikille avoimessa versiossa virkkeet on sekoitettu kunkin tekstin (artikkelin) sisällä. Huomaa, että Ylen suomenkielinen uutisarkisto -aineisto […]


FinEst BERT latauspalvelussa

30.3.2021

FinEst BERT latauspalvelussa FinEst BERT,  kolmella kielellä (suomea, eesti ja englantia) harjoitettu monikielinen BERT on saatavilla Kielipankin latauspalvelussa korp.csc.fi/download. FinEst BERT: korpuksen kuvailutiedot, korpus latauspalvelussa


STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali latauspalvelussa

23.3.2021

STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali latauspalvelussa Korpus on saatavilla Kielipankin latauspalvelussa korp.csc.fi/download. Tämä on jäsennetty versio STT:n uutisarkisto 1992-2018, lähdemateriaali:sta. Khalid Alnajjar (Helsingin yliopisto) jäsensi korpuksen käyttämällä Turku neural parser pipeline:a (http://turkunlp.org/Turku-neural-parser-pipeline/). STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali: Korpuksen kuvailutiedot, korpus latauspalvelussa Jäsentämätön versio: STT:n uutisarkisto 1992-2018, lähdemateriaali: Korpuksen kuvailutiedot, korpus latauspalvelussa Kaikki aineistot löytyvät aineistoryhmäsivulta.


Kuukauden tutkija: Heikki Rasilo

11.3.2021

Heikki Rasilo kertoo puheentuottoon liittyvästä tutkimustyöstään, jossa hän on hyödyntänyt Kielipankissa olevaa Aalto-yliopiston DSP-kurssin keskustelukorpusta.


Vielä ehdit ilmoittautua 15.3. alkavalle luonnollisen kielen käsittelyn verkkokurssille!

9.3.2021

Tuomo Hiippala pitää Helsingin yliopistossa verkkokurssin Natural Language Processing for Linguists ajalla 15.3.2021 -10.5.2021. Ilmoittaudu mukaan 16.3.2021 mennessä tai katso itseopiskelumateriaalit.


Uusi aineisto (beta): Kotimaisten kielten keskuksen aikakauslehtikorpus

9.3.2021

Kotimaisten kielten keskuksen aikakauslehtikorpus, tarkistettu ja Kotimaisten kielten keskuksen aikakauslehtikorpus, tarkistamaton ovat nyt käytettävissä beetatestiversioina Korpissa.


Uusi aineisto (beta): Käännössuomen korpus

9.3.2021

Käännössuomen korpus, Korp on nyt käytettävissä beetatestiversiona Korpissa.  


E-thesis-aineistoa päivitetty

9.3.2021

Helsingin yliopiston englanninkielinen E-thesis 1999-2016 on päivitetty versioon 1.1. Gradu- ja väitöskirjakorpuksiin on tehty seuraavia muutoksia: Aineisto on jäsennetty Turku Neural Parser Pipeline (TNPP) -jäsentimellä. Tekstit, joissa on vähemmän kuin 1000 sanaa on jätetty pois. Tekstit, joissa on enemmän kuin 1000 sanaa on otettu mukaan vain jos niistä löytyy tarpeeksi englanninkielisiä sanoja. Korpus ethesis_en_phd_math on […]


Lahjoita puhetta -kampanjassa kerätyn puheaineiston litterointi alkamassa – etsimme yhteistyökumppaneita litterointityön toimittajiksi

25.2.2021

Toimittaako yrityksesi litterointipalveluita? Jätä tarjous Lahjoita puhetta -aineiston litteroinnista Hanki-tarjouspalveluun 15.3.2021 klo 14.00 mennessä.


Kuukauden tutkija: Emmi Lahti

10.2.2021

Emmi Lahti kertoo retoriikkaan ja diskurssintutkimukseen liittyvästä tutkimustyöstään, jossa hän on hyödyntänyt Kielipankissa olevaa Suomi24-korpusta.


Tietoarkisto julkaisi uudistetun Tutkimusmenetelmien verkkokäsikirjan opiskeluun ja opetukseen

22.1.2021

Tietoarkiston julkaisema Tutkimusmenetelmien verkkokäsikirja koostuu Kvantitatiivisen tutkimuksen verkkokäsikirjasta ja Laadullisen tutkimuksen verkkokäsikirjasta. Materiaaleja voi käyttää opiskelussa ja opetuksessa.


Kuukauden tutkija: Mats Fridlund

18.1.2021

Professori Mats Fridlund kertoo digitaaliseen historiaan liittyvästä tutkimustyöstään, jonka tukena ovat työkalut ja aineistot sekä suomalaisessa Kielipankissa että Ruotsin Språkbankenissa.


Kuukauden tutkija: Tommi Jauhiainen

10.12.2020

Parivuotista post doc-kauttaan parhaillaan aloitteleva Kielipankin projektisuunnittelija Tommi Jauhiainen kertoo Kielipankin palveluihin ja aineistoihin liittyvistä tutkimuksistaan.


Korp-palvelin vaihtuu 10.12.2020

8.12.2020

Korp-palvelin vaihtuu 10.12.2020 Korp-palvelu siirretään 10.12.2020 toiselle palvelimelle teknisistä syistä. Korp-palvelun osoitteena säilyy toistaiseksi https://korp.csc.fi. Palvelimen vaihtuminen ei aiheuta käyttökatkoa, ja muutenkin Korpin on tarkoitus toimia uudella palvelimella samoin kuin ennen. Sanakuvaominaisuus toimii kuitenkin usean viikon ajan vain osassa niitä aineistoja, joissa se on ollut käytettävissä. Uusi palvelin on myös ainakin aluksi nykyistä hitaampi. Ilmoita mahdollisista muista toimimattomuuksista tai virheistä […]


Tervetuloa seuraavaan Kielipankki Liveen 14.12. klo 13.00! Ilmoittaudu nyt

7.12.2020

Aiheena tällä kertaa erityisesti puheaineistot ja tietosuojakäytänteet, esiintyjinä asiantuntevia tutkijavieraita. Ilmoittaudu nyt!


< Aiemmat uutiset