Uutisia


ANEE:n leksikaaliset portaalit akkadille

11.6.2021

ANEE:n leksikaaliset portaalit akkadille Muinaisen Lähi-idän imperiumit-huippuyksikön (ANEE) tiimi 1 on luonut kaksi leksikaalista portaalia joissa ensimmäistä kertaa havainnollistetaan akkadinkielisten sanojen leksikaalisia suhteita sanaverkkoina. Käyttämällä fastText ja Pointwise Mutual Information (PMI) menetelmiä olemme luoneet leksikaaliset portaalit jotka mallintavat paradigmaattisia ja syntagmaattisia suhteita sanojen välillä.


Kielentunnistin HeLI-OTS 1.0 nyt ladattavissa Zenodosta

9.6.2021

Kielentunnistin HeLI-OTS 1.0 nyt ladattavissa Zenodosta HeLI-OTS 1.0 on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan jokaisen annetussa tekstitiedostossa olevan tekstirivin kielen. HeLI-OTS 1.0 valitsee sopivimman vaihtoehdon 200 kielen joukosta. HeLI-OTS 1.0 on julkaistu Helsingin yliopiston ja Lingsoft Oy:n yhteistyöprojektissa Language Identification of Speech and Text, joka on saanut rahoitusta Vaikuttavuussäätiön “Tandem Industry Academia 2020” -hausta. […]


Ylen suomenkielinen uutisarkisto 2019-2020, lähdeaineisto latauspalvelussa

27.5.2021

Ylen suomenkielinen uutisarkisto 2019-2020, lähdeaineisto latauspalvelussa Korpus, joka sisältää artikkelit YLE -sivulta https://yle.fi vuosilta 2019 ja 2020, on saatavilla Kielipankin latauspalvelussa www.kielipankki.fi/download. Ylen suomenkielinen uutisarkisto 2019-2020, lähdeaineisto: Korpuksen kuvailutiedot, korpus latauspalvelussa Kaikki käytettävissä olevat Ylen uutisarkisto -aineistot löytyvät aineistoryhmäsivulta.


Ylen ruotsinkielinen uutisarkisto 2019-2020, lähdeaineisto latauspalvelussa

27.5.2021

Ylen ruotsinkielinen uutisarkisto 2019-2020, lähdeaineisto latauspalvelussa Korpus, joka sisältää artikkelit Svenska YLE -sivulta https://svenska.yle.fi vuosilta 2019 ja 2020, on saatavilla Kielipankin latauspalvelussa www.kielipankki.fi/download. Ylen ruotsinkielinen uutisarkisto 2019-2020, lähdeaineisto: Korpuksen kuvailutiedot, korpus latauspalvelussa Kaikki käytettävissä olevat Ylen uutisarkisto -aineistot löytyvät aineistoryhmäsivulta.


Kielipankki, puheteknologia ja Lahjoita puhetta -kampanja esillä Telian podcastissa

12.5.2021

Kielipankin projektisuunnittelija Mietta Lennes keskustelee Kia Tolppasen ja Harri Moision kanssa puheentunnistuksesta ja puheteknologian merkityksestä Telian podcastissa 12.5.2021.


Kuukauden tutkija: Mila Oiva

10.5.2021

Mila Oiva kertoo kulttuurihistoriaan liittyvästä tutkimuksestaan, jonka myötä on syntynyt mm. Yves Montand Neuvostoliitossa -haastatteluaineisto.


Muinaiskirkkoslaavin korpus latauspalvelussa

23.4.2021

Muinaiskirkkoslaavin korpus latauspalvelussa Corpus Cyrillo-Methodianum Helsingiense: Muinaiskirkkoslaavin korpus, lähdemateriaali on saatavilla latauspalvelussa. Aineisto on tarjolla sekä zip-pakettina että www-sivuina.


Iijoki-kokoelma latauspalvelussa

16.4.2021

Iijoki-kokoelma teksti- sekä VRT-muodossa latauspalvelussa Iijoki, Oulun yliopiston Päätalo-kokoelma on saatavilla latauspalvelussa tekstimuotoisena lähdeaineistona sekä jäsennettynä VRT-muodossa.


Kuukauden tutkija: Gwenaëlle Bauvois

12.4.2021

Gwenaëlle Bauvois kertoo Kielipankissa olevaan Eduskunnan täysistuntojen ladattavaan versioon 1 ja muihin media-aineistoihin liittyvästä tutkimuksestaan.


YLEn uutisaineistot

1.4.2021

Ylen uutisarkisto VRT-muodossa latauspalvelussa Lähdemateriaalien lisäksi Ylen uutisaineistot ovat nyt ladattavissa VRT-muodossa Kielipankin latauspalvelusta kahtena versiona, jotka sisältävät samat virkkeet mutta joilla on erilainen saatavuus ja erilaiset ominaisuudet: Kirjautuneiden tutkijoiden käytettävissä olevassa versiossa virkkeet ovat alkuperäisessä järjestyksessä, kun taas kaikille avoimessa versiossa virkkeet on sekoitettu kunkin tekstin (artikkelin) sisällä. Huomaa, että Ylen suomenkielinen uutisarkisto -aineisto […]


FinEst BERT latauspalvelussa

30.3.2021

FinEst BERT latauspalvelussa FinEst BERT,  kolmella kielellä (suomea, eesti ja englantia) harjoitettu monikielinen BERT on saatavilla Kielipankin latauspalvelussa korp.csc.fi/download. FinEst BERT: korpuksen kuvailutiedot, korpus latauspalvelussa


STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali latauspalvelussa

23.3.2021

STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali latauspalvelussa Korpus on saatavilla Kielipankin latauspalvelussa korp.csc.fi/download. Tämä on jäsennetty versio STT:n uutisarkisto 1992-2018, lähdemateriaali:sta. Khalid Alnajjar (Helsingin yliopisto) jäsensi korpuksen käyttämällä Turku neural parser pipeline:a (http://turkunlp.org/Turku-neural-parser-pipeline/). STT:n uutisarkisto 1992-2018, CoNLL-U, lähdemateriaali: Korpuksen kuvailutiedot, korpus latauspalvelussa Jäsentämätön versio: STT:n uutisarkisto 1992-2018, lähdemateriaali: Korpuksen kuvailutiedot, korpus latauspalvelussa Kaikki aineistot löytyvät aineistoryhmäsivulta.


Kuukauden tutkija: Heikki Rasilo

11.3.2021

Heikki Rasilo kertoo puheentuottoon liittyvästä tutkimustyöstään, jossa hän on hyödyntänyt Kielipankissa olevaa Aalto-yliopiston DSP-kurssin keskustelukorpusta.


Vielä ehdit ilmoittautua 15.3. alkavalle luonnollisen kielen käsittelyn verkkokurssille!

9.3.2021

Tuomo Hiippala pitää Helsingin yliopistossa verkkokurssin Natural Language Processing for Linguists ajalla 15.3.2021 -10.5.2021. Ilmoittaudu mukaan 16.3.2021 mennessä tai katso itseopiskelumateriaalit.


Uusi aineisto (beta): Kotimaisten kielten keskuksen aikakauslehtikorpus

9.3.2021

Kotimaisten kielten keskuksen aikakauslehtikorpus, tarkistettu ja Kotimaisten kielten keskuksen aikakauslehtikorpus, tarkistamaton ovat nyt käytettävissä beetatestiversioina Korpissa.


Uusi aineisto (beta): Käännössuomen korpus

9.3.2021

Käännössuomen korpus, Korp on nyt käytettävissä beetatestiversiona Korpissa.  


E-thesis-aineistoa päivitetty

9.3.2021

Helsingin yliopiston englanninkielinen E-thesis 1999-2016 on päivitetty versioon 1.1. Gradu- ja väitöskirjakorpuksiin on tehty seuraavia muutoksia: Aineisto on jäsennetty Turku Neural Parser Pipeline (TNPP) -jäsentimellä. Tekstit, joissa on vähemmän kuin 1000 sanaa on jätetty pois. Tekstit, joissa on enemmän kuin 1000 sanaa on otettu mukaan vain jos niistä löytyy tarpeeksi englanninkielisiä sanoja. Korpus ethesis_en_phd_math on […]


Lahjoita puhetta -kampanjassa kerätyn puheaineiston litterointi alkamassa – etsimme yhteistyökumppaneita litterointityön toimittajiksi

25.2.2021

Toimittaako yrityksesi litterointipalveluita? Jätä tarjous Lahjoita puhetta -aineiston litteroinnista Hanki-tarjouspalveluun 15.3.2021 klo 14.00 mennessä.


Kuukauden tutkija: Emmi Lahti

10.2.2021

Emmi Lahti kertoo retoriikkaan ja diskurssintutkimukseen liittyvästä tutkimustyöstään, jossa hän on hyödyntänyt Kielipankissa olevaa Suomi24-korpusta.


Tietoarkisto julkaisi uudistetun Tutkimusmenetelmien verkkokäsikirjan opiskeluun ja opetukseen

22.1.2021

Tietoarkiston julkaisema Tutkimusmenetelmien verkkokäsikirja koostuu Kvantitatiivisen tutkimuksen verkkokäsikirjasta ja Laadullisen tutkimuksen verkkokäsikirjasta. Materiaaleja voi käyttää opiskelussa ja opetuksessa.


< Aiemmat uutiset