META-SHARE

META-SHARE is the Language Bank’s metadata repository. It contains information about each language resource’s type, content, extent, license etc. and offers search and filtering options.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021101104

LAT service to be discontinued in November 2020

Suomeksi

For technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020.

The LAT platform itself is no longer developed in its present form by MPI, and the media browser component Annex (part of LAT) is based on deprecated Adobe Flash technology that will stop working at the end of this year.

What will happen to the corpora that used to be available in LAT?

A replacement service for LAT has not yet been selected by the Language Bank of Finland. However, all the speech and sign language corpora that were previously available in LAT will be made available by alternative means.

All of the LAT corpora can be offered as downloadable packages that can be used and studied directly on the user’s local computer. In the download service, the corpora can be accessed under the same conditions as via LAT. For some corpora, more advanced solutions might already be available.

Which corpora are affected by LAT shutting down?

The LAT instances of the following corpora will be affected:

 • aku-egg: Speech and EGG (Electroglottography) Simultaneous Recordings
 • cfinsl-conv: Corpus of Finnish Sign Language: conversations
 • cfinsl-elicit: Corpus of Finnish Sign Language: elicited narratives
 • eduskunta-v1-lat: Plenary Sessions of the Parliament of Finland, Kielipankki LAT Version 1
 • elfa-lat: The Helsinki LAT Version of the ELFA Corpus
 • fbc-lat: The Helsinki LAT Version of the Finnish Broadcast Corpus
 • ffe: a single unpublished video file by an unknown creator, access restricted to the owner (this data will be archived temporarily but will be removed quite soon unless the owner turns up!)
 • finka: The Corpus of Border Karelia, Kielipankki LAT version
 • giellagas-north: Samples of Northern Saami
 • helpuhe1: The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s)
 • kipo: The 2010 Language Policy Program of the Sign Languages of Finland Corpus (versions 1 and 2)
 • la-murre: The Finnish Dialect Syntax Archive’s Helsinki LAT Version
 • PeWi-corpus (the original authoritative copy is offered by MPI; the identical version will be removed from the Language Bank of Finland)
 • puheen-analyysi: Learning material for speech analysis
 • reittidemo-lat: The Helsinki LAT Version of the Route to A wing Corpus
 • seuruu: Follow-up Study of Dialects of Finnish
 • skn-lat: The Helsinki LAT Version of Samples of Spoken Finnish
 • snowfrog: ProGram data. The stories Snowman and Frog, where are you?
 • ssdc-2016: Skolt Saami Documentation Corpus (2016)

In order to see where each corpus will be located in the future, please refer to the corresponding metadata page where this information will be updated. The relevant metadata links are provided on the list above.

I came to this page via a PID, how do I know where the file is?

LAT assigned 25000 PIDs to individual files. We have no automatic mapping of these PIDs but we can help you find the file if you need it. We aimed to structure downloadable packages similar to the dataset structure on LAT. To locate a file look into the URL field of this page where you find a ”?path=...” parameter. Example: ?path=demo/TRASH/2017-01/526/v7556__.C_4.4_Viittomakielisten_kielelliset_oikeudet.imdi

This should help you locate your file, please contact us if you have any questions.

Schedule

August-September 2020:

 • The (numerous) persistent identifiers assigned by LAT to individual files will be redirected to stopover/tombstone pages. There will be one tombstone page per dataset.
 • The LAT corpora that are not yet offered in Download will be moved there and their persistent identifiers will be updated to point to their new home.
 • Assuming that too many errors are not detected, this process should be complete by October.

September-October 2020:

 • Decisions are to be taken as to what kind of streaming services the Language Bank can implement for audio and video materials in the year 2021.

30th November 2020:

 • The support for the server where LAT is located will be discontinued and the service will be shut down.
 • All the corpora that were previously offered via LAT will continue to be offered at least for download.

Year 2021 (and later):

 • Given that there are sufficient resources, more functionalities for browsing, searching, and analyzing speech and sign language corpora can be added.

Further details on the schedule of the aforementioned process will be updated on this page. In case you need additional information at this point, please contact FIN-CLARIN directly.

LAT-alusta poistuu käytöstä

In English

Teknisistä syistä Kielipankin käytössä ollut LAT-palvelu (lat.csc.fi) joudutaan sulkemaan marraskuun lopussa 2020.

MPI ei enää kehitä LAT-alustaa nykyisessä muodossaan, ja LATiin kuuluva Annex-mediaselaintyökalu perustuu Adoben vanhentuneeseen Flash-teknologiaan, joka lakkaa toimimasta vuoden lopussa.

Mitä tapahtuu korpuksille, jotka ovat olleet LATin kautta saatavilla?

Kielipankin käyttämälle LAT-palvelulle ei vielä ole valittu täysin korvaavaa palvelua. Kaikki puheaineistot ja viittomakielten aineistot, jotka ovat aiemmin olleet käytettävissä LATin kautta, tuodaan saataville toisella tavalla.

Kaikki LATissa olleet aineistot voidaan tarjota ladattavina paketteina, joita voi käyttää suoraan omalla koneella. Latauspalvelun kautta korpuksiin pääsee samoilla ehdoilla kuin aiemmin LATin kautta. Joillekin aineistoille voidaan jo nyt tarjota edistyneempiäkin ratkaisuja tavanomaisen latauspalvelun lisäksi.

Mihin korpuksiin LAT-palvelun sulkeminen vaikuttaa?

Muutokset koskevat seuraavien korpusten LAT-versioita:

 • aku-egg: Puheen ja EGG:n samanaikaiset tallenteet
 • cfinsl-conv: Suomalaisen viittomakielen korpus: keskusteluaineisto
 • cfinsl-elicit: Suomalaisen viittomakielen korpus: kerronta-aineisto
 • eduskunta-v1-lat: Eduskunnan täysistunnot, Kielipankin LAT-versio 1
 • elfa-lat: ELFA-korpuksen Helsinki-LAT-versio
 • fbc-lat: Suomalaisen radio- ja tv-korpuksen Helsinki-LAT-versio
 • ffe: yksittäinen, virallisesti julkaisematon tiedosto, jonka omistaja ei ole tiedossa ja pääsy on rajoitettu vain omistajalle (sisältö tullaan säilyttämään tilapäisesti mutta poistetaan, ellei omistaja ilmoittaudu!)
 • finka: Raja-Karjalan korpus, Kielipankin LAT-versio
 • giellagas-north: Pohjoissaamen näytekorpus
 • helpuhe1: Helsingin puhekielen pitkittäiskorpus (1970, 1990, 2010)
 • kipo: Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010) (versiot 1 ja 2)
 • la-murre: Lauseopin arkiston murrekorpuksen Helsinki-LAT-versio
 • PeWi-corpus: Kyseisen näyteaineiston alkuperäisen virallisen kopion tarjoaa MPI, joten identtinen versio tullaan poistamaan Kielipankista
 • puheen-analyysi: Puheen analyysin oppimateriaali
 • reittidemo-lat: Reitti A-siipeen -korpuksen Helsinki-LAT-versio
 • seuruu: Murteenseuruukorpus
 • skn-lat: Suomen kielen näytteitä -korpuksen Helsinki-LAT-versio
 • snowfrog: ProGram-aineisto, lumiukko- ja sammakkotarinat
 • ssdc-2016: Koltansaamen dokumentaatiokorpus (2016)

Kunkin aineiston kuvailutietosivulta löydät päivitetyt tiedot kyseisen aineistoversion tulevasta sijainnista. Linkit kuvailutietueisiin näkyvät yllä olevasta listasta.

Aikataulu

Elo-syyskuu 2020:

 • LAT-alustan automaattisesti tuottamat (lukuisat) pysyvät tunnisteet, jotka osoittavat aineistojen sisällä oleviin yksittäisiin tiedostoihin, tullaan ohjaamaan uudelleen laskeutumis- tai ”hautakivisivuille”. Jokaiselle korpukselle tehdään yksi tällainen laskeutumissivu.
 • Ne LAT-aineistot, jotka eivät aikaisemmin ole olleet tarjolla ladattavina versioina, tullaan siirtämään latauspalveluun. LAT-versioiden pysyvät tunnisteet päivitetään osoittamaan ko. aineistojen uuteen kotiin.
 • Ellei em. prosesssin aikana ilmene odottamattomia virhetilanteita, kaikkien aineistojen pitäisi olla siirrettyinä ja tunnisteiden päivitettyinä lokakuun loppuun mennessä.

Syys-lokakuu 2020:

 • Kielipankki tekee tarvittavat selvitykset ja päätökset siitä, millaisia striimaus- ja muita lisäpalveluita Kielipankissa on mahdollista toteuttaa ääni- ja videoaineistoille vuoden 2021 aikana.

30. marraskuuta 2020:

 • LAT-palvelimen tuki päättyy ja palvelu ajetaan alas.
 • Kaikki LATissa aiemmin tarjolla olleet aineistot tullaan jatkossakin tarjoamaan vähintään ladattavina versioina.

Vuosi 2021 (ja myöhemmin):

 • Resurssien puitteissa Kielipankkiin voidaan lisätä uusia palveluita ja toiminnallisuuksia puheaineistojen ja viittomakielten aineistojen selailuun, hakujen tekemiseen ja analysointiin.

Edellä mainitun prosessin tarkemmat yksityiskohdat päivitetään tälle sivulle. Mikäli tarvitset tässä vaiheessa lisätietoja, ole hyvä ja ota suoraan yhteyttä FIN-CLARINiin.

Learn to process your own data in the Corpus Clinic

The registration deadline of the online course Corpus Clinic has been extended to 23rd November, until when it is possible to join the course area on Moodle. Students from the University of Helsinki as well as from other universities can enrol.  Please note, however, that a limited number of participants can be accepted. See further instructions on the course page.

In the Corpus Clinic, you will learn about the various methods and tools that are available for managing, processing and analyzing your data. You will also learn to write a data management plan. If required, it is possible to complete the course fully online.

This year, the course is jointly organized by FIN-CLARIN and HELDIG. During the spring term – after passing the initial stage of the course – each participant will have the opportunity to meet with a member of the supporting group of digital humanities experts who can help you with more specific questions about your data analysis. More information about this will be provided during the course.

 

Korp update

The Korp service at the Language Bank of Finland was updated to a newer version that is based on Språkbanken’s Korp version 5.0.10. New features, fixes and changes:

 • You can compile the statistics by more than one attribute.
 • You can choose the maximum number of rows in the word picture.
 • To download the KWIC result, choose the format from selection lists and then press the button Download KWIC. You can choose the logical and physical format separately where appropriate; for example, Annotations as Excel (XLS).
 • Such extended searches now work that combine repeating any word with a starts with, ends with or contains condition on another token.
 • Korp uses Kielipankki colours and font, and the Kielipankki symbol and logo are shown.

If a previously working feature no longer works or if you notice other bugs, please send a bug report via the Korp feedback form. The previous Korp version is still accessible at https://korp.csc.fi/old/.

Korp-palvelu on päivitetty

Kielipankin Korp on päivitetty uudempaan versioon, joka pohjautuu Språkbankenin Korp-versioon 5.0.10. Uusia ominaisuuksia, korjauksia ja muutoksia:

 • Tilastot voi laskea usean piirteen (attribuutin) perusteella.
 • Sanakuvassa voi valita rivien enimmäismäärän.
 • Konkordanssin latausmuoto valitaan konkordanssin alapuolella olevasta listasta, jonka jälkeen täytyy painaa painiketta Lataa konkordanssi. Monissa latausmuodoissa voi valita erikseen loogisen ja fyysisen muodon, esim. Annotaatiot, Excel (XLS) -muodossa.
 • Sellaiset laajennetut hakuehdot toimivat, jotka sisältävät minkä tahansa sanan toistamisen sekä alkaa-, loppuu– tai sisältää-ehdon jollekin toiselle saneelle.
 • Muutamia nimityksiä on muutettu; erityisesti EtsiHae ja attribuuttipiirre.
 • Ulkoasu käyttää Kielipankin tunnusvärejä ja kirjasintyyppiä, ja Kielipankin tunnus on esillä.

Jos jokin aiemmin toiminut ominaisuus ei toimi tai jos huomaat muita vikoja, ilmoita niistä Korp-palautelomakkeen kautta. Edellinen Korp-versio on toistaiseksi käytettävissä osoitteessa https://korp.csc.fi/old/.

Aalto-yliopiston automaattinen puheentunnistin (Aalto-ASR)

Aalto-ASR eli Aalto-yliopiston automaattinen puheentunnistin on Aalto-yliopistossa kehitetty automaattinen puheentunnistusjärjestelmä, johon kuuluu kaksi toimintoa, puheentunnistin ja kohdistin. Tunnistimella voidaan tunnistaa suomenkielisestä puhetta annetusta äänitiedostosta. Tunnistuksen tulos tallentuu joko annotaatiotiedostona tai yksinkertaisena tekstitiedostona. Jos puhetta sisältävästä äänitiedostosta on jo tehtynä tekstimuotoinen litteraatti, siinä olevat sanat voidaan kohdistimen avulla automaattisesti kohdistaa vastaaviin äänitiedoston kohtiin. Kohdistin toimii suomen lisäksi useilla muillakin kielillä.

Aalto-yliopiston automaattinen puheentunnistin (Aalto-ASR), versio 2.1
Kuvailutiedot, lisenssi ja viittausohje
Tunnistimen käyttöohje

Ajankohtaista

Kielipankkiin on syyskuussa 2021 asennettu Aalto-ASR:stä uusi versio 2.1, joka on käytettävissä CSC:n Puhti-laskentaympäristössä. Lisäksi Aalto-ASR on tarjolla myös Docker-säiliönä, jonka voi tarvittaessa asentaa omalle koneelle tai muuhun ympäristöön.

Aalto-ASR:n edellisen version 1 joitakin osia oli aikaisemmin mahdollista käyttää myös Kielipankin Mylly-palvelun kautta. Vanha Aalto-ASR 1.0 -versio on kuitenkin Taito-palvelimen mukana poistunut käytöstä vuonna 2020. Uutta versiota 2 ei toistaiseksi ole kytketty Myllyyn.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2021101112

Video-opas Annotointi ELAN-ohjelmalla – nyt tekstitettynä!

ELAN-ohjelmalla voi monipuolisesti litteroida ja annotoida video- ja ääninäytteitä. Tämä vasta-alkajille suunnattu Kielipankin tuottama opasvideo on nyt tutkijoiden pyynnöstä tekstitetty suomeksi ja se on käytettävissä vapaasti Creative Commons Nimeä 4.0 -lisenssillä.

ELAN-ohjelmaa kehittää Max Planck Institute for Psycholinguistics Alankomaissa. Voit ladata ELANin osoitteesta https://tla.mpi.nl/tools/tla-tools/elan/. Kielipankin tukisivuilta löytyy lisää ELAN-ohjeita.

https://youtube.com/watch?v=_Ukb7Lfcvpw%26hl%3Den%26fs%3D1

Kerro foorumilla, mistä muusta aiheesta haluaisit nähdä video-oppaan! icon-comments-o

Lemmie ja vanha DMA poistuvat käytöstä

Tutkijan käyttöliittymän verkkolevypalvelimessa ilmenneiden teknisten ongelmien takia vanhat siellä sijainneet palvelut joudutaan sulkemaan huhtikuun 2016 loppuun mennessä. Kielipankin osalta tämä koskee Digitaalista muoto-opin arkistoa ja Lemmietä. DMA on jo aiemmin sijoitettu Korp-käyttöliittymään. Lemmien aineistot sijoitetaan niin ikään Korpiin Lemmien käytöstä poistumiseen mennessä. Siirto oli joka tapauksessa ohjelmassa vuoden 2016 aikana, mutta aikataulun oli tarkoitus olla väljempi. Kielipankin ylläpito pahoittelee lyhyttä varoitusaikaa.

DMA Korpissa

Digitaalinen muoto-opin arkisto, DMA on avattu Korpissa julkiseen käyttöön. Aineiston sanalippujen käytöstä kiinnostuneen täytyy kuitenkin hakea käyttölupa osoitteessa https://lbr.csc.fi

Korp päivitetty

Korp-tekstikorpushakupalvelu on päivitetty uuteen versioon 4.0. Lataa selaimessa Korp-sivu uudelleen saadaksesi päivitetyn version käyttöösi. (Tarvittaessa tyhjennä selaimen välimuisti ja käynnistä selain uudelleen.)

(lisää…)

NooJ-ohjelmaa käsittelevä kirja ilmestyi

NooJ on ohjelma, jolla voi rakentaa ja käyttää joko valmiita tai eriasteisia itse rakennettuja kielioppeja tekstiaineiston jäsentämiseen ja annotointiin sekä kieliopillisten rakenteiden etsimiseen tekstin joukosta.

Nyt on ilmestynyt NooJ-ohjelman käyttöä esittelevä ranskankielinen kirja La formalisation des langues – l’approche de NooJ , jonka on kirjoittanut ohjelman kehittäjä Max Silberztein. Kirjaa kannattaa kysellä oman korkeakoulun kirjastosta.

NooJ ei varsinaisesti kuulu Kielipankin tukemiin ohjelmiin, mutta sen omatoimista opettelua kannattaa harkita varsinkin, jos tutkit kieliopillisia rakenteita ja aiot käyttää laajoja tekstiaineistoja. NooJin avulla on myös mahdollista testata kieliopillisia hypoteeseja sellaisten kielten osalta, joihin ei ole olemassa valmiita kielioppeja.

NooJ-ohjelman käyttämistä harjoiteltiin syksyllä 2014 järjestetyllä Kieliaineiston käsittely -kurssilla. Vastaava kurssi on suunnitteilla myös syksylle 2015.

Korpissa 5 miljardia sanaa suomea

FIN-CLARINin Kielipankin kautta voit hakea virkkeitä viiden miljardin sanan suomen kielen korpuksesta. Käytössä on ensimmäinen versio korpuksesta, joka perustuu Kansalliskirjaston skannaamiin lehti- ja aikakauslehtiteksteihin 1820-luvulta eteenpäin.

https://korp.csc.fi/?mode=finnish_national_library

Palvelu toimii parhaiten Firefox-selaimella.

Palvelun toteuttaa CSC, joka vastaa teknisistä asoista: ling@csc.fi

Sisältötuotannosta vastaa Helsingin yliopisto: fin-clarin@helsinki.fi

Hakutulosten lataaminen Korpissa

Korpissa (korp.csc.fi) voi nyt ladata hakutuloksia omalle koneelle useassa eri tiedostomuodossa. Latauspainikkeet löytyvät hakutulosten alapuolelta. Aiemman JSON-muodon lisäksi vaihtoehtoina ovat nyt CSV, CSV+, Excel, TSV ja Text. Kunkin painikkeen kohdalta löytyy myös vihjelaatikko, joka kertoo lyhyesti ko. latausmuodosta.

Korpissa yli 3 miljardia sanaa ruotsia

FIN-CLARINin Kielipankin kautta voit hakea virkkeitä yli kolmen miljardin sanan ruotsin kielen korpuksesta. Korpus perustuu Kansalliskirjaston skannaamiin lehti- ja aikakauslehtiteksteihin 1770-luvulta eteenpäin.

https://korp.csc.fi/?mode=swedish#

Palvelu toimii parhaiten Firefox-selaimella.

Palvelun toteuttaa CSC, joka vastaa teknisistä asoista: ling@csc.fi

Sisältötuotannosta vastaa Helsingin yliopisto: fin-clarin@helsinki.fi

Korp-työkalussa käyttökatko tiistaina 27.11.2012

Kielipankin Korp-palvelussa on ohjelmistopäivityksestä johtuva käyttökatko tiistaina 27.11.2012. Palvelu on todennäköisesti poissa käytöstä ainakin muutaman tunnin.

Katkon jälkeen uudistunutta ”Korppia” pääsee jälleen kokeilemaan osoitteessa http://korp.csc.fi.

Tekstikorpusten hakutyökalu Korp on asennettu Kielipankkiin

Göteborgin yliopiston Språkbankenissa kehitetty tekstikorpusten tutkimiseen tarkoitettu helppokäyttöinen hakutyökalu Korp on asennettu Kielipankin palvelimelle. Korpilla voi etsiä konkordansseja ja sen avulla voi tehdä hakuja myös monikielisistä rinnakkaiskorpuksista.

Kielipankin Korp-versiossa on tällä hetkellä mukana vasta muutama tekstikorpus, mutta uusia aineistoja on tarkoitus lisätä vähitellen. Korp on jo pääosin käännetty suomeksi ja lisää suomenkielistä ohjeistusta on tulossa syksyllä. Työkalusta julkaistaan säännöllisesti myös uusia versioita.

Suomalaistettua ”Korppia” pääsee kokeilemaan osoitteessa http://korp.csc.fi.

Korp-työkalu on edelleen vapaasti käytettävissä myös Ruotsin Språkbankenissa (http://spraakbanken.gu.se), jossa on tarjolla etenkin ruotsinkielisiä aineistoja.