LAT service to be discontinued in November 2020

Suomeksi

For technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020.

The LAT platform itself is no longer developed in its present form by MPI, and the media browser component Annex (part of LAT) is based on deprecated Adobe Flash technology that will stop working at the end of this year.

What will happen to the corpora that used to be available in LAT?

A replacement service for LAT has not yet been selected by the Language Bank of Finland. However, all the speech and sign language corpora that were previously available in LAT will be made available by alternative means.

All of the LAT corpora can be offered as downloadable packages that can be used and studied directly on the user’s local computer. In the download service, the corpora can be accessed under the same conditions as via LAT. For some corpora, more advanced solutions might already be available.

Which corpora are affected by LAT shutting down?

The LAT instances of the following corpora will be affected:

  • aku-egg: Speech and EGG (Electroglottography) Simultaneous Recordings
  • cfinsl-conv: Corpus of Finnish Sign Language: conversations
  • cfinsl-elicit: Corpus of Finnish Sign Language: elicited narratives
  • eduskunta-v1-lat: Plenary Sessions of the Parliament of Finland, Kielipankki LAT Version 1
  • elfa-lat: The Helsinki LAT Version of the ELFA Corpus
  • fbc-lat: The Helsinki LAT Version of the Finnish Broadcast Corpus
  • ffe: a single unpublished video file by an unknown creator, access restricted to the owner (this data will be archived temporarily but will be removed quite soon unless the owner turns up!)
  • finka: The Corpus of Border Karelia, Kielipankki LAT version
  • giellagas-north: Samples of Northern Saami
  • helpuhe1: The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s)
  • kipo: The 2010 Language Policy Program of the Sign Languages of Finland Corpus (versions 1 and 2)
  • la-murre: The Finnish Dialect Syntax Archive’s Helsinki LAT Version
  • PeWi-corpus (the original authoritative copy is offered by MPI; the identical version will be removed from the Language Bank of Finland)
  • puheen-analyysi: Learning material for speech analysis
  • reittidemo-lat: The Helsinki LAT Version of the Route to A wing Corpus
  • seuruu: Follow-up Study of Dialects of Finnish
  • skn-lat: The Helsinki LAT Version of Samples of Spoken Finnish
  • snowfrog: ProGram data. The stories Snowman and Frog, where are you?
  • ssdc-2016: Skolt Saami Documentation Corpus (2016)

In order to see where each corpus will be located in the future, please refer to the corresponding metadata page where this information will be updated. The relevant metadata links are provided on the list above.

I came to this page via a PID, how do I know where the file is?

LAT assigned 25000 PIDs to individual files. We have no automatic mapping of these PIDs but we can help you find the file if you need it. We aimed to structure downloadable packages similar to the dataset structure on LAT. To locate a file look into the URL field of this page where you find a ”?path=...” parameter. Example: ?path=demo/TRASH/2017-01/526/v7556__.C_4.4_Viittomakielisten_kielelliset_oikeudet.imdi

This should help you locate your file, please contact us if you have any questions.

Schedule

August-September 2020:

  • The (numerous) persistent identifiers assigned by LAT to individual files will be redirected to stopover/tombstone pages. There will be one tombstone page per dataset.
  • The LAT corpora that are not yet offered in Download will be moved there and their persistent identifiers will be updated to point to their new home.
  • Assuming that too many errors are not detected, this process should be complete by October.

September-October 2020:

  • Decisions are to be taken as to what kind of streaming services the Language Bank can implement for audio and video materials in the year 2021.

30th November 2020:

  • The support for the server where LAT is located will be discontinued and the service will be shut down.
  • All the corpora that were previously offered via LAT will continue to be offered at least for download.

Year 2021 (and later):

  • Given that there are sufficient resources, more functionalities for browsing, searching, and analyzing speech and sign language corpora can be added.

Further details on the schedule of the aforementioned process will be updated on this page. In case you need additional information at this point, please contact FIN-CLARIN directly.

Suomen kielen näytteitä

Viimeisimmät versiot:  
Suomen kielen näytteitä -korpuksen Helsinki-Korp-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Avaa aineisto Korp-palvelussa icon-question-circle
Suomen kielen näytteitä, VRT-versio
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Suomen kielen näytteitä -korpuksen ladattava versio (sisältää äänitteet ja annotaatiot)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa aineisto
Suomen kielen näytteitä -korpuksen Helsinki LAT-versio (POISTUNUT KÄYTÖSTÄ JOULUKUUSSA 2020)
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
(poistunut; ladattava versio saatavilla)
Etsi muita saatavilla olevia versioita  
Creative Commons -käyttölupa Suomen kielen näytteitä – Samples of Spoken Finnish, jonka tekijä on Kotimaisten kielten keskus, on lisensoitu Creative Commons Nimeä 4.0 Kansainvälinen -käyttöluvalla.

 

Tietoa tämän aineiston LAT-version poistumisesta marraskuussa 2020

Kielipankin LAT-alusta poistuu käytöstä marraskuun 2020 aikana. Sen jälkeen tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta. Kaikki tähän aineistoon kuuluva LATissa ollut sisältö tuodaan kuitenkin saataville ladattavassa muodossa. Myös varsinaisia annotoituja puhenäytteitä pääsee siis jatkossakin tutkimaan esimerkiksi ELAN– ja Praat-ohjelmilla.

Sisältö ja rakenne

Suomen kielen näytteitä -korpus eli SKN-korpus perustuu Kotimaisten kielten keskuksen vuosina 1978–2000 julkaisemaan samannimiseen murrekirjasarjaan (ks. Suomen kielen näytteitä). Yhteensä ilmestyi 50 kirjasta, joissa jokaisessa on litteroituna noin kaksi tuntia murretta. Sarjaan valitut pitäjät edustavat kattavasti eri murrealueita. Aineistona ovat olleet pääasiassa Suomen kielen nauhoitearkiston äänitteet. Alkuperäisestä SKN-sarjasta on luotu aineisto, joka sisältää sekä äänitteet että niihin kohdistetun litteroidun tekstin. Korpus on jaettu viiteenkymmeneen osaan paikkakunnan ja aiemmin julkaistujen murrekirjojen mukaan. Kustakin osasta on yleensä saatavilla kaksi murrenäytettä.

Teksti ja ääni on kohdistettu karkeasti virkkeen tai toisinaan puheenvuoron mittaisina katkelmina. Tekstin perusteella korpuksesta voidaan tehdä hakuja, ja hakutuloksia vastaavia ääninäytteen kohtia pääsee suoraan kuuntelemaan.

SKN-korpuksessa on yhteensä 696 376 litteroitua sanaa, ja näistä 684 977 sanaan liittyy yleiskielistetty sananmuoto. Huomaa, että yleiskielistys ei välttämättä ole yksiselitteinen, vaikka sanan merkitys kontekstissa onkin pyritty huomioimaan. Yleiskielistämättömiä ovat kesken tai epäselviksi jääneet sanat. Yleiskielistyksen periaatteet on kuvattu korpuksen juuresta löytyvässä dokumentissa yleiskielistys_skn.pdf.

Ohjeet ja lisätiedot

Korpuksen annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. SKN01_Suomussalmi.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.

Äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa myös sellaisinaan ilman annotaatiota.

Koska alkuperäiset haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja nauhat on digitoitu vasta myöhemmin, monissa tallenteissa esiintyy taustakohinaa ja ajoittaista muutakin hälyä ja tallenteiden äänentaso saattaa vaihdella. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.

EAF-muotoisten annotaatiotiedostojen sisältö

Jokaista äänitallennetta vastaa kaksi EAF-muotoista annotaatiotiedostoa: verkkopohjaiseen selailuun tarkoitettu perusversio (esim. SKN01_Suomussalmi.eaf) sekä useampia annotaatiokerroksia sisältävä täysversio (esim. SKN01_Suomussalmi_full.eaf). EAF-tiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi ELAN-ohjelmalla.

EAF-muotoisten annotaatioiden perusversio sisältää kaksi annotaatiokerrosta kutakin näytteessä esiintyvää puhujaa kohti: toisessa on kyseisen puhujan virkkeiden tms. jaksojen litteraatit ja toisessa litteroitujen jaksojen karkeasti yleiskielistetyt vastineet. Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty. Kustakin EAF-tiedostosta on saatavilla myös ns. täysversio, jonka nimessä on merkintä ”_full”. Täysversiossa on mukana perusversion kerrosten lisäksi myös sanekohtaiset kerrokset, joihin on merkitty yksittäisten saneiden alkuperäiset ja karkeasti yleiskielistetyt muodot kohdakkain. Huomaa, että yksittäisiä saneita ei ole kohdistettu ääneen, vaan ne on tarkoitettu ainoastaan monimutkaisempien sisältöhakujen helpottamiseksi. Verkon kautta selailtavaksi kannattaa valita ensin mainittu perusversio, sillä täysversio ei välttämättä toimi verkon yli saumattomasti.

Saatavilla on lisäksi EAF-tiedostojen täysversioita vastaavat TextGrid-tiedostot, joita voi käyttää Praat-ohjelmalla. TextGrid-tiedoston pariksi on tällöin ladattava myös vastaava WAV-äänitiedosto LAT-alustalta.

Äänen ja tekstin kohdistus on alunperin tehty tuomalla XML-muotoiset yleiskielistysdokumentit Praat-skriptin avulla TextGrid-muotoisiin annotaatiotiedostoihin, jotka on puolestaan muunnettu toisella Praat-skriptillä ELAN-ohjelman käyttämään EAF-muotoon.

Tiedostojen lataaminen omalle koneelle

Tiedostoja voi ladata yksitellen omalle koneelleen komennolla ”download” (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki tiettyyn murrenäytteeseen liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta ”Download all resources”. Kannattaa ladata vähintään kyseisen EAF-tiedoston ”_full”-versio sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä tarvitse ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.

Huom: Jokaiselle EAF-tiedostojen sisältämälle annotaatiokerrokselle on ELANissa määritetty ns. lingvistinen tyyppi (Linguistic type), minkä ansiosta hakuja voidaan kohdistaa vaikkapa koko korpuksen kaikkiin yleiskielistettyjä sananmuotoja sisältäviin kerroksiin. Annotaatiokerrosten ja lingvististen tyyppien välisiä hierarkisia suhteita ei ole teknisistä syistä määritetty SKN-korpuksen tiedostoille. Mikäli haluat muokata annotaatioita ELAN-ohjelmalla, kannattaa muistaa, että annotaatiokerrokset ovat itsenäisiä, ts. mikäli siirrät esimerkiksi ”normalized word” -tyyppisiä annotaatioita tai niiden rajoja, muutokset eivät heijastu vastaaviin yksiköihin muissa kerroksissa. Omia muutoksia on helpompi tehdä TextGrid-muotoisiin annotaatiotiedostoihin Praat-ohjelmalla, jossa samalla kohdalla olevia annotaatioiden rajoja on mahdollista siirtää yhtä aikaa. Vaihtoehtoisesti voit ensin käsin luoda omaan ELAN-muotoiseen korpusversioosi annotaatiokerrosten välisen hierarkian luomalla lingvistisistä tyypeistä uudet versiot (Type: Add linguistic type…) ja käyttämällä sen jälkeen ELANin Tier: Change parent of tier… -komentoa.

Annotaatioihin pohjautuvien hakujen tekeminen

Korpuksen litteraattien sisältämän tekstin perusteella voi tehdä hakuja Korp-palvelussa.

Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja myös Trova-työkalulla (napsauta skn-solmua ja valitse ”annotation content search”). Alkuperäistä litteraatiota edustavat annotaatiokerrosten tyypit ”original sentence” ja ”original word”, ja näiden alustavia yleiskielistyksiä tyypit ”normalized sentence” ja ”normalized word”. Joidenkin saneiden yleiskielistettyyn muotoon liittyy myös lisähuomautuksia, jotka on kuvattu kerroksessa ”note for normalized word”.

Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyypin nimessä on maininta ”interviewer”. Kaikki muut kerrokset liittyvät joko haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen. Kun siis kohdistetaan Single Layer- tai Multiple Layer Search -haku tämäntyyppisiin kerroksiin, voidaan haku tehdä pelkästään varsinaisesta murrenäytteestä (tai pelkästään haastattelijan puheesta, kun valitaan ”interviewer”-tyyppiset kerrokset).

Korpuksen tuottajat

Alkuperäisen ääniaineiston on käsitellyt Sakari Pietarila. Alkuperäiset litteroinnit on julkaistu murrekirjoissa, joiden esittelyosat on liitetty korpuksen vastaaviin osiin pdf-muotoisina dokumentteina. Tekstin ja äänen ovat Kotuksessa alustavasti kohdistaneet My Sjöholm, Pauliina Liuska ja Olli Miettinen. Yleiskielistyksestä ovat vastanneet Kotuksessa Maria Vilkuna, Pauliina Liuska ja Pinja Ruponen. Äänitteet ja kohdistetut annotaatiotiedostot on muuntanut LAT-järjestelmää varten Mietta Lennes.

SKN-kohdistushankkeen työsivu (intranet)

Viittausohje

Korpukseen tai sen käyttöön pohjautuvissa julkaisuissa on mainittava aineiston tuottaja Kotimaisten kielten keskus (tai englanninkielisessä tekstissä The Institute for the Languages of Finland) sekä aineiston URN, http://urn.fi/urn:nbn:fi:lb-1001100134.

Korpukseen voi bibliografisesti viitata seuraavalla tavalla:

Suomen kielen näytteitä [online-puhekorpus], versio 1.0. – Helsinki : Kotimaisten kielten keskus, 2014. [viitattu pp.kk.vvvv]. Saatavilla: http://urn.fi/urn:nbn:fi:lb-201407141.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-201407141