LAT service to be discontinued in November 2020

Suomeksi

For technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020.

The LAT platform itself is no longer developed in its present form by MPI, and the media browser component Annex (part of LAT) is based on deprecated Adobe Flash technology that will stop working at the end of this year.

What will happen to the corpora that used to be available in LAT?

A replacement service for LAT has not yet been selected by the Language Bank of Finland. However, all the speech and sign language corpora that were previously available in LAT will be made available by alternative means.

All of the LAT corpora can be offered as downloadable packages that can be used and studied directly on the user’s local computer. In the download service, the corpora can be accessed under the same conditions as via LAT. For some corpora, more advanced solutions might already be available.

Which corpora are affected by LAT shutting down?

The LAT instances of the following corpora will be affected:

  • aku-egg: Speech and EGG (Electroglottography) Simultaneous Recordings
  • cfinsl-conv: Corpus of Finnish Sign Language: conversations
  • cfinsl-elicit: Corpus of Finnish Sign Language: elicited narratives
  • eduskunta-v1-lat: Plenary Sessions of the Parliament of Finland, Kielipankki LAT Version 1
  • elfa-lat: The Helsinki LAT Version of the ELFA Corpus
  • fbc-lat: The Helsinki LAT Version of the Finnish Broadcast Corpus
  • ffe: a single unpublished video file by an unknown creator, access restricted to the owner (this data will be archived temporarily but will be removed quite soon unless the owner turns up!)
  • finka: The Corpus of Border Karelia, Kielipankki LAT version
  • giellagas-north: Samples of Northern Saami
  • helpuhe1: The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s)
  • kipo: The 2010 Language Policy Program of the Sign Languages of Finland Corpus (versions 1 and 2)
  • la-murre: The Finnish Dialect Syntax Archive’s Helsinki LAT Version
  • PeWi-corpus (the original authoritative copy is offered by MPI; the identical version will be removed from the Language Bank of Finland)
  • puheen-analyysi: Learning material for speech analysis
  • reittidemo-lat: The Helsinki LAT Version of the Route to A wing Corpus
  • seuruu: Follow-up Study of Dialects of Finnish
  • skn-lat: The Helsinki LAT Version of Samples of Spoken Finnish
  • snowfrog: ProGram data. The stories Snowman and Frog, where are you?
  • ssdc-2016: Skolt Saami Documentation Corpus (2016)

In order to see where each corpus will be located in the future, please refer to the corresponding metadata page where this information will be updated. The relevant metadata links are provided on the list above.

I came to this page via a PID, how do I know where the file is?

LAT assigned 25000 PIDs to individual files. We have no automatic mapping of these PIDs but we can help you find the file if you need it. We aimed to structure downloadable packages similar to the dataset structure on LAT. To locate a file look into the URL field of this page where you find a ”?path=...” parameter. Example: ?path=demo/TRASH/2017-01/526/v7556__.C_4.4_Viittomakielisten_kielelliset_oikeudet.imdi

This should help you locate your file, please contact us if you have any questions.

Schedule

August-September 2020:

  • The (numerous) persistent identifiers assigned by LAT to individual files will be redirected to stopover/tombstone pages. There will be one tombstone page per dataset.
  • The LAT corpora that are not yet offered in Download will be moved there and their persistent identifiers will be updated to point to their new home.
  • Assuming that too many errors are not detected, this process should be complete by October.

September-October 2020:

  • Decisions are to be taken as to what kind of streaming services the Language Bank can implement for audio and video materials in the year 2021.

30th November 2020:

  • The support for the server where LAT is located will be discontinued and the service will be shut down.
  • All the corpora that were previously offered via LAT will continue to be offered at least for download.

Year 2021 (and later):

  • Given that there are sufficient resources, more functionalities for browsing, searching, and analyzing speech and sign language corpora can be added.

Further details on the schedule of the aforementioned process will be updated on this page. In case you need additional information at this point, please contact FIN-CLARIN directly.

Helsingin puhekielen pitkittäiskorpus (1970, 1990, 2010)

Helsingin puhekielen pitkittäiskorpus koostuu eri-ikäisten syntyperäisten helsinkiläisten äänitallennetuista yksilöhaastatteluista. Aineistoa on kerätty kolmella vuosikymmenellä, vuosina 1972–74, 1991–92 sekä 2013.

Viimeisimmät versiot:  
Helsingin puhekielen pitkittäiskorpus (1970, 1990, 2010),
ladattava versio

icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Hae käyttöoikeutta
Lataa aineisto
Helsingin puhekielen pitkittäiskorpus (1970, 1990, 2010), LAT-versio
Huom. Tämä versio on poistunut käytöstä vuoden 2020 lopussa.
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
LAT-alusta on poistunut käytöstä.
Etsi muut saatavilla olevat versiot  

Tietoa tämän aineiston LAT-version poistumisesta vuoden 2020 lopussa

Kielipankin LAT-alusta on poistunut käytöstä vuonna 2020. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta, mutta LATissa ollut sisältö on edelleen saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.


Korpuksen rakenne

Korpus on jaettu kolmeen pääosaan äänitysten vuosikymmenen mukaisesti: 1970, 1990 ja 2010. Sosiolingvististä tutkimusta varten 1970-luvun aineisto on jaettu osiin haastateltavan asuinkaupunginosan mukaan (S=Sörnäinen, T=Töölö). Myöhemmin kerätyissä osa-aineistoissa tästä kaupunginosajaosta ei enää nuorten puhujien osalta ole pidetty kiinni, vaan S- ja T-koodit viittaavat pikemminkin puhujien koulutustaustaan (S=ammattikoululainen, T=lukiolainen). Jokainen osakorpus on jaoteltu lisäksi haastateltavan ikäryhmän (1=vanhimmat, 2=keski-ikäiset, 3=nuoret) mukaan.

Osakorpuksissa on mukana osittain samoja haastateltavia. Vuosina 1991-1992 tavoitettiin 29 haastateltua 1970-luvulla tehdyn tutkimuksen kahdesta nuorimmasta ikäryhmästä sekä otettiin tutkittavaksi uusi nuorten ryhmä (16 haastateltavaa). Vuonna 2013 toteutetussa jatkohankkeessa haastateltiin 27:ää 1990-luvun informanteista sekä otettiin tutkittavaksi uusi nuorten ryhmä (yht. 16). Aiempien kierrosten tavoin aineisto kerättiin yksilöhaastatteluin. 13 informantille kyseessä oli jo kolmas haastattelu.

Puhujat on merkitty koodeilla F(nainen) tai M(mies) + juokseva numero. Näillä koodeilla samat henkilöt on myös yksilöity kaikkien kolmen osa-aineiston välillä: tiettyyn puhujaan viitataan aina samalla koodilla, kun hän esiintyy useammassa kuin yhdessä osakorpuksessa.

Osakorpusten sisältö

  • 1970-luvun osa-aineistosta on saatavilla litteroidut tekstit pääosin vain kohdistamattomina tekstitiedostoina (.txt) ja erillisinä, kokonaisen haastattelun pituisina äänitiedostoina (.wav). Litteroitu osuus kattaa noin puoli tuntia kustakin haastattelusta. Pieni osa litteroinneista on myös kohdistettu ääneen.
  • 1990-luvun osakorpuksesta on tarjolla osaksi pelkät äänitiedostot, osaksi kohdistetut litteroinnit vastaavasti kuin 1970-luvun osuudesta. Huomaa, että litterointityyli on jossakin määrin erilainen kuin 1970-luvun osa-aineistossa.
  • 2010-luvun osakorpus on litteroitu suoraan äänitiedostoon kohdistettuna.

Kaikkien kolmen osakorpuksen äänitiedostoihin kohdistetut annotaatiot ovat saatavilla sekä ELAN-ohjelmalla toimivassa .eaf-muodossa että Praat-ohjelmalla toimivassa .TextGrid-muodossa.

Versio 1 (helpuhe1):

Vuonna 2013 toteutetussa Helsingin puhekielen pitkittäiskorpus -hankkeessa kerättiin 2010-lukua edustava osa-aineisto sekä jalostettiin aiemmin 1970- ja 1990-luvuilla hankittu aineisto digitaaliseksi korpukseksi, mikä parantaa huomattavasti sen käytettävyyttä. Pitkittäiskorpus koostuu digitaalisista äänitiedostoista, jotka ovat kuunneltavissa kokonaisuudessaan, ja niihin liitettävistä litteroinneista, jotka kattavat tässä aineistoversiossa noin puoli tuntia kustakin haastattelusta. Litteraatit on suuressa osassa aineistoa kohdistettu äänitiedostojen vastaaviin kohtiin, jolloin litteroinnin perusteella voi tehdä hakuja ja hakuosumia vastaavia äänitteiden kohtia pääsee suoraan kuuntelemaan. Lisäksi suureen osaan ääniaineistoa on kohdistettu asiasanoja, joiden avulla voidaan tehdä myös aiheenmukaisia hakuja esimerkiksi kulttuurin- ja historiantutkimuksen tarpeisiin.

Versio 2 (helpuhe-v2):

Korpuksen toinen versio sisältää 1970-, 1990- ja 2010-luvun osa-aineistojen annotaatiotiedostojen päivityksiä: joko uusia litteraatteja äänitiedostoihin, joita ensimmäisessä versiossa ei ollut lainkaan litteroitu, tai 1970-luvun osa-aineiston kohdalla vanhojen litteraattien kohdistettuja versioita. Osa aikaisemmista litteroinneista on myös päivitetty tai äänitteestä on saatettu litteroida pitempi pätkä. Yhteensä 83 äänitiedostoon liittyviä annotaatioita on päivitetty tai lisätty. Uusia äänitteitä ei siis tätä versiota varten kerätty.

Käyttöohjeita

Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta LAT-alustalla. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. 1970-T1M2C_1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.

Litteroinnit ja muu annotaatio

Aineiston litteroinnit ja muu annotaatio ovat saatavilla Praat-ohjelman käyttämässä TextGrid-muodossa sekä ELAN-ohjelman käyttämässä EAF-muodossa. Annotaatiotiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi joko ELAN- tai Praat-ohjelmalla. Kummassakin tapauksessa on ladattava annotaatiotiedoston pariksi myös sitä vastaava WAV-muotoinen äänitiedosto.

LAT-alustalla olevat äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa yksitellen myös ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. !M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.

Huom! Haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja erityisesti vanhimmat nauhat on digitoitu vasta myöhemmin. Tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.

Annotaatiotiedostojen sisältö

Koko 2010-luvun osa-aineistosta sekä osittain myös 1990- ja 1970-lukujen osa-aineistoista on saatavilla ääneen kohdistetut litteraatit (.eaf, .TextGrid). Litteraatin perusteella voidaan siis tehdä hakuja ja kuunnella karkeasti kutakin hakutulosta vastaava ääninäytteen kohta. Osa 1970- ja 1990-luvun aineistosta on kuitenkin saatavilla vain erillisinä teksti- (.txt) ja äänitiedostoina (.wav).

Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.

Tiedostojen lataaminen omalle koneelle

Tiedostoja voi ladata LATista yksitellen omalle koneelle komennolla download (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta Download all resources. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.

Vanhemmat korpusversiot ja äänitiedostopaketit ovat ladattavissa Kielipankin latauspalvelusta.

Annotaatioihin pohjautuvien hakujen tekeminen LAT-alustalla (ja ELAN-ohjelmalla)

Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta helpuhe-solmua ja valitse annotation content search). Trova-ikkunan yläosasta voidaan rastittaa, minkätyyppisiin annotaatiotiedostoihin haku kohdistetaan: ELAN-muotoisiin .eaf-tiedostoihin, Praat-muotoisiin .TextGrid-tiedostoihin ja/tai kohdistamattomiin .txt-raakatekstitiedostoihin.

Myös vanhemmista korpusversioista voi tehdä hakuja omalle koneelle asennetulla ELAN-ohjelmalla. Koko korpus tai osakorpus täytyy tällöin ensin ladata Kielipankin latauspalvelusta. ELANissa voi käyttää toimintoa Search: Structured Search Multiple eaf, joka toimii vastaavalla periaatteella kuin LAT-palvelun Trova-työkalu. Hakualueeksi (Define Domain) määritellään ELANissa se hakemisto/hakemistot, johon korpuspaketit on purettu.

ELAN-hakujen tekemisestä on tulossa myöhemmin lisäohjeita.

Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyyppi (Tier type) on interviewer speech, kun taas kaikki speech-tyyppiset kerrokset liittyvät joko varsinaisten haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen. Kun kohdistetaan Single Layer- tai Multiple Layer -haku tietyntyyppisiin kerroksiin, voidaan etsiä osumia pelkästään haastateltavien vs. haastattelijoiden puheesta. 1970-luvun aineistoon on merkitty näkyviin haastattelijan nimikirjaimet, mutta 1990-luvun ja 2010-luvun aineistossa haastattelijan vuorot on merkitty pelkällä H-kirjaimella.

Osa aineistosta on koodattu temaattisesti ts. asiasanoitettu puheenaiheen mukaan. Tietyt asiasanat on merkitty samaa aihetta käsittelevän osuuden kohdalle 1-3 annotaatiokerrokseen. Näiden kerrosten nimet ovat annotaatiotiedostoissa asiasana1, asiasana2 ja asiasana3. Asiasanoja voi hakea valitsemalla kohteena olevan kerroksen tyypiksi Tier type: thematic keyword.

Muutamiin annotaatiotiedostoihin on myös merkitty referointiosuuksia (Tier type: reference) sekä nimiä (Tier type: name).

Korpuksen tuottajat

Helsingin puhekielen aineistohankkeen käynnisti prof. Terho Itkonen Helsingin yliopistossa. Vuodesta 1976 lähtien hanketta johti prof. Heikki Paunonen. 1970-luvun osa-aineisto on kerätty Itkosen ja Paunosen johdolla. 1990-luvun osakorpuksen aineisto kerättiin vuosina 1991–92, jolloin hankkeen johtajana jatkoi prof. Heikki Paunonen. Vuonna 2013 toteutetussa, Koneen Säätiön rahoittamassa jatkohankkeessa kerättiin 2010-luvun osa-aineisto, jonka haastatteluista ja litterointityöstä vastasivat tutkimusavustajina suomen kielen opiskelijat Saila Marttila, Sanni Surkka ja Suvi Syrjänen. Hankkeen johtajana toimi Hanna Lappalainen Helsingin yliopiston suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitokselta. Aineiston temaattisen koodauksen suunnittelusta ja toteutuksesta vastasi FT Pauliina Latvala, joka työskenteli hankkeessa apurahatutkijana.

Lisätietoa Helsingin puhekielen pitkittäiskorpus -aineistohankkeesta

Korpuksen versiot

Korpuksen ensimmäinen versio helpuhe1 on ladattavissa tiedostopaketteina Kielipankin latauspalvelusta (http://urn.fi/urn:nbn:fi:lb-2014073041).

Korpuksen toinen, annotaatioiden osalta päivitetty versio (helpuhe-v2, http://urn.fi/urn:nbn:fi:lb-2016041424) tulee myöhemmin saataville latauspaketteina.

Aineistosta on tekeillä myös Kielipankin Korp-palvelun kautta käytettävä versio.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2021052503