The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s) (helpuhe)

The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s) (helpuhe)

Currently available versions of this resource

Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level
Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information
Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information

Tietoa aineistosta

Helsingin puhekielen pitkittäiskorpus koostuu eri-ikäisten syntyperäisten helsinkiläisten äänitallennetuista yksilöhaastatteluista. Aineistoa on kerätty kolmella vuosikymmenellä, vuosina 1972–74, 1991–92 sekä 2013.

Tietoa tämän aineiston LAT-version poistumisesta vuoden 2020 lopussa

Kielipankin LAT-alusta on poistunut käytöstä vuonna 2020. Tätä aineistoa ei enää pääse käyttämään LAT-näkymän kautta, mutta LATissa ollut sisältö on edelleen saatavilla ladattavassa muodossa. Aineiston tutkimista ja käsittelyä voi siis edelleen jatkaa esimerkiksi ELAN-ohjelmalla.

Korpuksen rakenne

Korpus on jaettu kolmeen pääosaan äänitysten vuosikymmenen mukaisesti: 1970, 1990 ja 2010. Sosiolingvististä tutkimusta varten 1970-luvun aineisto on jaettu osiin haastateltavan asuinkaupunginosan mukaan (S=Sörnäinen, T=Töölö). Myöhemmin kerätyissä osa-aineistoissa tästä kaupunginosajaosta ei enää nuorten puhujien osalta ole pidetty kiinni, vaan S- ja T-koodit viittaavat pikemminkin puhujien koulutustaustaan (S=ammattikoululainen, T=lukiolainen). Jokainen osakorpus on jaoteltu lisäksi haastateltavan ikäryhmän (1=vanhimmat, 2=keski-ikäiset, 3=nuoret) mukaan.

Osakorpuksissa on mukana osittain samoja haastateltavia. Vuosina 1991-1992 tavoitettiin 29 haastateltua 1970-luvulla tehdyn tutkimuksen kahdesta nuorimmasta ikäryhmästä sekä otettiin tutkittavaksi uusi nuorten ryhmä (16 haastateltavaa). Vuonna 2013 toteutetussa jatkohankkeessa haastateltiin 27:ää 1990-luvun informanteista sekä otettiin tutkittavaksi uusi nuorten ryhmä (yht. 16). Aiempien kierrosten tavoin aineisto kerättiin yksilöhaastatteluin. 13 informantille kyseessä oli jo kolmas haastattelu.

Puhujat on merkitty koodeilla F(nainen) tai M(mies) + juokseva numero. Näillä koodeilla samat henkilöt on myös yksilöity kaikkien kolmen osa-aineiston välillä: tiettyyn puhujaan viitataan aina samalla koodilla, kun hän esiintyy useammassa kuin yhdessä osakorpuksessa.

Osakorpusten sisältö

1970-luvun osa-aineistosta on saatavilla litteroidut tekstit pääosin vain kohdistamattomina tekstitiedostoina (.txt) ja erillisinä, kokonaisen haastattelun pituisina äänitiedostoina (.wav). Litteroitu osuus kattaa noin puoli tuntia kustakin haastattelusta. Pieni osa litteroinneista on myös kohdistettu ääneen.
1990-luvun osakorpuksesta on tarjolla osaksi pelkät äänitiedostot, osaksi kohdistetut litteroinnit vastaavasti kuin 1970-luvun osuudesta. Huomaa, että litterointityyli on jossakin määrin erilainen kuin 1970-luvun osa-aineistossa.
2010-luvun osakorpus on litteroitu suoraan äänitiedostoon kohdistettuna.

Kaikkien kolmen osakorpuksen äänitiedostoihin kohdistetut annotaatiot ovat saatavilla sekä ELAN-ohjelmalla toimivassa .eaf-muodossa että Praat-ohjelmalla toimivassa .TextGrid-muodossa.

Versio 1 (helpuhe1):

Vuonna 2013 toteutetussa Helsingin puhekielen pitkittäiskorpus -hankkeessa kerättiin 2010-lukua edustava osa-aineisto sekä jalostettiin aiemmin 1970- ja 1990-luvuilla hankittu aineisto digitaaliseksi korpukseksi, mikä parantaa huomattavasti sen käytettävyyttä. Pitkittäiskorpus koostuu digitaalisista äänitiedostoista, jotka ovat kuunneltavissa kokonaisuudessaan, ja niihin liitettävistä litteroinneista, jotka kattavat tässä aineistoversiossa noin puoli tuntia kustakin haastattelusta. Litteraatit on suuressa osassa aineistoa kohdistettu äänitiedostojen vastaaviin kohtiin, jolloin litteroinnin perusteella voi tehdä hakuja ja hakuosumia vastaavia äänitteiden kohtia pääsee suoraan kuuntelemaan. Lisäksi suureen osaan ääniaineistoa on kohdistettu asiasanoja, joiden avulla voidaan tehdä myös aiheenmukaisia hakuja esimerkiksi kulttuurin- ja historiantutkimuksen tarpeisiin.

Versio 2 (helpuhe-v2):

Korpuksen toinen versio sisältää 1970-, 1990- ja 2010-luvun osa-aineistojen annotaatiotiedostojen päivityksiä: joko uusia litteraatteja äänitiedostoihin, joita ensimmäisessä versiossa ei ollut lainkaan litteroitu, tai 1970-luvun osa-aineiston kohdalla vanhojen litteraattien kohdistettuja versioita. Osa aikaisemmista litteroinneista on myös päivitetty tai äänitteestä on saatettu litteroida pitempi pätkä. Yhteensä 83 äänitiedostoon liittyviä annotaatioita on päivitetty tai lisätty. Uusia äänitteitä ei siis tätä versiota varten kerätty.

Käyttöohjeita

Korpuksen äänitiedostoihin kohdistettuja .eaf-muotoisia annotaatiotiedostoja voi selailla ja ääninäytteitä kuunnella verkon kautta LAT-alustalla. Napsauta ensin vasemmanpuoleisessa ikkunassa haluamaasi tiedostoa, esim. 1970-T1M2C_1.eaf, ja sitten joko ponnahdusvalikossa tai oikeanpuoleisen ikkunan yläreunassa näkyvää painiketta ”view node”.

Litteroinnit ja muu annotaatio

Aineiston litteroinnit ja muu annotaatio ovat saatavilla Praat-ohjelman käyttämässä TextGrid-muodossa sekä ELAN-ohjelman käyttämässä EAF-muodossa. Annotaatiotiedostoja voi käyttää verkkopohjaisesti LAT-alustalla tai ne voi ladata omalle koneelle ja avata muokattavaksi joko ELAN- tai Praat-ohjelmalla. Kummassakin tapauksessa on ladattava annotaatiotiedoston pariksi myös sitä vastaava WAV-muotoinen äänitiedosto.

LAT-alustalla olevat äänitiedostot (WAV ja M4A) ovat ”view node”-komennolla kuunneltavissa ja ”download”-komennolla ladattavissa yksitellen myös ilman annotaatiota. WAV-muotoiset äänitiedostot ovat yksikanavaisia (mono) ja ne on näytteistetty 16-bittisinä ja 44100 Hz:n taajuudella. Näitä äänitteiden WAV-versioita kannattaa käyttää, mikäli haluaa selata ja muokata annotaatioita omalla koneellaan. !M4A-muotoiset äänitiedostot ovat häviöllisesti pakattuja ja tiedostokooltaan pienempiä. Ne on tuotettu alkuperäisistä WAV-tiedostoista lähinnä Annex-työkalulla verkon yli tapahtuvaa kuuntelua ja käyttöä varten.

Huom! Haastattelut on nauhoitettu vaihtelevissa olosuhteissa ja erityisesti vanhimmat nauhat on digitoitu vasta myöhemmin. Tallenteissa voi esiintyä taustakohinaa ja muuta hälyä ja tallenteiden äänentaso saattaa vaihdella.

Annotaatiotiedostojen sisältö

Koko 2010-luvun osa-aineistosta sekä osittain myös 1990- ja 1970-lukujen osa-aineistoista on saatavilla ääneen kohdistetut litteraatit (.eaf, .TextGrid). Litteraatin perusteella voidaan siis tehdä hakuja ja kuunnella karkeasti kutakin hakutulosta vastaava ääninäytteen kohta. Osa 1970- ja 1990-luvun aineistosta on kuitenkin saatavilla vain erillisinä teksti- (.txt) ja äänitiedostoina (.wav).

Litteraatin ja äänen kohdistus on tarkoitettu hakujen, selailun ja kuuntelun helpottamiseksi. Se ei siis ole täysin tarkka, eikä kaikkia taukoja ole välttämättä merkitty.

Tiedostojen lataaminen omalle koneelle

Tiedostoja voi ladata LATista yksitellen omalle koneelle komennolla download (napsauta tiedostoa hiiren oikealla napilla tai valitse se klikkaamalla, jolloin painike tulee näkyviin sivun ylälaitaan). Vaihtoehtoisesti kaikki yksittäiseen haastatteluun liittyvät erilaiset tiedostot voi ladata yhtenä tiedostopakettina valitsemalla ensin kyseistä istuntoa vastaavan vihreän ”pussin” ja napsauttamalla sitten painiketta Download all resources. Kannattaa ladata vähintään EAF-tiedosto tai TextGrid-tiedosto sekä sitä vastaava WAV-muotoinen äänitiedosto ja sijoittaa nämä omalla koneella samaan hakemistoon. M4A-tiedostoa ei välttämättä kannata ladata, koska se on tuotettu ainoastaan verkkoselaimella tapahtuvaa kuuntelua varten.

Vanhemmat korpusversiot ja äänitiedostopaketit ovat ladattavissa Kielipankin latauspalvelusta.

Annotaatioihin pohjautuvien hakujen tekeminen LAT-alustalla (ja ELAN-ohjelmalla)

Annotaatiokerrosten tyyppien avulla voidaan tehdä hakuja Trova-työkalulla (napsauta helpuhe-solmua ja valitse annotation content search). Trova-ikkunan yläosasta voidaan rastittaa, minkätyyppisiin annotaatiotiedostoihin haku kohdistetaan: ELAN-muotoisiin .eaf-tiedostoihin, Praat-muotoisiin .TextGrid-tiedostoihin ja/tai kohdistamattomiin .txt-raakatekstitiedostoihin.

Myös vanhemmista korpusversioista voi tehdä hakuja omalle koneelle asennetulla ELAN-ohjelmalla. Koko korpus tai osakorpus täytyy tällöin ensin ladata Kielipankin latauspalvelusta. ELANissa voi käyttää toimintoa Search: Structured Search Multiple eaf, joka toimii vastaavalla periaatteella kuin LAT-palvelun Trova-työkalu. Hakualueeksi (Define Domain) määritellään ELANissa se hakemisto/hakemistot, johon korpuspaketit on purettu.

ELAN-hakujen tekemisestä on tulossa myöhemmin lisäohjeita.

Haastattelijoiden puheeseen liittyvien annotaatiokerrosten tyyppi (Tier type) on interviewer speech, kun taas kaikki speech-tyyppiset kerrokset liittyvät joko varsinaisten haastateltavien tai muiden äänitystilanteessa paikalla olleiden henkilöiden puheeseen. Kun kohdistetaan Single Layer- tai Multiple Layer -haku tietyntyyppisiin kerroksiin, voidaan etsiä osumia pelkästään haastateltavien vs. haastattelijoiden puheesta. 1970-luvun aineistoon on merkitty näkyviin haastattelijan nimikirjaimet, mutta 1990-luvun ja 2010-luvun aineistossa haastattelijan vuorot on merkitty pelkällä H-kirjaimella.

Osa aineistosta on koodattu temaattisesti ts. asiasanoitettu puheenaiheen mukaan. Tietyt asiasanat on merkitty samaa aihetta käsittelevän osuuden kohdalle 1-3 annotaatiokerrokseen. Näiden kerrosten nimet ovat annotaatiotiedostoissa asiasana1, asiasana2 ja asiasana3. Asiasanoja voi hakea valitsemalla kohteena olevan kerroksen tyypiksi Tier type: thematic keyword.

Muutamiin annotaatiotiedostoihin on myös merkitty referointiosuuksia (Tier type: reference) sekä nimiä (Tier type: name).

Korpuksen tuottajat

Helsingin puhekielen aineistohankkeen käynnisti prof. Terho Itkonen Helsingin yliopistossa. Vuodesta 1976 lähtien hanketta johti prof. Heikki Paunonen. 1970-luvun osa-aineisto on kerätty Itkosen ja Paunosen johdolla. 1990-luvun osakorpuksen aineisto kerättiin vuosina 1991–92, jolloin hankkeen johtajana jatkoi prof. Heikki Paunonen. Vuonna 2013 toteutetussa, Koneen Säätiön rahoittamassa jatkohankkeessa kerättiin 2010-luvun osa-aineisto, jonka haastatteluista ja litterointityöstä vastasivat tutkimusavustajina suomen kielen opiskelijat Saila Marttila, Sanni Surkka ja Suvi Syrjänen. Hankkeen johtajana toimi Hanna Lappalainen Helsingin yliopiston suomen kielen, suomalais-ugrilaisten ja pohjoismaisten kielten ja kirjallisuuksien laitokselta. Aineiston temaattisen koodauksen suunnittelusta ja toteutuksesta vastasi FT Pauliina Latvala, joka työskenteli hankkeessa apurahatutkijana.

Lisätietoa Helsingin puhekielen pitkittäiskorpus -aineistohankkeesta

Korpuksen versiot

Korpuksen ensimmäinen versio helpuhe1 on ladattavissa tiedostopaketteina Kielipankin latauspalvelusta (http://urn.fi/urn:nbn:fi:lb-2014073041).

Korpuksen toinen, annotaatioiden osalta päivitetty versio (helpuhe-v2, http://urn.fi/urn:nbn:fi:lb-2016041424) tulee myöhemmin saataville latauspaketteina.

Aineistosta on tekeillä myös Kielipankin Korp-palvelun kautta käytettävä versio.

Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2025120402

Corpus of Border Karelia (finka)

Corpus of Border Karelia (finka)

Suomeksi

Currently available versions of this resource

Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level
Shortname	Name and metadata	License	Location	Cite	Resource group and help	Apply	Publication year	Support level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information
Shortname	Name and metadata	License	Formats	Support level	Contact Person	Resource group and help	Location	Other information

Resource information

The Corpus of Border Karelia contains the audio recordings and transcripts of dialects spoken in the area of Border Karelia, where the very closely related varieties of eastern Finnish dialects and Karelian were in contact. The informants are evacuees who were mainly moved to eastern Finland after World War II.

The original interviews were recorded in the 1960s and the 1970s and transcribed at the University of Eastern Finland by various researchers using the Finno-Ugrian transcription system. The interviewees are elderly people who were born in the 1870s – 1910s.

The original material has been archived by the Institute for the Languages of Finland. During the FINKA project (funded by the Academy of Finland in 2011–2014), the transcripts were reviewed and reorganized into a machine-readable corpus that is compatible with modern research tools.

Litterointimerkkien kuvaus (pdf)

Content corresponding to the previous LAT version of the material is now available in the Language Bank download service

The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.

License and access

The versions of this resource are available publicly (PUB).
Click on the license image to see the resource-specific license text.

Corpora from english-corpora.org available via Kielipankki – The Language Bank of Finland (ecorg, ”BYU corpora”)

Corpora from english-corpora.org available via Kielipankki – The Language Bank of Finland (ecorg, ”BYU corpora”)

In English

If you are a researcher affiliated to a member university of the FIN-CLARIN consortium in Finland, the Language Bank can offer you access to various versions of a number of corpora originating from the external service english-corpora.org, created by Mark Davies.

In addition to the corpus variants provided locally within Finland, the Language Bank of Finland also offers an academic license to use the external interface at english-corpora.org for logged-in students and faculty members at the University of Helsinki during the years 2022–2026. See the instructions below.

Currently available versions of this resource group

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Upcoming versions of this resource group

These resource versions are not yet available in the Language Bank of Finland.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

License and access

For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).
For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title).

Korp versions

Some of the corpora are available for searching via the Korp concordancer tool (click on the link under ’Location’).
Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
To access the download service, click on the link under ’Location’, or see the metadata record for the link.

External corpus services at english-corpora.org: Academic license for users from the University of Helsinki

The services at english-corpora.org include an interface for searching a number of corpora, particularly corpora in the English language but also many other languages. The search interface is somewhat different from the Korp service at the Language Bank.
The downloadable versions of the corpora offered via the Language Bank (listed above) essentially include the same content that was available via the online service at https://www.english-corpora.org at the time of acquiring the corpora.
In addition to the specific downloadable versions corpora (listed above), an academic license is available for students and staff at the University of Helsinki for using the online services for accessing corpora at https://www.english-corpora.org. The academic license is valid during the years 2022–2026 for logged-in students and faculty members at the University of Helsinki. Instructions for joining the academic license are provided below.
Please note that the corpus service at english-corpora.org is not part of FIN-CLARIN or the Language Bank of Finland.

NB: In case you only wish to use the downloadable corpora via the Language Bank of Finland, you do not need to complete the academic license procedure below. Note that the downloadable versions of the corpora will remain for download in the Language Bank even after the academic license to use the online service has expired.

How to benefit from the academic license as a student or researcher

Log in at https://www.english-corpora.org/. (If accessing the service for the first time, you need to create a user account first.)
Click on the link ”select your university (if applicable)”.
Answer the question about your status as a faculty member or student.
Select your country from the drop-down list.
On the list of organizations, click on the link at the ”University of Helsinki”, to join the academic license.
If this does not work for you, please check the current list of academic licenses to see if your own home organization offers extended access to english-corpora.org.

If you fulfilled the criteria for the academic license, you should be able to perform up to 200 searches per day if you are a student, and 400 searches per day if you are a faculty member.

Citation practices regarding corpora at english-corpora.org

The corpus architecture and web interface at english-corpora.org/ (and many of the corpora that are available there) were created by Mark Davies and/or other parties. Further details on how to cite their corpora, licensing, technical features etc. can be found at https://www.english-corpora.org/faq.asp#cite.

This page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2025120301

The Movie Corpus (Mark Davies, english-corpora.org) – Kielipankki version

The Movie Corpus (Mark Davies, english-corpora.org) – Kielipankki version

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

This resource contains a copy of the original Movie Corpus, provided by Mark Davies on 4th June 2021 via the corpus service at https://www.english-corpora.org. The corpus contains 200 million words from about 25,000 movies from the years 1930-2018. The movie scripts come from several different English-speaking countries and include English from the US, UK and 4 other dialects.

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

For the license text of an individual corpus, click on the license image in the corpus list, or see the metadata record (click on the link at the corpus title). Note that there are specific additional terms and conditions that apply on this and other corpora from BYU, see https://www.corpusdata.org/restrictions.asp. The link is included in the official license.

Korp versions

Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
To access the download service, click on the link under ’Location’, or see the metadata record for the link.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112805

Corpus of Global Web-Based English (GloWbE)

Corpus of Global Web-Based English (GloWbE)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

The Corpus of Global Web-Based English (GloWbE) contains about 1.8 billion words from web pages in the United States, Great Britain, Australia, India, and 16 other countries. About 60 % of the texts come from blogs. It is unique in the way that it allows you to carry out comparisons between different varieties of English. The original, frequently updated version of GloWbE is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of GloWbE under a restricted academic license that is available for users affiliated with a university in Finland.

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

Korp versions

Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
To access the download service, click on the link under ’Location’, or see the metadata record for the link.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112804

The Coronavirus Corpus (Mark Davies, english-corpora.org) – Kielipankin versio

The Coronavirus Corpus (Mark Davies, english-corpora.org) – Kielipankin versio

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

The Coronavirus Corpus contains data on the medical, social, cultural, and economic impact of the coronavirus (COVID-19) from online magazines and newspapers in 20 different English-speaking countries from 1 Jan 2020 to 31 May 2021. The original version is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers a ”snapshot” version of the corpus under a restricted academic license that is available for users affiliated with a university in Finland.

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

Korp versions

Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
To access the download service, click on the link under ’Location’, or see the metadata record for the link.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112803

Corpus of Historical American English (coha)

Corpus of Historical American English (coha)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

The Corpus of Historical American English (COHA) is the largest structured corpus of historical English. The corpus is balanced by genre across the decades. The original version of COHA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COHA under a restricted academic license that is available for users affiliated with a university in Finland.

For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

Korp versions

Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
To access the download service, click on the link under ’Location’, or see the metadata record for the link.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112802

Corpus of Contemporary American English (coca)

Corpus of Contemporary American English (coca)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

The Corpus of Contemporary American English (COCA) is a very large corpus of American English. The original, frequently updated version of COCA is provided by Mark Davies via the corpus interface at english-corpora.org. The Language Bank of Finland offers several ”snapshot” versions of COCA under a restricted academic license that is available for users affiliated with a university in Finland.

For the description of an individual corpus version, please see the metadata record (click on the link at the corpus title).

More information about all corpora from english-corpora.org that are available via the Language Bank

Lisenssi ja pääsy aineistoon

Korp versions

Some of the corpus versions are available for searching via the Korp concordancer tool (click on the link under ’Location’).
Access to the Korp versions requires academic login via a university in Finland.

Downloadable versions

Access to the downloadable corpora mentioned above is restricted to researchers affiliated to member universities of the FIN-CLARIN consortium in Finland. Download access can usually be provided to graduate or postgraduate students in case the applicant needs the corpora for an MA thesis or for a PhD dissertation.
To obtain access to restricted corpora, please submit an application via the Language Bank Rights (after logging in to the LBR service, search the catalogue for ’Mark Davies’ downloadable corpora at Kielipankki.’).
To access the download service, click on the link under ’Location’, or see the metadata record for the link.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112801

1994, 1999 ja 2004 äidinkielen ylioppilaskokeiden esseitä sisältävä korpus (ylioppilasaineet)

1994, 1999 ja 2004 äidinkielen ylioppilaskokeiden esseitä sisältävä korpus (ylioppilasaineet)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

The corpus contains Finnish essays written by the students of the 1994, 1999 and 2004 matriculation examinations.

Lisenssi ja pääsy aineistoon

Tämän aineiston versioihin täytyy hakea erikseen henkilökohtaista käyttöoikeutta (RES). Hae käyttöoikeutta
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Tämä aineisto sisältää henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssi sisältää erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112704

Ylilauta-korpus (ylilauta)

Ylilauta-korpus (ylilauta)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Korpus sisältää Ylilaudan keskustelupalvelun keskustelupalstoja ajalta 2012-2014.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Joidenkin tämän aineiston versioiden kopio on saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake).

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112703

word2vec-menetelmällä harjoitetut sanaupotukset (wordvec)

word2vec-menetelmällä harjoitetut sanaupotukset (wordvec)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

This resource collection contains word embeddings trained with word2vec from various corpora.

The embedding file is in a simple and easily parsed textual format produced by word2vec. The first line in the file gives the vocabulary size and dimension. Each line after that begins with a vocabulary item, followed by a space, followed by 128 floating point numbers (represented textually) each followed by a space.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112702

Suomenkielinen Wikipedia 2017 (wikipedia-fi-2017)

Suomenkielinen Wikipedia 2017 (wikipedia-fi-2017)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Aineisto kattaa Wikipedian suomenkielisen artikkelien leipätekstit vuoden 2017 lopulta. Tekstit on eristetty Wikipedian tarjoamista kielikohtaisista kokonaisaineistoista (https://dumps.wikimedia.org/). Aineisto on jaettu arikkeleihin, kappaleisiin ja lauseisiin. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku Dependenssi jäsennintä (http://turkunlp.github.io/Finnish-dep-parser/).

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Tämän aineiston versioiden kopio on saatavilla myös suoraan laskentaympäristössä (ks. Sijainti-sarake).

Käyttöesimerkkejä

Kuvaus tietojen rakenteesta laskentaympäristössä:

tree view of corpus wikipedia-fi-2017-src

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112701

Wanca 2016

Wanca 2016

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Wanca 2016 is a collection of web corpora in small Uralic languages. The collection is composed of 29 sentence corpora in different languages. The corpora have been collected from the Internet using the automated system developed in the Finno-Ugric Languages and the Internet project (SUKI) supported by the Kone foundation from their Language Programme 2012-2016. The sentences have been extracted from the pages found while harvesting with Heritrix and the language of each sentence has been identified with MultiLi using HeLI as the identification method. Each sentence has a link to the original page it was found in, but it is possible that some of the links stop working. In that case we recommend searching for the page in the Internet Archive Wayback machine https://archive.org/web/.

More information on Wanca: http://www.suki.ling.helsinki.fi/wanca

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Lisädokumentaatio

The languages in Wanca 2016 are:

ISO 639-3	Name of language
fit	Tornedalen Finnish (meänkieli)
fkv	Kven (kvääni)
izh	Ingrian (ižoran keel)
kca	Khanty (ханты ясанг)
koi	Komi-Permyak (перем коми кыв)
kpv	Komi-Zyrian (Коми кыв)
krl	Karelian (karjal)
liv	Liv (līvõ kēļ)
lud	Ludian (lüüdin kiel’)
mdf	Moksha (мокшень)
mhr	Eastern and Meadow Mari (марий йылме)
mns	Mansi (мāньси лāтыӈ)
mrj	Western or Hill Mari (Кырык мары)
myv	Erzya (эрзянь)
nio	Nganasan (ня”)
olo	Livvi (Olonets / livvin karjal)
sjd	Kildin Sami (Кӣллт са̄мь кӣлл)
sjk	Kemi Sami (samääškiela)
sju	Ume Sami (uumajanlappi)
sma	Southern Sami (åarjel-saemien)
sme	Northern Sami (davvisámi, davvisámegiella)
smj	Lule Sami (julevsábme)
smn	Inari Sami (anarâškielâ)
sms	Skolt Sami (sää´mǩiõll)
udm	Udmurt (удмурт кыл)
vep	Veps (vepsän kel’)
vot	Votic (vad̕d̕a ceeli)
vro	Võro (võro kiil)
yrk	Nenets (ненэцяʼ вада)

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112609

Vanhan kirjasuomen korpus (vks)

Vanhan kirjasuomen korpus (vks)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Written Finnish texts from the years between 1543 and 1810, browsable and searchable on the web. The collection contains bible translations and religious texts (e.g. all of Mikael Agricola’s Finnish works), legal texts, poems, and texts concerning agriculture, nature, health etc., among others. It was compiled for lexicographic use.

More information on the corpus: http://kaino.kotus.fi/korpus/vks/meta/vks_coll_rdf.xml

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112608

Vepsän verkkosanaston Sanat-versio (vepsa)

Vepsän verkkosanaston Sanat-versio (vepsa)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

This resource is offered by Kotus, Kotimaisten kielten keskus, the Institute for the Languages of Finland.

The resource contains the Online Lexicon of Veps Language from Lauri Kettunen’s (1885-1963) handwritten dictionary and notes. Kettunen travelled twice to Veps areas, in 1917-1918 and in 1934 with Lauri Posti and Paavo Siro.

The lexicon, which is based on the field notes, has been digitized.

Open the website

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112607

Tasavallan presidenttien uudenvuodenpuheet (uudenvuodenpuheet)

Tasavallan presidenttien uudenvuodenpuheet (uudenvuodenpuheet)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Tasavallan presidenttien uudenvuodenpuheiden kokoelmassa on kaikki tasavallan presidenttien pitämät uudenvuodenpuheet vuosilta 1935–2007. Muutaman kerran puheen on pitänyt joku muu kuin presidentti. Nämäkin puheet sisältyvät aineistoon.

Kokoelma on järjestetty presidenteittäin ja vuosittain. Kokoelma koostuu lehtileikkeistä, konekirjoitusliuskoista, kirjojen sivuista, lehdistötiedotteista ja verkkoteksteistä. Aineistoa on hankittu arkistoista, kirjoista ja Internetistä.

Lisätietoja: http://kaino.kotus.fi/korpus/teko/meta/presidentti/presidentti_coll_rdf.xml

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB).
Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025112606

New Resource: The Corpus of Sociolinguistic Variation in the Province of Satakunta, source

The Corpus of Sociolinguistic Variation in the Province of Satakunta, source is available at the download service at Kielipankki.

More information can be found on the resource group page.

**Resource-specific data protection terms and conditions (mutable)**

Suomeksi

Title of the Resource: Multimodal Translation and Interaction between Blind and Sighted Persons

Metadata: urn:nbn:fi:lb-2021042021
License: urn:nbn:fi:lb-2025090424

This page describes the specific conditions regarding the processing of the personal data in this Resource. In addition to these conditions, see the guidelines for processing personal data in the Language Bank of Finland.

Controller of the data stored in the Language Bank of Finland

Tampere University
Kalevantie 4
33014 Tampere University

Data Protection Officer of Tampere University

Email: dpo@tuni.fi

For details on the data protection of the resources in the Language Bank of Finland, please contact FIN-CLARIN helpdesk.

Description of the personal data

Types of personal data in the Resource

The material contains video footage of individuals (faces, parts of the body) and speech. The material also contains conversations between individuals, mainly related to work tasks but also partly to personal life. The material may contain sensitive personal data that could not be removed from the video or audio recording without compromising the research use of the material.

Discussions related to work tasks may involve the health status, opinions, or other personal or health information of individuals, as well as references to third parties and their actions.
The videos were recorded in people’s homes or workplaces and may show personal or work-related items and information.

Direct personal data appearing in the text-based transcripts of the material, e.g., names of people and workplaces, have been pseudonymized.

Categories of data subjects

Situations related to teamwork and/or interaction related to audio description were selected for this resource. Visually impaired adults, adults with normal vision and audio description professionals, mainly in work situations, were selected as the research subjects. In the subcorpus ’mutable-art’, individuals in the aforementioned groups were also recorded partly in their leisure time (a museum visit would be a work situation for audio describers and personal assistants, but leisure time for other participants).

Data protection terms and conditions for this Resource

In these data protection terms and conditions, End-User means the party acting as the controller for the Resource received, in accordance with the General Data Protection Regulation (EU) 2016/679. Depending on the case and the purpose of Resource use, End-User may therefore mean the CLARIN service user’s employer or organisation (e.g., a university, university of applied sciences or other research organisation) or the service user personally.

The End-User understands that when receiving the Resource, it becomes a controller, as referred to in the data protection legislation. The End-User must ensure that it complies with the applicable data protection legislation when processing personal data.

The purpose of use of personal data

The Resource may only be used for the research purpose described in the research plan approved by the Controller.

Location and transfer of the personal data

Any personal data processing outside the European Economic Area must comply with the requirements laid out in Chapter V of the General Data Protection Regulation. In order to process the personal data contained by the Resource outside the European Economic Area, a license may be granted only on the basis of a separate application. In that case, please contact the Controller of the data stored in the Language Bank of Finland (see contact details above).

Publish a link to your Privacy Notice

When you start using this Resource, share the title of your project that is understandable to the general public as well as the link to the publicly available privacy notice (see instructions). This information will be published on the website of the Language Bank of Finland.

The estimated date until which the Resource will contain personal data

It is likely that the resource will no longer contain personal data after the year 2100.

Persistent identifier of this page: urn:nbn:fi:lb-2025090426

Aineistokohtaiset tietosuojaehdot (mutable)

In English

Aineiston nimi: Multimodaalinen käännöstyö ja vuorovaikutus sokeiden ja näkevien kesken

Aineiston kuvailutiedot: urn:nbn:fi:lb-2021042021
Lisenssi: urn:nbn:fi:lb-2025090425

Aineisto sisältää henkilötietoja, joiden käsittelyä koskevat erityisehdot on kuvattu tällä sivulla. Tutustu lisäksi henkilötietoja sisältävien Kielipankin aineistojen käsittelyohjeisiin.

Kielipankkiin talletetun aineiston Rekisterinpitäjä

Tampereen yliopisto
Kalevantie 4
33014 Tampereen yliopisto

Helsingin yliopiston tietosuojavastaava

Sähköpostiosoite: dpo@tuni.fi

Lisätietoja Kielipankin aineistojen tietosuojasta voit pyytää FIN-CLARINin asiakaspalvelusta.

Henkilötietojen kuvaus

Aineiston sisältämien henkilötietojen tyypit

Aineisto sisältää videokuvaa henkilöistä (kasvot, osa vartaloa) ja puheääntä. Aineisto sisältää myös henkilöiden välisiä keskusteluja, jotka liittyvät pääosin työtehtäviin mutta osin myös henkilökohtaiseen elämään. Aineisto voi sisältää arkaluonteisia henkilötietoja, joita ei ole ollut mahdollista poistaa videokuvasta tai äänitteestä ilman, että Aineiston tutkimuskäyttö samalla vaarantuisi.

Työtehtäviin liittyvissä keskusteluissa voidaan käsitellä henkilöiden terveydentilaa, mielipiteitä tai muita henkilökohtaisia tai terveystietoja, mainita kolmansia osapuolia sekä näiden toimia.
Videot on kuvattu henkilöiden kotona tai työpaikalla ja niissä saattaa näkyä henkilökohtaisia tai työhön liittyviä esineitä ja tietoja.

Aineiston tekstimuotoisissa litteraateissa esiintyvät suorat henkilötiedot, kuten henkilöiden nimet ja työpaikat, on pseudonymisoitu.

Rekisteröityjen ryhmät

Aineistoon kerättiin tilanteita kuvailutulkkaukseen liittyvästä tiimityöstä ja/tai vuorovaikutuksesta. Tutkittaviksi valittiin aikuisia, näkövammaisia ja normaalisti näkeviä henkilöitä ja kuvailutulkkausammattilaisia pääosin työskentelytilanteissa. Osakorpuksessa ’mutable-art’ on kuvattu myös em. ryhmiin kuuluvia henkilöitä osittain vapaa-ajan tilanteissa (museovierailu on kuvailutulkille ja henkilökohtaisille avustajille työtilanne, mutta muille osallistujille vapaa-aikaa).

Aineistoon liittyvät erityiset tietosuojaehdot

Käyttäjällä tarkoitetaan näissä tietosuojaehdoissa sitä tahoa, joka toimii vastaanotettavan aineiston rekisterinpitäjänä yleisen tietosuoja-asetuksen (EU) 2016/679 mukaan. Käyttäjä voi siis tapauksesta ja aineiston käyttötarkoituksesta riippuen olla Kielipankin käyttäjän työnantaja tai organisaatio, jossa hän toimii (esimerkiksi yliopisto, ammattikorkeakoulu tai muu tutkimusorganisaatio) tai palvelun käyttäjä henkilökohtaisesti.

Käyttäjä ymmärtää, että aineistoa vastaanottaessaan siitä tulee soveltuvan tietosuojalainsäädännön mukaan rekisterinpitäjä. Käyttäjä on vastuussa siitä, että se noudattaa henkilötietojen käsittelyssä soveltuvaa tietosuojalainsäädäntöä.

Henkilötietojen käyttötarkoitus

Aineistoa saa käyttää ainoastaan Rekisterinpitäjän hyväksymässä tutkimussuunnitelmassa kuvattuun tutkimustarkoitukseen.

Henkilötietojen sijainti

Henkilötietoja saa käsitellä Euroopan talousalueen ulkopuolella ainoastaan yleisen tietosuoja-asetuksen V luvun vaatimuksia noudattaen. Lisenssi voidaan myöntää Euroopan talousalueen ulkopuolella tapahtuvaan henkilötietoja sisältävän Aineiston käsittelyyn vain erillisestä hakemuksesta. Siinä tapauksessa ota yhteyttä Kielipankkiin talletetun aineiston rekisterinpitäjään (ks. yhteystiedot edellä).

Julkaise linkki omaan tietosuojailmoitukseen

Kun ryhdyt käyttämään tätä Aineistoa, ilmoita oman hankkeesi yleistajuinen otsikko sekä avoimesti saatavilla olevan tietosuojaselosteen linkki Kielipankille (ks. ohjeet). Ilmoitetut tiedot julkaistaan Kielipankin verkkosivuilla.

Arvio ajankohdasta, jonka jälkeen Aineisto ei enää sisällä henkilötietoja

Aineisto ei sisältäne henkilötietoja enää vuoden 2100 jälkeen.

Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2025090427

Multimodaalinen käännöstyö ja vuorovaikutus sokeiden ja näkevien kesken (mutable)

Multimodaalinen käännöstyö ja vuorovaikutus sokeiden ja näkevien kesken (mutable)

In English

Saatavilla olevat versiot

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Sijainti	Viite	Aineistoryhmä ja ohje	Hae käyttöoikeutta	Julkaisuvuosi	Tukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto
Lyhenne	Nimi ja kuvailutiedot	Lisenssi	Muoto	Tukitaso	Yhteyshenkilö	Sijainti	Aineistoryhmä ja ohje	Muu tieto

Tietoa aineistosta

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

Pääsy tämän aineiston versioihin edellyttää erilliseen hakemukseen pohjautuvaa henkilökohtaista käyttöoikeutta (RES). Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Kaikkiin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin sisältyy myös tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025090423

Viimeksi muokattu 2025-11-19

Hae Kielipankki-portaalista:

Kuukauden tutkija: Krista Ojutkangas

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot