Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
Open Richly Annotated Cuneiform Corpus (Oracc) brings together the work of several Assyriological projects to publish online editions of cuneiform texts. The Korp version of Oracc allows extensive searches on the texts and presents the results as a KWIC concordance list. Korp also offers statistical information and comparison of the search results. Downloading the query results is possible as well.
The second column in the list indicates if the text has been lemmatized in Oracc.
For how to use Oracc in Korp, please see the Oracc in Korp user guide.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2019111601
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Open Richly Annotated Cuneiform Corpus (Oracc) on nuolenpäätekstien verkkoversioiden kokoelma, joka on syntynyt useiden assyriologisten hankkeiden työn tuloksena. Oracc-aineiston Korp-versioissa teksteistä voi tehdä laajoja hakuja ja saada tulokset KWIC-konkordanssilistauksina, jotka voi ladata omalle koneelle. Korpilla voi myös kerätä tilastotietoja ja vertailla hakutuloksia.
Luettelon toisessa sarakkeessa on tieto siitä, onko kyseinen teksti Oracc-aineistossa perusmuotoistettuna.
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän aineiston versiot ovat saatavilla julkisesti (PUB). Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Tarkempia ohjeita Oracc-aineiston Korp-versioiden käyttöön löytyy englanninkielisestä ohjeesta Oracc in Korp user guide.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025061821
The following datasets are available for companies and non-academic organizations:
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
The following resource versions will be made available later in the Language Bank of Finland for commercial use.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
The resource will be made available via the download service of the Language Bank of Finland, where even companies and non-academic organizations will be able to access them under restricted license terms and conditions.
The services of the Language Bank are directed at academic researchers. For companies and non-academic organizations, access to Donera Prat datasets may be acquired for a fee.
Further information can be requested by email at lahjoita-puhetta@helsinki.fi.
NB: The Donera Prat dataset is not yet available for commercial use. The instructions and pricing will be updated on this page.
In accordance with the specific terms and conditions of the Donera Prat resource, it is also possible to grant access to the data for commercial and non-academic purposes. However, in this case, a separate license agreement between the University of Helsinki and the company or organization is required. When the agreement is signed and the payment has been made, access can be granted to the representative authorized by the user organization.
When applying for the use of paid material, it must be shown that the license fee has been paid.
A brief summary of the metadata of the recordings included in the dataset can be found here.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024111126
Oletko tutkija? Lahjoita puhetta -aineistot akateemiseen tutkimuskäyttöön löytyvät toiselta sivulta.
Tästä aineistosta tarjotaan yritysten ja ei-akateemisten organisaatioiden käyttöön seuraavat paketit:
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot ovat tulossa myöhemmin Kielipankin kautta saataville yritysten ja ei-akateemisten organisaatioiden käyttöön.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Aineisto tulee myöhemmin saataville tiedostopaketteina Kielipankin latauspalveluun, josta myös luvan hankkineet yritykset ja ei-akateemiset organisaatiot pääsevät niitä käyttämään.
Kielipankin palvelut on lähtökohtaisesti suunnattu vain tutkijoille. Yrityksille ja ei-akateemisille organisaatioille aineiston käyttö on näyteaineistoa lukuunottamatta maksullista.
Lisätietoja saa osoitteesta lahjoita-puhetta@helsinki.fi.
Huom. Suomenruotsin aineisto ei vielä ole saatavilla yrityksille. Maksullista aineistoa koskevat tiedot päivitetään myöhemmin.
Donera prat -aineiston käyttöehtojen mukaisesti käyttöoikeuksia voidaan myöntää myös yrityksille tai ei-akateemisille organisaatioille. Kunkin ei-akateemisen käyttäjätahon kanssa tehdään kirjallinen sopimus halutun aineiston käytöstä. Kun sopimuksen mukaiset velvoitteet on suoritettu, pääsy aineistoon voidaan myöntää yrityksen valtuuttamalle edustajalle.
Lyhyt yhteenveto aineistoon sisältyvien tallenteiden metatiedoista löytyy täältä.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024111127
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Lyhyt yhteenveto aineistoon sisältyvien tallenteiden metatiedoista löytyy täältä.
Litteroijille annetut ohjeet (pdf)
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024111124
Donera Prat datasets for commercial use: see further details on another page
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
A brief summary of the metadata of the recordings included in the dataset can be found here.
Instructions given to the transcribers (pdf; in Finnish)
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024111123
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The University of Oulu Päätalo collection contains the literary output of the author Kalle Päätalo published so far. The works are to be made available via the Language Bank of Finland as several text corpora, the first of which was the Iijoki corpus.
Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
The available resources can be accessed by logging in as an academic user (”ACA”). Click on the license image to see the resource-specific license text.
The Päätalo collection of the University of Oulu includes works by the author Kalle Päätalo (November 11, 1919 – November 20, 2000). The Iijoki series, composed of 26 works, is Päätalo’s autobiographical main work, depicting his life from the 1910s to the 1990s.
At the initiative of University Lecturer Maija Saviniemi of the University of Oulu, Kalle Päätalo’s relatives Riitta Päätalo, Aliisa Oksanen and Emmi Oksanen as well as Gummerus Kustannus have made it possible to publish the material in the Language Bank. The material is available through the Language Bank of Finland for research purposes.
In the FIN-CLARIN project, the first Korp version of the Iijoki dataset was structured by Erik Axelson with the Turku Neural Parser Pipeline (TNPP) parser of the Turku NLP group. The data has also been structured in Kielipankki with the TDPP parser, which is based on the TDT parser developed by the Turku BioNLP group and further developed in Kielipankki. Based on the TDPP parsing, a list of elements was created that the parser could not reliably determine in their basic form. Instead, the annotation is marked as OTHER_UNK. A large number of these words are dialect words in different forms, so it is useful to look for them in the data using their basic forms.
Aakkostettu lista OTHER_UNK (txt; 1,5 Mt)
Iijoki-sarjan 200 yleisintä murresanaa (pdf; 31 kt)
A wide range of searches and statistics on the material can be made in the Korp service of the Language Bank of Finland. The Korp Extended Search tab can be used to narrow searches, for example, by selecting the title or date of a work as a search criterion and entering the title or year of publication in the selection field.
The Iijoki series consists of 26 volumes, containing around 17 000 pages of fictional text based on the author’s own life:
Huonemiehen poika (1971)
Tammettu virta (1972)
Kunnan jauhot (1973)
Täysi tuntiraha (1974)
Nuoruuden savotat (1975)
Loimujen aikaan (1976)
Ahdistettu maa (1977)
Miinoitettu rauha (1978)
Ukkosen ääni (1979)
Liekkejä laulumailla (1980)
Tuulessa ja tuiskussa (1981)
Tammerkosken sillalla (1982)
Pohjalta ponnistaen (1983)
Nuorikkoa näyttämässä (1984)
Nouseva maa (1985)
Ratkaisujen aika (1986)
Pyynikin rinteessä (1987)
Reissutyössä (1988)
Oman katon alle (1989)
Iijoen kutsu (1990)
Muuttunut selkonen (1991)
Epätietoisuuden talvi (1992)
Iijoelta etelään (1993)
Pato murtuu (1994)
Hyvästi, Iijoki (1995)
Pölhökanto Iijoen törmässä (1998)
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023110921
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon tähän asti julkaistun kirjallisen tuotannon. Teoksia tuodaan saataville Kielipankin kautta useina kokonaisuuksina, joista ensimmäinen oli Iijoki-korpus.
Toisessa vaiheessa on tarkoitus julkaista korpusmuodossa seuraavat teokset:
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tämän aineiston versioihin täytyy kirjautua akateemisena käyttäjänä (ACA). Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon (11.11.1919-20.11.2000) teoksia. Iijoki-sarja on 26 teoksesta koostuva Päätalon omaelämäkerrallinen pääteos, jossa kirjailija kuvaa elämäänsä 1910-luvulta aina 1990-luvulle asti.
Aineiston julkaisemisen Kielipankissa ovat tehneet mahdolliseksi Oulun yliopiston yliopistonlehtori Maija Saviniemen aloitteesta Kalle Päätalon omaiset Riitta Päätalo, Aliisa Oksanen ja Emmi Oksanen sekä Gummerus Kustannus. Aineisto on Kielipankin kautta saatavilla tutkimuskäyttöön.
Iijoki-aineiston ensimmäisen Korp-version on FIN-CLARIN-hankkeessa jäsentänyt Erik Axelson Turku NLP -ryhmän Turku Neural Parser Pipeline (TNPP) -jäsentimellä. Aineisto on myös jäsennetty Kielipankissa TDPP-jäsentimellä, joka on Turku BioNLP -ryhmän kehittämän TDT-jäsentimen pohjalta Kielipankissa edelleen kehitetty jäsennin. TDPP-jäsennyksen pohjalta on luotu lista aineiston sisältämistä saneista, joita jäsennin ei ole kyennyt luotettavasti perusmuotoistamaan. Sen sijaan annotaatiossa on merkintä OTHER_UNK. Suuri osa näistä saneista on murresanoja eri muodoissaan joten murresanoja tutkivan kannattaa etsiä niitä aineistosta pintamuotojen avulla.
Aakkostettu lista OTHER_UNK (txt; 1,5 Mt)
Iijoki-sarjan 200 yleisintä murresanaa (pdf; 31 kt)
Aineistosta voi tehdä monenlaisia hakuja ja tilastoida tuloksia Kielipankin Korp-palvelussa. Korpin laajennettu haku -välilehdellä voi rajata hakuja esimerkiksi valitsemalla hakukriteeriksi teoksen nimen tai ajankohdan ja kirjoittamalla valintakenttään vastaavasti teoksen nimen tai julkaisuvuoden.
Iijoki-sarjassa on 26 osaa, jotka sisältävät yhteensä noin 17000 sivua kaunokirjallista, kirjailijan omaan elämään pohjautuvaa tekstiä:
Huonemiehen poika (1971)
Tammettu virta (1972)
Kunnan jauhot (1973)
Täysi tuntiraha (1974)
Nuoruuden savotat (1975)
Loimujen aikaan (1976)
Ahdistettu maa (1977)
Miinoitettu rauha (1978)
Ukkosen ääni (1979)
Liekkejä laulumailla (1980)
Tuulessa ja tuiskussa (1981)
Tammerkosken sillalla (1982)
Pohjalta ponnistaen (1983)
Nuorikkoa näyttämässä (1984)
Nouseva maa (1985)
Ratkaisujen aika (1986)
Pyynikin rinteessä (1987)
Reissutyössä (1988)
Oman katon alle (1989)
Iijoen kutsu (1990)
Muuttunut selkonen (1991)
Epätietoisuuden talvi (1992)
Iijoelta etelään (1993)
Pato murtuu (1994)
Hyvästi, Iijoki (1995)
Pölhökanto Iijoen törmässä (1998)
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2023110922
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Aineisto on kerätty Valenciassa, Espanjassa (2021-2022) ja Guadalajarassa, Meksikossa (2022-2023) osana Koneen Säätiön rahoittamaa tutkimushanketta ”Sukupuoli, yhteiskunta ja kielenkäyttö: näyttöä Meksikosta ja Espanjasta”. Tavoitteena on ollut luoda vertailukelpoinen korpus kummankin kaupungin puhutusta espanjasta, jotta voidaan tutkia puhujan sukupuolen, yhteiskunnallisten sukupuoliroolien ja -odotusten sekä puhutun kielen vaihtelun välisiä yhteyksiä yhdistämällä sosiolingvistisiä ja sosiaalipsykologisia menetelmiä.
Aineisto koostuu sosiolingvistisistä haastatteluista, jotka on jaettu osiin, joissa sukupuoli joko aktivoituu tai ei aktivoidu diskurssin aiheena, sekä kahdesta konfliktitilanteita simuloivasta roolileikistä, joissa informantti näyttelee yhtä ja haastattelija toista roolia. Informantit edustavat keskiluokkaista sosioekonomista taustaa, ja heidät on jaettu kahteen ikäryhmään, 30-40- ja 60-70-vuotiaisiin. Tarkka kuvaus aineistosta ja sosiolingvistisistä muuttujista on saatavilla aineiston mukana.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024030608
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The data have been collected as part of the research project Gender, society, and language use: evidence from Mexico and Spain funded by Kone Foundation in Valencia, Spain (2021-2022) and Guadalajara, Mexico (2022–2023). The objective has been to create a comparable corpus of spoken Spanish from each city to enable the study of the interconnections between speaker gender, societal gender roles and expectations and variation in spoken language combining sociolinguistic and social psychological methodologies.
The data consist of sociolinguistic interviews divided into parts where gender is vs. is not activated as discourse topic, and two role plays simulating conflictive situations, with the informant playing one role and the interviewer the other role. The informants represent a middle class socioeconomic background and are divided into two age groups, 30–40 and 60–70. A thorough description of the data and the sociolinguistic variables is available with the data.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024030607
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.
The Finnish Broadcast Corpus is divided into two main parts: FBC-1 and FBC-2.
The Finnish Broadcast Corpus 1, FBC-1 contains 65 radio and tv recordings broadcast by YLE – the Finnish Broadcasting Company during the year 2003. Parts of the audio and video material have been annotated either manually or automatically in various levels: e.g., utterance (orthographic transcript), word, phone. FBC-1 was compiled under an initiative called Integrated Resources for Speech Technology and Spoken Language Research in Finland, funded by the Academy of Finland. It is CSC’s first multimodal corpus.
Details of the size of FBC-2 are being updated.
The material in the FBC-1 represents four categories:
* Radio monologues
– broadcast telegraph news (24 × 3 minutes, Nov. 2003)
– broadcast lectures of the week (8 × 14 minutes).
* Radio dialogues
– unfinished recordings of the Moninaisuusfoorumi event (5 × 1h).
* TV monologues
– broadcast main news read by Arvi Lind ja Eeva Polttila (15 × 30 minutes, September – November 2003), including the very last news telecast by Arvi Lind on October 15, 2003
* TV dialogues
– broadcast Aamu-TV programs (13 × ca. 12 minutes, 2003).
Formats:
* WAV audio format
* HQ_Pure audio format (44,1–48 KHz) (supported by the Puh-Editor, which is now obsolete)
* HQ_Pure audio format (16 KHz) (supported by the Puh-Editor, which is now obsolete)
* MPEG2 video
Funding Project:
Puheteknologian ja puheentutkimuksen yhteiset resurssit Suomessa, Integrated Resources for Speech Technology and Spoken Language Research in Finland (SA-Puhe)
Funding Type: National Funds
Funder: Academy of Finland
Funding Country: Finland
Project duration: 01/01/2002 – 12/31/2004
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025032701
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Finnish Conversation Analysis Archive (FCAA) contains audio and video recordings of everyday and institutional conversations in Finnish. When possible, individual resources from the archive are going to be made available via the Language Bank of Finland.
The Finnish Conversation Analysis Archive is one of the largest collections of conversational Finnish speech in Finland. Currently, the archive contains more than 500 hours of audio and video recordings, of which about 100 hours have been transcribed. The corpus consists mainly of everyday speech (e.g., couples’ phone calls, family coffee table conversations and children’s games), but it also includes some institutional speech (business calls, conversations in the hairdressing salon, political TV debates and classroom conversations). Permission has been obtained from the participants and from the recording persons. The identity of the speakers is protected when using the material.
The archive includes not only the recordings and transcripts themselves, but also the bachelor’s theses written on the basis of this data. All the material is in electronic form, but for the time being only locally, at the Muoto-opin Archives in the main building of the University of Helsinki. The most common storage formats for audio files are mp3 and wav. Video material is available in formats such as mpg and wmv. There is a detailed electronic card index of the material.
Researchers may, under certain conditions, have access to the data for research purposes.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025031103
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Helsingin yliopiston Keskusteluntutkimuksen arkisto sisältää ääni- ja videotallenteita suomenkielisistä arkipäivän ja institutionaalisista keskusteluista. Yksittäisiä aineistoja on tarkoitus ryhtyä julkaisemaan Kielipankissa, jos mahdollista. Julkaistavien aineistojen tiedot tulevat näkyviin tällä olevaan luetteloon.
Helsingin yliopiston suomen kielen oppiaineen yhteydessä sijaitseva Keskusteluntutkimuksen arkisto on yksi Suomen laajimmista suomenkielisen vuorovaikutuspuheen kokoelmista. Tällä hetkellä ääni- tai ääni- ja kuvanauhoitettua aineistoa on arkistossa yli 500 tuntia, josta litteroituna on noin 100 tuntia. Pääasiallisesti korpus koostuu arkipuheesta (mm. pariskuntien puheluita, perheen kahvipöytäkeskusteluja ja lasten leikkejä) mutta mukana on myös jonkin verran institutionaalista puhetta (asiointipuheluita, kampaamokeskusteluja, poliittisia tv-väittelyjä ja luokkahuonekeskustelua). Aineistoihin on saatu osallistujien ja nauhoittajan lupa, ja aineistoja käytettäessä puhujien henkilöllisyys suojataan.
Arkiston aineistoon kuuluvat paitsi itse tallenteet ja litteraatit, myös niistä tehdyt kandidaatintyöt. Kaikki aineisto on sähköisessä muodossa, mutta toistaiseksi vain paikallisesti, Muoto-opin arkiston tiloissa Helsingin yliopiston päärakennuksessa. Äänitiedostojen yleisimmät tallennusmuodot ovat mp3 ja wav. Videoaineistoa löytyy muun muassa mpg- ja wmv-muodossa. Aineistosta on yksityiskohtainen sähköinen kortisto.
Tutkijoiden on mahdollista tietyin ehdoin saada aineistoa tutkimuskäyttöön.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031104
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Tekstikorpus sisältää babylonialaisia nuolenpäätekstejä uusbabylonialaiselta, persialaiselta ja hellenistiseltä kaudelta (n. 626-93 eaa.). Yli puolet teksteistä on peräisin edesmenneeltä János Everlingiltä, joka teki uraauurtavaa työtä julkaistessaan translitteroituja nuolenpäätekstejä avoimesti verkossa. Muiden tekstien translitteraatioiden ja käännösten alkuperäiset julkaisijat ovat Johannes Hackl, Bojana Janković, Michael Jursa, Yuval Levavi, Martina Schmidl ja Caroline Waerzeggers, jotka ovat antaneet luvan tekstien julkaisemiseen Korpissa. Korp mahdollistaa monipuolisten hakujen suorittamisen tekstikorpuksessa, ja se esittää tulokset KWIC-konkordanssina (keyword in context). Korp tarjoaa myös tilastotietoja hakutuloksista. Käyttäjän on mahdollista ladata hakutuloksia ja tilastotietoja eri tiedostomuodoissa.
Korpuksen sanoille on automaattisesti lisätty perusmuodot ja sanaluokat Suomen Akatemian rahoittamassa Muinaisen Lähi-idän imperiumit -huippuyksikössä Helsingin yliopistossa (rahoituksen päätösnumerot 298647, 330727 ja 352747). Linda Leinonen, Matias Sakko, Senja Salmi ja Repekka Uotila avustivat translitteraatioiden käsittelyssä ja aineiston kuvailutietojen luomisessa. Tutkimusryhmä on muuntanut alkuperäiset translitteraatiot Oraccin atf-standardin mukaisiksi ja vastaa niistä virheistä, joita translitteraatioihin on syntynyt muunnosprosessin aikana. Tutkijat ovat myös luoneet ja keränneet kuvailutietoja kaikille korpuksen teksteille. Osa kuvailutiedoista on peräisin NaBuCCo-hankkeesta (https://nabucco.acdh.oeaw.ac.at/). Tutkimusryhmä kiittää Kathleen Abrahamia, Michael Jursaa ja Shai Gordinia luvasta käyttää NaBuCCon kuvailutietoja, ja myös Niek Veldhuisia (Berkeley) ja Heidi Jauhiaista (Helsinki) heidän avustaan hankkeen eri vaiheissa.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031102
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Achemenet-hanke (http://www.achemenet.com/) julkaisee translitteraatioita ja käännöksiä teksteistä, jotka on kirjoitettu Persian akhaimenidien valtakunnassa (550-330 eaa.). Kielipankin Korpissa oleva versio Achemenetista sisältää babylonialaiset nuolenpäätekstit, jotka olivat saatavilla Achemenetissa joulukuussa 2020. Tekstit on julkaistu Korpissa Achemenet-hankkeen luvalla. Korp mahdollistaa monipuolisten hakujen suorittamisen tekstikorpuksessa, ja se esittää tulokset KWIC-konkordanssina (keyword in context). Korp tarjoaa myös tilastotietoja hakutuloksista. Käyttäjän on mahdollista ladata hakutuloksia ja tilastotietoja eri tiedostomuodoissa.
Korpuksen sanoille on automaattisesti lisätty perusmuodot ja sanaluokat Suomen Akatemian rahoittamassa Muinaisen Lähi-idän imperiumit -huippuyksikössä Helsingin yliopistossa (rahoituksen päätösnumerot 298647, 330727 ja 352747). Tutkimusryhmä on muuntanut alkuperäiset translitteraatiot Oraccin atf-standardin mukaisiksi ja vastaa niistä virheistä, joita translitteraatioihin on syntynyt muunnosprosessin aikana. Linda Leinonen, Matias Sakko, Senja Salmi ja Repekka Uotila avustivat translitteraatioiden käsittelyssä ja aineiston kuvailutietojen luomisessa. Tutkimusryhmä kiittää Niek Veldhuisia (Berkeley) ja Heidi Jauhiaista (Helsinki) heidän avustaan hankkeen eri vaiheissa.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031301
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The corpus contains Babylonian cuneiform texts from the Neo-Babylonian, Persian, and Hellenistic periods (c. 626-93 BCE). More than half of the transliterated texts are legacy data of the late János Everling, who was one of the pioneers in making transliterated cuneiform texts available online. The other texts have been transliterated and translated by Johannes Hackl, Bojana Janković, Michael Jursa, Yuval Levavi, Martina Schmidl, and Caroline Waerzeggers, who gave permission to publish their texts on Korp. Korp allows extensive searches on the texts and presents the results as a KWIC concordance list. It also offers statistical information on the search results and enables the user to download them.
The texts have been automatically lemmatized and POS-tagged at the Centre of Excellence in Ancient Near Eastern Empires (University of Helsinki), funded by the Research Council of Finland (decision numbers 298647, 330727, and 352747). Linda Leinonen, Matias Sakko, Senja Salmi, and Repekka Uotila assisted in cleaning the data and creating metadata. The research group has converted the original transliterations into Oracc atf, and is naturally responsible for any errors introduced into the transliterations during the conversion. They have created and gathered some basic metadata for all the texts in this corpus. Some metadata was created using data from the NaBuCCo project (https://nabucco.acdh.oeaw.ac.at/). The research group thanks Kathleen Abraham, Michael Jursa, and Shai Gordin for giving access to the NaBuCCo metadata. They also thank Niek Veldhuis (Berkeley) and Heidi Jauhiainen (Helsinki) for their help at various stages of the project.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025031101
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Achemenet project provides transliterations and translations of documents written in the Achaemenid Persian Empire (550-330 BCE). The Korp version of Achemenet contains the Babylonian cuneiform texts available on Achemenet in December 2020. The texts have been published in Korp with the permission of the Achemenet project. Korp allows extensive searches on the texts and presents the results as a KWIC concordance list. It also offers statistical information on the search results and enables the user to download them.
The texts have been automatically lemmatized and POS-tagged at the Centre of Excellence in Ancient Near Eastern Empires (University of Helsinki), funded by the Research Council of Finland (decision numbers 298647, 330727, and 352747). The research group has converted the original transliterations into Oracc atf, and is naturally responsible for any errors introduced into the transliterations during the conversion. Linda Leinonen, Matias Sakko, Senja Salmi, and Repekka Uotila assisted in cleaning the data and creating metadata. The research group thanks Niek Veldhuis (Berkeley) and Heidi Jauhiainen (Helsinki) for their help at various stages of the project.
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023062103
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Location | Cite | Resource group and help | Apply | Publication year | Support level |
These resource versions are not yet available in the Language Bank of Finland.
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
---|---|---|---|---|---|---|---|---|
Shortname | Name and metadata | License | Formats | Support level | Contact Person | Resource group and help | Location | Other information |
The Giellagas Corpus of Spoken Saami Languages includes three subcorpora of Sámi languages spoken in Finland: Samples of Northern Saami (currently available, see above), and Aanaar (Inari) Saami and Skolt Saami, both of which will be made available at a later stage.
Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).
This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025021321
Finnish-nertag is a named entity recogniser for Finnish. This tool implements a pipeline in which FiNER is the ner-tagging stage. Users can install the tools on their systems or run them in the local directory without installing.
FiNER is a rule-based named-entity recognition tool for Finnish, developed at the University of Helsinki for the FIN-CLARIN consortium. It uses tools based on the CRF-based tagger FinnPos, the Finnish morphology package OmorFi, and the FinnTreeBank corpus for tokenization and morphological analysis, and a set of pattern-matching (pmatch
) rules for recognizing and categorizing proper names and other expressions in plaintext input.
The pattern-matching rules are built and compiled using the Helsinki Finite-State Technology toolkit.
More information and a technical documentation can be found here.
Finnish-nertag is offered in CSC’s computing environment. It is also available for download as part of the software package finnish-tagtools, whose current version number is 1.6.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2025021801
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Sijainti | Viite | Aineistoryhmä ja ohje | Hae käyttöoikeutta | Julkaisuvuosi | Tukitaso |
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
---|---|---|---|---|---|---|---|---|
Lyhenne | Nimi ja kuvailutiedot | Lisenssi | Muoto | Tukitaso | Contact Person | Sijainti | Aineistoryhmä ja ohje | Muu tieto |
Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).
Tarkemmat tämän korpuksen toisen osan videoiden kokoamisesta ja koosta löytyvät täältä.
Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2021092401
Last modified on 2025-01-30