ORACC – Open Richly Annotated Cuneiform Corpus

Suomeksi

Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

Open Richly Annotated Cuneiform Corpus (Oracc) brings together the work of several Assyriological projects to publish online editions of cuneiform texts. The Korp version of Oracc allows extensive searches on the texts and presents the results as a KWIC concordance list. Korp also offers statistical information and comparison of the search results. Downloading the query results is possible as well.

Lists of texts

The second column in the list indicates if the text has been lemmatized in Oracc.

License and access

  • All versions of this resource are available publicly (PUB). Click on the license image to see the resource-specific license text.

Additional documentation

For how to use Oracc in Korp, please see the Oracc in Korp user guide.

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2019111601

 

ORACC – Open Richly Annotated Cuneiform Corpus

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Open Richly Annotated Cuneiform Corpus (Oracc) on nuolenpäätekstien verkkoversioiden kokoelma, joka on syntynyt useiden assyriologisten hankkeiden työn tuloksena. Oracc-aineiston Korp-versioissa teksteistä voi tehdä laajoja hakuja ja saada tulokset KWIC-konkordanssilistauksina, jotka voi ladata omalle koneelle. Korpilla voi myös kerätä tilastotietoja ja vertailla hakutuloksia. 

Tekstiluettelot

Luettelon toisessa sarakkeessa on tieto siitä, onko kyseinen teksti Oracc-aineistossa perusmuotoistettuna.

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

Tämän aineiston versiot ovat saatavilla julkisesti (PUB). Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Lisädokumentaatio

Tarkempia ohjeita Oracc-aineiston Korp-versioiden käyttöön löytyy englanninkielisestä ohjeesta Oracc in Korp user guide.

 

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025061821

Donera Prat: The Corpus of Donated Finland-Swedish Speech (doneraprat, for commercial use)

Suomeksi

 

Are you a researcher? Information about the Donera Prat datasets for academic research use is available on another page.


Currently available versions of this resource

The following datasets are available for companies and non-academic organizations:

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

The following resource versions will be made available later in the Language Bank of Finland for commercial use.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).

License and access

The resource will be made available via the download service of the Language Bank of Finland, where even companies and non-academic organizations will be able to access them under restricted license terms and conditions.

The services of the Language Bank are directed at academic researchers. For companies and non-academic organizations, access to Donera Prat datasets may be acquired for a fee.

Further information can be requested by email at lahjoita-puhetta@helsinki.fi.

How to obtain access to use the material? Preliminary instructions for companies and non-academic organizations

NB: The Donera Prat dataset is not yet available for commercial use. The instructions and pricing will be updated on this page.

In accordance with the specific terms and conditions of the Donera Prat resource, it is also possible to grant access to the data for commercial and non-academic purposes. However, in this case, a separate license agreement between the University of Helsinki and the company or organization is required. When the agreement is signed and the payment has been made, access can be granted to the representative authorized by the user organization.

  1. Companies and organizations interested in using the data may contact us for further information at lahjoita-puhetta@helsinki.fi.
  2. A copy of the general terms included in the agreements is provided online for reference.
  3. Before acquiring a paid dataset, the company may obtain access to a small sample material free of charge. However, access to the sample material is subject to the same terms and conditions as the paid versions of the material, and an agreement is needed.
  4. When the agreement has been signed, the representative authorized by the company/organization may apply for access to the desired dataset (either to the free sample or to one of the paid datasets) via the Language Bank Rights (LBR) system. The representative may log in by using an eDuuni identity.
  5. In connection with the application, the company applying for the right of use must provide a public link to their Privacy Notice (or similar document) regarding the processing of the personal data contained in the material. This information will be published on the website of the Language Bank.
    Instructions for publishing the Privacy Notice
  6. The license fee must be paid before access to the resource can be granted. Instructions for payment can be requested by email at lahjoita-puhetta@helsinki.fi.
  7. When the application for access is approved in the Language Bank Rights, the applicant can access the data via the same user identity that was used in the application process.

When applying for the use of paid material, it must be shown that the license fee has been paid.


Additional documentation

A brief summary of the metadata of the recordings included in the dataset can be found here.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024111126

Donera Prat: Suomenruotsin lahjoitettu puheaineisto (doneraprat, yrityskäyttöön)

In English

Oletko tutkija? Lahjoita puhetta -aineistot akateemiseen tutkimuskäyttöön löytyvät toiselta sivulta.


Saatavilla olevat versiot

Tästä aineistosta tarjotaan yritysten ja ei-akateemisten organisaatioiden käyttöön seuraavat paketit:

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot ovat tulossa myöhemmin Kielipankin kautta saataville yritysten ja ei-akateemisten organisaatioiden käyttöön.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

Aineisto tulee myöhemmin saataville tiedostopaketteina Kielipankin latauspalveluun, josta myös luvan hankkineet yritykset ja ei-akateemiset organisaatiot pääsevät niitä käyttämään.

Kielipankin palvelut on lähtökohtaisesti suunnattu vain tutkijoille. Yrityksille ja ei-akateemisille organisaatioille aineiston käyttö on näyteaineistoa lukuunottamatta maksullista.

Lisätietoja saa osoitteesta lahjoita-puhetta@helsinki.fi.

Kuinka aineistoa pääsee käyttämään? Alustavat ohjeet yrityksille

Huom. Suomenruotsin aineisto ei vielä ole saatavilla yrityksille. Maksullista aineistoa koskevat tiedot päivitetään myöhemmin.

Donera prat -aineiston käyttöehtojen mukaisesti käyttöoikeuksia voidaan myöntää myös yrityksille tai ei-akateemisille organisaatioille. Kunkin ei-akateemisen käyttäjätahon kanssa tehdään kirjallinen sopimus halutun aineiston käytöstä. Kun sopimuksen mukaiset velvoitteet on suoritettu, pääsy aineistoon voidaan myöntää yrityksen valtuuttamalle edustajalle.

  1. Aineiston käyttämisestä kiinnostuneet yritykset voivat ottaa yhteyttä osoitteeseen lahjoita-puhetta@helsinki.fi.
  2. Yrityksiä koskevien lisenssisopimusten yleisiin ehtoihin voi tutustua täällä.
  3. Ennen maksullisen aineiston hankkimista yritys voi saada veloituksetta pääsyn pieneen näyteaineistoon. Myös näyteaineiston käsittelyä koskevat samat käyttöehdot kuin aineiston maksullisia versioita, joten erillinen sopimus tarvitaan.
  4. Kun lisenssisopimus on tehty, yrityksen valtuuttama edustaja voi hakea pääsyä joko näyte- tai varsinaisen aineistoon Kielipankin oikeudet -palvelussa (LBR, Language Bank Rights).
    Palvelu edellyttää hakijan sähköistä tunnistautumista eDuunin välittämällä identiteetillä tai jonkin luottamusverkostoihin kuuluvan akateemisen organisaation myöntämällä käyttäjätunnuksella. Tarvittaessa pääsyhakemuksen tekijä voi luoda itselleen eDuuni-identiteetin, jolla hän voi kirjautua palveluun. Identiteetin vahvistamiseen tarvitaan hakijan omassa käytössä oleva sähköpostiosoite.
    Huom. eDuuni-identiteetin luominen on ilmaista! Yrityksen ei siis tarvitse ostaa muita eDuunin kautta tarjottuja palveluita.
  5. Pääsyhakemuksen yhteydessä yrityksen on ilmoitettava oman hankkeensa julkinen otsikko sekä linkki aineistoon sisältyvien henkilötietojen käsittelyä koskevaan julkiseen tietosuojailmoitukseen. Tiedot julkaistaan Kielipankin verkkosivuilla.
    Ohjeita tietosuojailmoituksen tekemiseen
  6. Sopimuksen mukaisen lisenssimaksun on oltava suoritettuna ennen kuin pääsy maksulliseen aineistoon voidaan myöntää. Maksuohjeet saa osoitteesta lahjoita-puhetta@helsinki.fi.
  7. Kun pääsyhakemus on hyväksytty, hakemuksen tehnyt henkilö saa pääsyn aineistoon sillä käyttäjätunnuksella, jolla hakemus tehtiin.

 

Lisädokumentaatio

Lyhyt yhteenveto aineistoon sisältyvien tallenteiden metatiedoista löytyy täältä.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024111127

Donera Prat: Suomenruotsin lahjoitettu puheaineisto (doneraprat, tutkimuskäyttöön)

In English

 

Donera prat -aineistot yrityskäyttöön ja ei-akateemisille organisaatioille: katso lisätiedot toiselta sivulta.


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

  • Tämän aineiston versioiden käyttäminen edellyttää henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Tämän aineiston versioissa voi olla henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin sisältyy erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.)

Lisädokumentaatio

Lyhyt yhteenveto aineistoon sisältyvien tallenteiden metatiedoista löytyy täältä.

Litteroijille annetut ohjeet (pdf)


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024111124

Donera Prat: The Corpus of Donated Finland-Swedish Speech (doneraprat, for academic research use)

Suomeksi

 

Donera Prat datasets for commercial use: see further details on another page


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).

License and access

  • Access to versions of this resource requires individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • All versions of this resource may contain personal data (license condition +PRIV). The license includes additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.)

Additional documentation

A brief summary of the metadata of the recordings included in the dataset can be found here.

Instructions given to the transcribers (pdf; in Finnish)

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024111123

The University of Oulu Päätalo collection (paatalo)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The University of Oulu Päätalo collection contains the literary output of the author Kalle Päätalo published so far. The works are to be made available via the Language Bank of Finland as several text corpora, the first of which was the Iijoki corpus.

Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).

License and access

The available resources can be accessed by logging in as an academic user (”ACA”). Click on the license image to see the resource-specific license text.

 

Works in the collection

Iijoki series

The Päätalo collection of the University of Oulu includes works by the author Kalle Päätalo (November 11, 1919 – November 20, 2000). The Iijoki series, composed of 26 works, is Päätalo’s autobiographical main work, depicting his life from the 1910s to the 1990s.

At the initiative of University Lecturer Maija Saviniemi of the University of Oulu, Kalle Päätalo’s relatives Riitta Päätalo, Aliisa Oksanen and Emmi Oksanen as well as Gummerus Kustannus have made it possible to publish the material in the Language Bank. The material is available through the Language Bank of Finland for research purposes.

In the FIN-CLARIN project, the first Korp version of the Iijoki dataset was structured by Erik Axelson with the Turku Neural Parser Pipeline (TNPP) parser of the Turku NLP group. The data has also been structured in Kielipankki with the TDPP parser, which is based on the TDT parser developed by the Turku BioNLP group and further developed in Kielipankki. Based on the TDPP parsing, a list of elements was created that the parser could not reliably determine in their basic form. Instead, the annotation is marked as OTHER_UNK. A large number of these words are dialect words in different forms, so it is useful to look for them in the data using their basic forms.

Aakkostettu lista OTHER_UNK (txt; 1,5 Mt)
Iijoki-sarjan 200 yleisintä murresanaa (pdf; 31 kt)

A wide range of searches and statistics on the material can be made in the Korp service of the Language Bank of Finland. The Korp Extended Search tab can be used to narrow searches, for example, by selecting the title or date of a work as a search criterion and entering the title or year of publication in the selection field.

The Iijoki series consists of 26 volumes, containing around 17 000 pages of fictional text based on the author’s own life:
Huonemiehen poika (1971)
Tammettu virta (1972)
Kunnan jauhot (1973)
Täysi tuntiraha (1974)
Nuoruuden savotat (1975)
Loimujen aikaan (1976)
Ahdistettu maa (1977)
Miinoitettu rauha (1978)
Ukkosen ääni (1979)
Liekkejä laulumailla (1980)
Tuulessa ja tuiskussa (1981)
Tammerkosken sillalla (1982)
Pohjalta ponnistaen (1983)
Nuorikkoa näyttämässä (1984)
Nouseva maa (1985)
Ratkaisujen aika (1986)
Pyynikin rinteessä (1987)
Reissutyössä (1988)
Oman katon alle (1989)
Iijoen kutsu (1990)
Muuttunut selkonen (1991)
Epätietoisuuden talvi (1992)
Iijoelta etelään (1993)
Pato murtuu (1994)
Hyvästi, Iijoki (1995)
Pölhökanto Iijoen törmässä (1998)


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023110921

Oulun yliopiston Päätalo-kokoelma (paatalo)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon tähän asti julkaistun kirjallisen tuotannon. Teoksia tuodaan saataville Kielipankin kautta useina kokonaisuuksina, joista ensimmäinen oli Iijoki-korpus.

Toisessa vaiheessa on tarkoitus julkaista korpusmuodossa seuraavat teokset:

  • Ihmisiä telineillä (1958)
  • Koillismaa-sarjan osat:
    • Koillismaa (1960)
    • Selkosen kansaa (1962)
    • Myrsky Koillismaassa (1963)
    • Myrskyn jälkeen (1965)
    • Mustan lumen talvi (1969)

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Lisenssi ja pääsy aineistoon

Tämän aineiston versioihin täytyy kirjautua akateemisena käyttäjänä (ACA). Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Kokoelman teokset

Iijoki-sarja

Oulun yliopiston Päätalo-kokoelma sisältää kirjailija Kalle Päätalon (11.11.1919-20.11.2000) teoksia. Iijoki-sarja on 26 teoksesta koostuva Päätalon omaelämäkerrallinen pääteos, jossa kirjailija kuvaa elämäänsä 1910-luvulta aina 1990-luvulle asti.

Aineiston julkaisemisen Kielipankissa ovat tehneet mahdolliseksi Oulun yliopiston yliopistonlehtori Maija Saviniemen aloitteesta Kalle Päätalon omaiset Riitta Päätalo, Aliisa Oksanen ja Emmi Oksanen sekä Gummerus Kustannus. Aineisto on Kielipankin kautta saatavilla tutkimuskäyttöön.

Iijoki-aineiston ensimmäisen Korp-version on FIN-CLARIN-hankkeessa jäsentänyt Erik Axelson Turku NLP -ryhmän Turku Neural Parser Pipeline (TNPP) -jäsentimellä. Aineisto on myös jäsennetty Kielipankissa TDPP-jäsentimellä, joka on Turku BioNLP -ryhmän kehittämän TDT-jäsentimen pohjalta Kielipankissa edelleen kehitetty jäsennin. TDPP-jäsennyksen pohjalta on luotu lista aineiston sisältämistä saneista, joita jäsennin ei ole kyennyt luotettavasti perusmuotoistamaan. Sen sijaan annotaatiossa on merkintä OTHER_UNK. Suuri osa näistä saneista on murresanoja eri muodoissaan joten murresanoja tutkivan kannattaa etsiä niitä aineistosta pintamuotojen avulla.

Aakkostettu lista OTHER_UNK (txt; 1,5 Mt)
Iijoki-sarjan 200 yleisintä murresanaa (pdf; 31 kt)

Aineistosta voi tehdä monenlaisia hakuja ja tilastoida tuloksia Kielipankin Korp-palvelussa. Korpin laajennettu haku -välilehdellä voi rajata hakuja esimerkiksi valitsemalla hakukriteeriksi teoksen nimen tai ajankohdan ja kirjoittamalla valintakenttään vastaavasti teoksen nimen tai julkaisuvuoden.

Iijoki-sarjassa on 26 osaa, jotka sisältävät yhteensä noin 17000 sivua kaunokirjallista, kirjailijan omaan elämään pohjautuvaa tekstiä:
Huonemiehen poika (1971)
Tammettu virta (1972)
Kunnan jauhot (1973)
Täysi tuntiraha (1974)
Nuoruuden savotat (1975)
Loimujen aikaan (1976)
Ahdistettu maa (1977)
Miinoitettu rauha (1978)
Ukkosen ääni (1979)
Liekkejä laulumailla (1980)
Tuulessa ja tuiskussa (1981)
Tammerkosken sillalla (1982)
Pohjalta ponnistaen (1983)
Nuorikkoa näyttämässä (1984)
Nouseva maa (1985)
Ratkaisujen aika (1986)
Pyynikin rinteessä (1987)
Reissutyössä (1988)
Oman katon alle (1989)
Iijoen kutsu (1990)
Muuttunut selkonen (1991)
Epätietoisuuden talvi (1992)
Iijoelta etelään (1993)
Pato murtuu (1994)
Hyvästi, Iijoki (1995)
Pölhökanto Iijoen törmässä (1998)

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2023110922

Korpus kielen ja sukupuolen tutkimiseen Meksikossa ja Espanjassa (CoLaGe) (colage)

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Aineisto on kerätty Valenciassa, Espanjassa (2021-2022) ja Guadalajarassa, Meksikossa (2022-2023) osana Koneen Säätiön rahoittamaa tutkimushanketta ”Sukupuoli, yhteiskunta ja kielenkäyttö: näyttöä Meksikosta ja Espanjasta”. Tavoitteena on ollut luoda vertailukelpoinen korpus kummankin kaupungin puhutusta espanjasta, jotta voidaan tutkia puhujan sukupuolen, yhteiskunnallisten sukupuoliroolien ja -odotusten sekä puhutun kielen vaihtelun välisiä yhteyksiä yhdistämällä sosiolingvistisiä ja sosiaalipsykologisia menetelmiä.

Aineisto koostuu sosiolingvistisistä haastatteluista, jotka on jaettu osiin, joissa sukupuoli joko aktivoituu tai ei aktivoidu diskurssin aiheena, sekä kahdesta konfliktitilanteita simuloivasta roolileikistä, joissa informantti näyttelee yhtä ja haastattelija toista roolia. Informantit edustavat keskiluokkaista sosioekonomista taustaa, ja heidät on jaettu kahteen ikäryhmään, 30-40- ja 60-70-vuotiaisiin. Tarkka kuvaus aineistosta ja sosiolingvistisistä muuttujista on saatavilla aineiston mukana.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joihinkin tämän aineiston versioihin voi sisältyä henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024030608

Corpus for the study of Language and Gender in Mexico and Spain (CoLaGe) (colage)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The data have been collected as part of the research project Gender, society, and language use: evidence from Mexico and Spain funded by Kone Foundation in Valencia, Spain (2021-2022) and Guadalajara, Mexico (2022–2023). The objective has been to create a comparable corpus of spoken Spanish from each city to enable the study of the interconnections between speaker gender, societal gender roles and expectations and variation in spoken language combining sociolinguistic and social psychological methodologies.

The data consist of sociolinguistic interviews divided into parts where gender is vs. is not activated as discourse topic, and two role plays simulating conflictive situations, with the informant playing one role and the interviewer the other role. The informants represent a middle class socioeconomic background and are divided into two age groups, 30–40 and 60–70. A thorough description of the data and the sociolinguistic variables is available with the data.

License and access

  • To use the audio material, you are required to apply for individual access rights (RES). Some versions of this resource may only require you to log in as an academic user (ACA).
  • Click on the license image to see the resource-specific license text.
  • All versions of this resource will probably contain personal data (license condition +PRIV). Therefore, the license includes additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2024030607

Finnish Broadcast Corpus

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Content corresponding to the previous LAT version of the material is now available in the Language Bank download service

The Language Bank LAT platform was discontinued at the end of 2020, and this material is no longer accessible via the LAT service. The corresponding content is available in downloadable format. The data can therefore be further explored and processed using tools such as ELAN and Praat.

Resource information

The Finnish Broadcast Corpus is divided into two main parts: FBC-1 and FBC-2.

The Finnish Broadcast Corpus 1, FBC-1 contains 65 radio and tv recordings broadcast by YLE – the Finnish Broadcasting Company during the year 2003. Parts of the audio and video material have been annotated either manually or automatically in various levels: e.g., utterance (orthographic transcript), word, phone. FBC-1 was compiled under an initiative called Integrated Resources for Speech Technology and Spoken Language Research in Finland, funded by the Academy of Finland. It is CSC’s first multimodal corpus.

Details of the size of FBC-2 are being updated.

The material in the FBC-1 represents four categories:
* Radio monologues
– broadcast telegraph news (24 × 3 minutes, Nov. 2003)
– broadcast lectures of the week (8 × 14 minutes).
* Radio dialogues
– unfinished recordings of the Moninaisuusfoorumi event (5 × 1h).
* TV monologues
– broadcast main news read by Arvi Lind ja Eeva Polttila (15 × 30 minutes, September – November 2003), including the very last news telecast by Arvi Lind on October 15, 2003
* TV dialogues
– broadcast Aamu-TV programs (13 × ca. 12 minutes, 2003).

Formats:
* WAV audio format
* HQ_Pure audio format (44,1–48 KHz) (supported by the Puh-Editor, which is now obsolete)
* HQ_Pure audio format (16 KHz) (supported by the Puh-Editor, which is now obsolete)
* MPEG2 video

Funding Project:
Puheteknologian ja puheentutkimuksen yhteiset resurssit Suomessa, Integrated Resources for Speech Technology and Spoken Language Research in Finland (SA-Puhe)
Funding Type: National Funds
Funder: Academy of Finland
Funding Country: Finland
Project duration: 01/01/2002 – 12/31/2004

License and access

  • This resource requires you to apply for individual access rights (RES). Apply
  • Click on the license image to see the resource-specific license text.

This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025032701

Finnish Conversation Analysis Archive (FCAA)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The Finnish Conversation Analysis Archive (FCAA) contains audio and video recordings of everyday and institutional conversations in Finnish. When possible, individual resources from the archive are going to be made available via the Language Bank of Finland.

The Finnish Conversation Analysis Archive is one of the largest collections of conversational Finnish speech in Finland. Currently, the archive contains more than 500 hours of audio and video recordings, of which about 100 hours have been transcribed. The corpus consists mainly of everyday speech (e.g., couples’ phone calls, family coffee table conversations and children’s games), but it also includes some institutional speech (business calls, conversations in the hairdressing salon, political TV debates and classroom conversations). Permission has been obtained from the participants and from the recording persons. The identity of the speakers is protected when using the material.

The archive includes not only the recordings and transcripts themselves, but also the bachelor’s theses written on the basis of this data. All the material is in electronic form, but for the time being only locally, at the Muoto-opin Archives in the main building of the University of Helsinki. The most common storage formats for audio files are mp3 and wav. Video material is available in formats such as mpg and wmv. There is a detailed electronic card index of the material.

Researchers may, under certain conditions, have access to the data for research purposes.

License and access

  • When parts of the material are published in the Language Bank of Finland, some versions of this resource may be available publicly (PUB), whereas others might require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • Some or all versions of this resource contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data obtained via the Language Bank of Finland, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.
  • Different versions/subcorpora may be published in the Language Bank of Finland. Some versions may become available via the  download service, some via the Korp concordance tool. The links to the different versions will be added to the list of resources on this page.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025031103

Keskusteluntutkimuksen arkisto

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Helsingin yliopiston Keskusteluntutkimuksen arkisto sisältää ääni- ja videotallenteita suomenkielisistä arkipäivän ja institutionaalisista keskusteluista. Yksittäisiä aineistoja on tarkoitus ryhtyä julkaisemaan Kielipankissa, jos mahdollista. Julkaistavien aineistojen tiedot tulevat näkyviin tällä olevaan luetteloon.

Helsingin yliopiston suomen kielen oppiaineen yhteydessä sijaitseva Keskusteluntutkimuksen arkisto on yksi Suomen laajimmista suomenkielisen vuorovaikutuspuheen kokoelmista. Tällä hetkellä ääni- tai ääni- ja kuvanauhoitettua aineistoa on arkistossa yli 500 tuntia, josta litteroituna on noin 100 tuntia. Pääasiallisesti korpus koostuu arkipuheesta (mm. pariskuntien puheluita, perheen kahvipöytäkeskusteluja ja lasten leikkejä) mutta mukana on myös jonkin verran institutionaalista puhetta (asiointipuheluita, kampaamokeskusteluja, poliittisia tv-väittelyjä ja luokkahuonekeskustelua). Aineistoihin on saatu osallistujien ja nauhoittajan lupa, ja aineistoja käytettäessä puhujien henkilöllisyys suojataan.

Arkiston aineistoon kuuluvat paitsi itse tallenteet ja litteraatit, myös niistä tehdyt kandidaatintyöt. Kaikki aineisto on sähköisessä muodossa, mutta toistaiseksi vain paikallisesti, Muoto-opin arkiston tiloissa Helsingin yliopiston päärakennuksessa. Äänitiedostojen yleisimmät tallennusmuodot ovat mp3 ja wav. Videoaineistoa löytyy muun muassa mpg- ja wmv-muodossa. Aineistosta on yksityiskohtainen sähköinen kortisto.

Tutkijoiden on mahdollista tietyin ehdoin saada aineistoa tutkimuskäyttöön.

Lisenssi ja pääsy aineistoon

  • Kun aineistoja julkaistaan Kielipankissa, jotkin osakorpukset ovat ehkä saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Joihinkin tämän aineiston versioihin sisältyy henkilötietoja (lisenssissä on merkintä +PRIV). Lisenssiin voi silloin sisältyä myös erityisiä tietosuojaehtoja, joita sinun on noudatettava. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031104

BALT: Babylonian Administrative and Legal Texts

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Tekstikorpus sisältää babylonialaisia nuolenpäätekstejä uusbabylonialaiselta, persialaiselta ja hellenistiseltä kaudelta (n. 626-93 eaa.). Yli puolet teksteistä on peräisin edesmenneeltä János Everlingiltä, joka teki uraauurtavaa työtä julkaistessaan translitteroituja nuolenpäätekstejä avoimesti verkossa. Muiden tekstien translitteraatioiden ja käännösten alkuperäiset julkaisijat ovat Johannes Hackl, Bojana Janković, Michael Jursa, Yuval Levavi, Martina Schmidl ja Caroline Waerzeggers, jotka ovat antaneet luvan tekstien julkaisemiseen Korpissa. Korp mahdollistaa monipuolisten hakujen suorittamisen tekstikorpuksessa, ja se esittää tulokset KWIC-konkordanssina (keyword in context). Korp tarjoaa myös tilastotietoja hakutuloksista. Käyttäjän on mahdollista ladata hakutuloksia ja tilastotietoja eri tiedostomuodoissa.

Korpuksen sanoille on automaattisesti lisätty perusmuodot ja sanaluokat Suomen Akatemian rahoittamassa Muinaisen Lähi-idän imperiumit -huippuyksikössä Helsingin yliopistossa (rahoituksen päätösnumerot 298647, 330727 ja 352747). Linda Leinonen, Matias Sakko, Senja Salmi ja Repekka Uotila avustivat translitteraatioiden käsittelyssä ja aineiston kuvailutietojen luomisessa. Tutkimusryhmä on muuntanut alkuperäiset translitteraatiot Oraccin atf-standardin mukaisiksi ja vastaa niistä virheistä, joita translitteraatioihin on syntynyt muunnosprosessin aikana. Tutkijat ovat myös luoneet ja keränneet kuvailutietoja kaikille korpuksen teksteille. Osa kuvailutiedoista on peräisin NaBuCCo-hankkeesta (https://nabucco.acdh.oeaw.ac.at/). Tutkimusryhmä kiittää Kathleen Abrahamia, Michael Jursaa ja Shai Gordinia luvasta käyttää NaBuCCon kuvailutietoja, ja myös Niek Veldhuisia (Berkeley) ja Heidi Jauhiaista (Helsinki) heidän avustaan hankkeen eri vaiheissa.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031102

Achemenetin babylonialaiset tekstit

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.

LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Achemenet-hanke (http://www.achemenet.com/) julkaisee translitteraatioita ja käännöksiä teksteistä, jotka on kirjoitettu Persian akhaimenidien valtakunnassa (550-330 eaa.). Kielipankin Korpissa oleva versio Achemenetista sisältää babylonialaiset nuolenpäätekstit, jotka olivat saatavilla Achemenetissa joulukuussa 2020. Tekstit on julkaistu Korpissa Achemenet-hankkeen luvalla. Korp mahdollistaa monipuolisten hakujen suorittamisen tekstikorpuksessa, ja se esittää tulokset KWIC-konkordanssina (keyword in context). Korp tarjoaa myös tilastotietoja hakutuloksista. Käyttäjän on mahdollista ladata hakutuloksia ja tilastotietoja eri tiedostomuodoissa.

Korpuksen sanoille on automaattisesti lisätty perusmuodot ja sanaluokat Suomen Akatemian rahoittamassa Muinaisen Lähi-idän imperiumit -huippuyksikössä Helsingin yliopistossa (rahoituksen päätösnumerot 298647, 330727 ja 352747). Tutkimusryhmä on muuntanut alkuperäiset translitteraatiot Oraccin atf-standardin mukaisiksi ja vastaa niistä virheistä, joita translitteraatioihin on syntynyt muunnosprosessin aikana. Linda Leinonen, Matias Sakko, Senja Salmi ja Repekka Uotila avustivat translitteraatioiden käsittelyssä ja aineiston kuvailutietojen luomisessa. Tutkimusryhmä kiittää Niek Veldhuisia (Berkeley) ja Heidi Jauhiaista (Helsinki) heidän avustaan hankkeen eri vaiheissa.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy kirjautua akateemisena käyttäjänä (ACA) tai hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2025031301

BALT: Babylonian Administrative and Legal Texts

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The corpus contains Babylonian cuneiform texts from the Neo-Babylonian, Persian, and Hellenistic periods (c. 626-93 BCE). More than half of the transliterated texts are legacy data of the late János Everling, who was one of the pioneers in making transliterated cuneiform texts available online. The other texts have been transliterated and translated by Johannes Hackl, Bojana Janković, Michael Jursa, Yuval Levavi, Martina Schmidl, and Caroline Waerzeggers, who gave permission to publish their texts on Korp. Korp allows extensive searches on the texts and presents the results as a KWIC concordance list. It also offers statistical information on the search results and enables the user to download them.

The texts have been automatically lemmatized and POS-tagged at the Centre of Excellence in Ancient Near Eastern Empires (University of Helsinki), funded by the Research Council of Finland (decision numbers 298647, 330727, and 352747). Linda Leinonen, Matias Sakko, Senja Salmi, and Repekka Uotila assisted in cleaning the data and creating metadata. The research group has converted the original transliterations into Oracc atf, and is naturally responsible for any errors introduced into the transliterations during the conversion. They have created and gathered some basic metadata for all the texts in this corpus. Some metadata was created using data from the NaBuCCo project (https://nabucco.acdh.oeaw.ac.at/). The research group thanks Kathleen Abraham, Michael Jursa, and Shai Gordin for giving access to the NaBuCCo metadata. They also thank Niek Veldhuis (Berkeley) and Heidi Jauhiainen (Helsinki) for their help at various stages of the project.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others might require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025031101

Achemenet Babylonian texts

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The Achemenet project provides transliterations and translations of documents written in the Achaemenid Persian Empire (550-330 BCE). The Korp version of Achemenet contains the Babylonian cuneiform texts available on Achemenet in December 2020. The texts have been published in Korp with the permission of the Achemenet project. Korp allows extensive searches on the texts and presents the results as a KWIC concordance list. It also offers statistical information on the search results and enables the user to download them.

The texts have been automatically lemmatized and POS-tagged at the Centre of Excellence in Ancient Near Eastern Empires (University of Helsinki), funded by the Research Council of Finland (decision numbers 298647, 330727, and 352747). The research group has converted the original transliterations into Oracc atf, and is naturally responsible for any errors introduced into the transliterations during the conversion. Linda Leinonen, Matias Sakko, Senja Salmi, and Repekka Uotila assisted in cleaning the data and creating metadata. The research group thanks Niek Veldhuis (Berkeley) and Heidi Jauhiainen (Helsinki) for their help at various stages of the project.

License and access

  • Some versions of this resource are available publicly (PUB), whereas others might require you to log in as an academic user (ACA) or to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2023062103

The Giellagas Corpus of Spoken Saami Languages (giellagas)

Suomeksi


Currently available versions of this resource

ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level
ShortnameName and metadataLicenseLocationCiteResource group and helpApplyPublication yearSupport level

Upcoming versions of this resource

These resource versions are not yet available in the Language Bank of Finland.

ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information
ShortnameName and metadataLicenseFormatsSupport levelContact PersonResource group and helpLocationOther information

Resource information

The Giellagas Corpus of Spoken Saami Languages includes three subcorpora of Sámi languages spoken in Finland: Samples of Northern Saami (currently available, see above), and Aanaar (Inari) Saami and Skolt Saami, both of which will be made available at a later stage.

Further details of each version of the resource are maintained in the metadata record, findable via the persistent identifier (see the link at the resource title).

License and access

  • To access the versions of this resource, the user is required to apply for individual access rights (RES).
  • Click on the license image to see the resource-specific license text.
  • Some/all versions of this resource may contain personal data (license condition +PRIV). The license may then include additional data protection terms and conditions that you must follow. If processing personal data, maintain a public Privacy Notice regarding your project and provide the link to the Language Bank of Finland, see instructions.

 


This page has a persistent identifier: http://urn.fi/urn:nbn:fi:lb-2025021321

finnish-nertag

Finnish-nertag is a named entity recogniser for Finnish. This tool implements a pipeline in which FiNER is the ner-tagging stage. Users can install the tools on their systems or run them in the local directory without installing.

FiNER is a rule-based named-entity recognition tool for Finnish, developed at the University of Helsinki for the FIN-CLARIN consortium. It uses tools based on the CRF-based tagger FinnPos, the Finnish morphology package OmorFi, and the FinnTreeBank corpus for tokenization and morphological analysis, and a set of pattern-matching (pmatch) rules for recognizing and categorizing proper names and other expressions in plaintext input.

The pattern-matching rules are built and compiled using the Helsinki Finite-State Technology toolkit.

More information and a technical documentation can be found here.

Finnish-nertag is offered in CSC’s computing environment. It is also available for download as part of the software package finnish-tagtools, whose current version number is 1.6.


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2025021801

Suomalaisen viittomakielen korpus

In English


Saatavilla olevat versiot

LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso
LyhenneNimi ja kuvailutiedotLisenssiSijaintiViiteAineistoryhmä ja ohjeHae käyttöoikeuttaJulkaisuvuosiTukitaso

Tulossa olevat versiot

Nämä aineistoversiot eivät vielä ole saatavilla Kielipankin kautta.
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto
LyhenneNimi ja kuvailutiedotLisenssiMuotoTukitasoContact PersonSijaintiAineistoryhmä ja ohjeMuu tieto

Tietoa aineistosta

Kunkin aineistoversion tarkemmat tiedot päivitetään kuvailutietueeseen, joka löytyy pysyvällä tunnisteella (ks. linkki aineiston otsikon kohdalla).

Tarkemmat tämän korpuksen toisen osan videoiden kokoamisesta ja koosta löytyvät täältä.

Tärkeitä huomautuksia

  • Lisenssin muutos (6.12.2024): Syksyllä 2024 päivitetyn tallennussopimuksen mukaisesti tämän aineiston lisensseihin on lisätty aineistokohtaiset tietosuojaehdot.

Lisenssi ja pääsy aineistoon

  • Jotkin tämän aineiston versiot ovat saatavilla julkisesti (PUB), kun taas toisiin täytyy hakea erikseen henkilökohtaista käyttöoikeutta (RES).
  • Lisenssikuvaketta napauttamalla näet tarkan aineistokohtaisen lisenssin.
  • Tämän aineiston versioihin sisältyy henkilötietoja (lisenssissä on merkintä +PRIV). Henkilötietojen käsittelyssä on noudatettava aineistokohtaisia tietosuojaehtoja. Jos käsittelet henkilötietoja, ylläpidä projektiasi koskevaa julkista tietosuojailmoitusta ja toimita sen linkki Kielipankille, ks. ohjeet.

 


Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2021092401

Last modified on 2025-01-30

Search the Language Bank Portal:
Jörg Tiedemann
Researcher of the Month: Jörg Tiedemann

 

Upcoming events


Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information