How to cite the Language Bank of Finland and FIN-CLARIN

It is important to cite language resources in a coherent way. This will enable other researchers to replicate your research, and the authors or developers of the resource can receive credit for their work.

When you use a language resource (a corpus or a tool) that is available via the Language Bank of Finland, please adhere to the citation instructions provided by the Language Bank. This way, you provide an accurate reference to the exact version of the resource. In the Language Bank od Finland, every resource version has a unique persistent identifier that is always included in the reference. The identifier exists in order to ensure that the resource can be accessed and the study can be replicated in the future even if the location of the resource changes.

The license conditions of many corpora and tools require the users to provide a reference to the resource in question. In this case, the license terms will usually mention the BY condition (Attribution; Nimeä in Finnish). A reference is systematically required for all language resources that are licensed for academic use (CLARIN ACA) or for individual use (CLARIN RES). Even openly licensed language resources may require appropriate citation (e.g., Creative Commons Attribution and other open licenses).

By providing a reference to the Language Bank of Finland and to its language resources, you can help FIN-CLARIN keep track of the usage of its corpora and services and maintain the Language Bank of Finland.

Citing a corpus that is available via the Language Bank of Finland

Reference instructions for individual corpus versions or variants can be found at the quotation mark icon-quote-right on the Corpora list of the Language Bank of Finland.

The reference instructions are also mentioned in the metadata of each language reource. The metadata of the corpora that are available via the Language Bank of Finland are stored and distributed on the META-SHARE service. The metadata record of a specific language resource can always be accessed with the persistent identifier that is included in the citation instructions, or by clicking on the corpus title on the corpus list of the Language Bank. In the metadata record, the link to the reference instructions can usually be found in the Documentation section. In some cases, the citation instructions are directly available in the Attribution Details field. The metadata record also provides details on the corpus-specific license.

For corpus versions that are offered via the Korp concordancing service, the link to the citation instructions is available in the corpus information frame that pops up when the mouse cursor is moved over a corpus title in the corpus selection menu, as well as under the corpus details in the information column on the right when an individual search result is selected in the concordance view.

In case the resource is available via the download service of the Language Bank of Finland, it includes a file called README containing the persistent identifier of that particular resource version.

Reference format

As an example, here are the reference instructions to the language resource titled Corpus of Finnish Magazines and Newspapers from the 1990s and 2000s, Version 2:

University of Helsinki (2017). Corpus of Finnish Magazines and Newspapers from the 1990s and 2000s, Version 2 [text corpus]. Kielipankki. Retrieved from http://urn.fi/urn:nbn:fi:lb-2017091901

Note that the exact formatting practices of data references may vary in different publications. In any case, it is best to try and include the details that are included in the citations instructions provided by the Language Bank of Finland. When you are writing scientific journal articles or producing other research output, you may need to check the publication-specific instructions in order to see whether it is customary to include data sources in the bibliography or to create a separate list for them.

References to the Language Bank of Finland, FIN-CLARIN or CLARIN

The address of the Language Bank of Finland (Kielipankki)

In case you wish to refer to the Language Bank of Finland as a collection of services, please use the web address www.kielipankki.fi.

Refer to the FIN-CLARIN consortium

A presentation of the FIN-CLARIN consortium on the web portal of the Language Bank of Finland: http://urn.fi/urn:nbn:fi:lb-2014120212

Refer to CLARIN ERIC

The general reference instructions of CLARIN ERIC and CLARIN services can be found under CLARIN Frequently Asked Questions.

More information about citing data

Life cycle and metadata model of language resources

Parts of a language resource

A language resource consists of three parts at the minimum:

In addition, a language resource may have its own license page and instructions, if needed. In case several members of a single language resource family share license terms, only one license information document is produced. Language resource specific instruction pages describe only such specific features related to the said resource’s usage that have not been covered in the applicable tool’s or another application’s general instructions.

Persistent identifiers

All parts of a language resource are referred to using persistent identifiers (PID). The Language Bank of Finland uses both the URN and Handle systems. Of these two, URN is more common in the Nordic countries and Handle is more prolific globally. At the Language Bank URNs and Handles have a 1:1 mapping, e.g. hdl:11113/lb-201710212 and urn:nbn:fi:lb-201710212 point to the same page.

A persistent identifier in the Language Bank means that the user can rely on the information referred to by the identifier to remain accessible, even if the language resource’s location changes. The new location is accessible either directly (the identifier points directly to the new location) or indirectly (the identifier points at a page with information about the location of the old version and how to continue using it as well as how to access the new version).

Persistent identifiers have two main functions:

  • To ensure accessibility of information if its location changes (e.g. if the corpora in Korp have been migrated elsewhere).
  • To retain information about past language resources continuing to provide the old version is not practical (e.g. for financial reasons).

Language resource versions

A language resource may have several different variants (i.e. versions) that form a language resource family.

Examples of language resource families:

  • Different parsers’ morphological analysis results for a single corpus.
  • Text version of an audio or video corpus (manually or automatically generated)
  • Accumulating corpus: the content is almost identical but one version has more or newer content.
  • Repaired corpus: flaws in a corpus have been identified and fixed manually or automatically.

In all aforementioned cases, it is important that the language resource’s user be able to unambiguously refer to the applicable resource at present as well as in the future. This is why each version always has its own abbreviation, metadata page and location. On the other hand, a language resource family may share a license or instruction page.

To see how the Language Bank fares in relation to RDA recommendations, see the commented RDA Data Versioning Working Group report.

When is a new version generated?

A new version of a corpus is generated when the corpus’s content changes significantly. What constitutes a significant change is defined individually for each corpus. If the corpus description does not specify otherwise, such changes that may substantially affect research results or that are not easily reversible are considered significant. All non-significant changes are recorded in the change log in the corpus’s metadata.

Examples of non-significant changes:

  • A single article in a large conversation corpus has to be removed at an informant’s request. In this case, providing the previous version would not be possible in the first place.
  • Some hand-written tags in a large corpus have been found to contain a typographical error.
  • A corpus has been automatically converted from Latin-1 to UTF-8 character encoding. The old encoding remains accessible in the archive.

How is a new version generated?

If a new version of a corpus is generated, its relation to the previous versions is recorded in META-SHARE. The new version receives a new PID and a new META-SHARE record. In the META-SHARE record, the new and old versions are linked with the IsNewVersionOf, IsPreviousVersionOf relations, see below.

In case the previous version is no longer relevant to research, the new version replaces it in the Language Bank’s corpus list. The kielipankki.fi/<abbreviation> links also always point at the most recent versions. However, PIDs are always preserved. They point at either the old version or relevant information (”tombstone page”) about how to obtain it or how queries executed in the old version can be reproduced in the new version.

Accumulating corpora

Suomi24: The corpus is updated biannually. The versions’ abbreviations follow the format Suomi24-<year><year half>, e.g. Suomi24-2016H1. Newer versions always contain the previous versions, and queries can be reproduced by defining the period accordingly.

Other corpora

New corpora receive new version numbers, e.g. helpuhe-v2. META-SHARE contains a description of the difference between the new and the old version. The old version is archived if need be, and PIDs point at a ”tombstone page”.

Preservation of language resources

The Language Bank does not delete the deposited language resources without their owner’s consent.

Common language resource relations

IsVariantFormOf / IsOriginalFormOf

Two versions or variations of a language resource, e.g. a corpus packaged in different ways. Downloadable versions are usually considered the ”OriginalFormOf” VariantForms.

IsDerivedFrom / IsSourceOf

The language resource is derived from another, e.g. a frequency lexicon or a language model.

IsPreviousVersionOf / Is NewVersionOf

The language resource is a previous / newer version of the related resource.

Eg. Version 1 points to version 2 using IsPreviousVersionOf. Example: lehdet90ff-v1.

IsPartOf / HasPart

The language resource is a part of another (broader resource or collection). Can be used e.g. for parts of a serial corpus.

IsContinuedBy / Continues

The corpus is continuation to another. The content is different but the compilation method is the same.

IsCompiledBy / Compiles

The tool that was used in creating the corpus, e.g. a parser.

IsMetadataFor / HasMetadata

The language resource family shares metadata, e.g. a license or description.

The shared ”roof” metadata points to the more specific metadata using the IsMetadataFor relation, and the more specific metadata points back to the shared ”roof” metadata using the HasMetadata relation (See [1], page 37). Example: ceal.

Shared metadata has no direct link to the language resource’s content.

Other relations

If none of the relations described above applies, other possible relations can be found at DataCite ([1]). Using relation terminology other than DataCite’s is not permitted.

Sources

[1] DataCite Metadata Working Group. (2016, alkaen sivulta 37). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.0. DataCite e.V. http://doi.org/10.5438/0012

Kielivarojen elinkaari- ja kuvailumalli

Kielivaran osat

Kielivarassa on vähintään kolme osaa:

Lisäksi kielivaralla voi olla oma lisenssisivu ja tarvittaessa ohjesivu esimerkkeineen. Mikäli usealla saman kielivaraperheen osalla on yhteiset lisenssiehdot, niille tehdään vain yksi yhteinen lisenssidokumentti. Kielivarakohtaisilla ohjesivuilla kuvataan vain sellaisia kyseisen varan käyttöön liittyviä erityispiirteitä, joita ei ole kuvattu esimerkiksi hakutyökalun tai muun sovelluksen yleisohjeissa.

Pysyvät tunnisteet

Kielivaran kaikkiin osiin viitataan pysyvin tunnistein. Kielipankki käyttää sekä URN- että Handle-järjestelmää. Näistä kahdesta URN on Pohjoismaissa yleisempi mutta Handle kansainvälisesti suositumpi.

Pysyvä tunniste tarkoittaa Kielipankissa, että käyttäjä voi olla varma, että tunnisteen takana oleva tieto on aina saatavissa, vaikka kielivaran sijainti muuttuisi. Uusi sijainti on saatavilla joko suoraan, jolloin tunniste vie suoraan uuteen sijaintiin, tai epäsuorasti, jolloin tunniste vie sivulle, jolla kerrotaan esimerkiksi missä kielivaran vanhaa versiota säilytetään, miten sen voi saada uudelleen käyttöön ja missä uusin versio on saatavilla.

Pysyvillä tunnisteilla on kaksi pääfunktiota:

  • Pitää tiedot saatavilla, jos sijainti muuttuu (esimerkiksi, jos korp.csc.fi:n alla olevat aineistot ovat jatkossa toisessa osoittessa).
  • Pitää vanhojen kielivarojen tiedot saatavilla, jos vanhan version julkinen tarjoaminen ei ole tarkoituksenmukaista, esimerkiksi kustannussyistä.

Kielivaraversiot

Kielivaralla voi olla monta eri varianttia (jatkossa versio), jotka muodostavat kielivaraperheen.

Esimerkkejä kielivaraperheistä:

  • Sama aineisto on analysoitu eri morfologisin jäsentimin.
  • Tekstiversio audio- tai videoaineistosta (käsin luotu tai tunnistimin generoitu).
  • Karttuva aineisto: aineiston sisältö on melkein sama, mutta yhdessä versioista on enemmän tai uudempaa sisältöä.
  • Korjattu aineisto: aineistossa on havaittu puutteita, ja niitä on korjattu käsin tai automaattisesti.

Kaikissa tapauksissa halutaan varmistaa, että kielivaran käyttäjä voi yksiselitteisesti viitata käyttämäänsä varaan nyt ja tulevaisuudessa. Tämän takia jokaisella versiolla on aina oma lyhenne, kuvailutietosivu ja sijainti. Toisaalta lisenssisivu tai ohjesivu voi hyvin olla koko kielivaraperheelle sama.

Milloin syntyy uusi versio?

Aineistosta syntyy uusi versio, kun aineiston sisältö muuttuu merkittävästi. Merkittävä muutos määritellään aineistokohtaisesti. Jollei aineiston kohdalla ole toisin mainittu, merkittäviä ovat sellaiset muutokset, joiden on katsottu voivan olennaisesti vaikuttaa tutkimustuloksiin ja joita ei ole helposti mahdollista perua. Kaikki ei-merkittävät muutokset kirjataan aineiston kuvailutiedoissa olevaan muutoslokiin.

Esimerkkejä ei-merkittävistä muutoksista:

  • Isosta keskusteluaineistosta pitää poistaa yksittäinen artikkeli asianosaisen pyynnöstä. Tällöin ei olisi muutenkaan mahdollista enää jatkossa tarjota vanhaa versiota.
  • Isossa aineistossa on havaittu, että muutamat käsin kirjoitetut tagit sisältävät kirjoitusvirheen.
  • Aineisto on automaattisesti konvertoitu Latin-1:stä UTF-8-merkistökoodaukseen. Vanha merkistökoodaus on arkiston kautta saatavilla.

Miten uusi versio syntyy?

Jos aineistosta syntyy uusi versio, suhde vanhoihin versioihin merkitään META-SHAREen. Uusi versio saa uuden pysyvän tunnisteen ja uuden META-SHARE-tietueen. META-SHARE-tietueessa uusi versio on merkitty IsNewVersionOf-relaatiolla, ks. alla. Jollei vanha aineisto ole edelleen tutkimuksen kannalta merkittävä, uusi aineisto korvaa vanhan Kielipankin aineistotaulukossa. Myös kielipankki.fi/<lyhenne> vie aina uusimpaan versioon. Vanhojen versioiden tunnisteet kuitenkin säilytetään. Ne vievät joko suoraan vanhaan aineistoon tai aihetta koskevalle selityssivulle (”hautakivisivulle”), jolla kerrotaan, mistä aineiston vielä saa tai miten vanhan aineiston kautta tehdyt haut voidaan toistaa uudessa versiossa.

Karttuvat aineistot

Suomi24: Aineisto päivittyy kahdesti vuodessa. Aineiston lyhenne on Suomi24-<vuosi><vuoden puolisko>, esim. Suomi24-2016H1. Uudemmat versiot sisältävät aina vanhemman version, ja haut voi toistaa rajaamalla ne sopivaan aikaväliin.

Muut aineistot

Uudet aineistot saavat uuden versionumeron, esim. helpuhe-v2. META-SHAREssa on kuvaus uuden version erosta vanhaan. Vanha versio arkistoidaan tarvittaessa, ja tunnisteet vievät ”hautakivisivulle”.

Kielivarojen säilyttäminen

Kielipankki ei poista kielivaroja ilman kielivaran omistajan suostumusta.

Yleiset kielivarojen väliset suhteet

Kukin alla oleva relaatio on esillä olevan kielivaran suhde linkitettävään.

IsVariantFormOf / IsOriginalFormOf

Kyseessä on saman kielivaran kaksi eri versiota tai muunnosta, esimerkiksi eri tavalla paketoitu aineisto.

IsDerivedFrom / IsSourceOf

Kielivara on toisen johdannainen. Esimerkiksi jos korpuksesta on tehty taajuussanasto tai kielimalli.

IsPartOf / HasPart

Kielivara on toisen (laajemman kielivaran tai kokonaisuuden) osa. Voidaan käyttää esimerkiksi sarjamuotoisen aineiston osista.

IsPreviousVersionOf / IsNewVersionOf

Kielivara on edellinen / seuraava versio viitatulle kielivaralle.

IsContinuedBy / Continues

Aineisto on jatkoa toiselle. Sisältö on eri, mutta koostamistapa on sama.

IsCompiledBy / Compiles

Viittaa työkaluun, jonka avulla aineisto on luotu. Voi olla esimerkiksi jäsennin.

IsMetadataFor / HasMetadata

Kielivaraperheellä on yhteinen metadata, esim. yhteinen lisenssi tai yhteinen kuvaus.

Yhteisestä metadatasta ei ole suoraa linkkiä kielivaran sisältöön.

Muut relaatiot

Jollei mikään yllä kuvatuista relaatioista sovi, muita mahdollisia relaatioita löytyy DataCitelta ([1]). Muita kun DataCiten suhdetermejä ei saa käyttää.

Lähteet

[1] DataCite Metadata Working Group. (2016, alkaen sivulta 37). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.0. DataCite e.V. http://doi.org/10.5438/0012