Kielivarojen elinkaari- ja kuvailumalli

Kielivaran osat

Kielivarassa on vähintään kolme osaa:

Lisäksi kielivaralla voi olla oma lisenssisivu ja tarvittaessa ohjesivu esimerkkeineen. Mikäli usealla saman kielivaraperheen osalla on yhteiset lisenssiehdot, niille tehdään vain yksi yhteinen lisenssidokumentti. Kielivarakohtaisilla ohjesivuilla kuvataan vain sellaisia kyseisen varan käyttöön liittyviä erityispiirteitä, joita ei ole kuvattu esimerkiksi hakutyökalun tai muun sovelluksen yleisohjeissa.

Pysyvät tunnisteet

Kielivaran kaikkiin osiin viitataan pysyvin tunnistein. Kielipankki käyttää sekä URN- että Handle-järjestelmää. Näistä kahdesta URN on Pohjoismaissa yleisempi mutta Handle kansainvälisesti suositumpi.

Pysyvä tunniste tarkoittaa Kielipankissa, että käyttäjä voi olla varma, että tunnisteen takana oleva tieto on aina saatavissa, vaikka kielivaran sijainti muuttuisi. Uusi sijainti on saatavilla joko suoraan, jolloin tunniste vie suoraan uuteen sijaintiin, tai epäsuorasti, jolloin tunniste vie sivulle, jolla kerrotaan esimerkiksi missä kielivaran vanhaa versiota säilytetään, miten sen voi saada uudelleen käyttöön ja missä uusin versio on saatavilla.

Pysyvillä tunnisteilla on kaksi pääfunktiota:

  • Pitää tiedot saatavilla, jos sijainti muuttuu (esimerkiksi, jos korp.csc.fi:n alla olevat aineistot ovat jatkossa toisessa osoittessa).
  • Pitää vanhojen kielivarojen tiedot saatavilla, jos vanhan version julkinen tarjoaminen ei ole tarkoituksenmukaista, esimerkiksi kustannussyistä.

Kielivaraversiot

Kielivaralla voi olla monta eri varianttia (jatkossa versio), jotka muodostavat kielivaraperheen.

Esimerkkejä kielivaraperheistä:

  • Sama aineisto on analysoitu eri morfologisin jäsentimin.
  • Tekstiversio audio- tai videoaineistosta (käsin luotu tai tunnistimin generoitu).
  • Karttuva aineisto: aineiston sisältö on melkein sama, mutta yhdessä versioista on enemmän tai uudempaa sisältöä.
  • Korjattu aineisto: aineistossa on havaittu puutteita, ja niitä on korjattu käsin tai automaattisesti.

Kaikissa tapauksissa halutaan varmistaa, että kielivaran käyttäjä voi yksiselitteisesti viitata käyttämäänsä varaan nyt ja tulevaisuudessa. Tämän takia jokaisella versiolla on aina oma lyhenne, kuvailutietosivu ja sijainti. Toisaalta lisenssisivu tai ohjesivu voi hyvin olla koko kielivaraperheelle sama.

Milloin syntyy uusi versio?

Aineistosta syntyy uusi versio, kun aineiston sisältö muuttuu merkittävästi. Merkittävä muutos määritellään aineistokohtaisesti. Jollei aineiston kohdalla ole toisin mainittu, merkittäviä ovat sellaiset muutokset, joiden on katsottu voivan olennaisesti vaikuttaa tutkimustuloksiin ja joita ei ole helposti mahdollista perua. Kaikki ei-merkittävät muutokset kirjataan aineiston kuvailutiedoissa olevaan muutoslokiin.

Esimerkkejä ei-merkittävistä muutoksista:

  • Isosta keskusteluaineistosta pitää poistaa yksittäinen artikkeli asianosaisen pyynnöstä. Tällöin ei olisi muutenkaan mahdollista enää jatkossa tarjota vanhaa versiota.
  • Isossa aineistossa on havaittu, että muutamat käsin kirjoitetut tagit sisältävät kirjoitusvirheen.
  • Aineisto on automaattisesti konvertoitu Latin-1:stä UTF-8-merkistökoodaukseen. Vanha merkistökoodaus on arkiston kautta saatavilla.

Miten uusi versio syntyy?

Jos aineistosta syntyy uusi versio, suhde vanhoihin versioihin merkitään META-SHAREen. Uusi versio saa uuden pysyvän tunnisteen ja uuden META-SHARE-tietueen. META-SHARE-tietueessa uusi versio on merkitty IsNewVersionOf-relaatiolla, ks. alla. Jollei vanha aineisto ole edelleen tutkimuksen kannalta merkittävä, uusi aineisto korvaa vanhan Kielipankin aineistotaulukossa. Myös kielipankki.fi/<lyhenne> vie aina uusimpaan versioon. Vanhojen versioiden tunnisteet kuitenkin säilytetään. Ne vievät joko suoraan vanhaan aineistoon tai aihetta koskevalle selityssivulle (”hautakivisivulle”), jolla kerrotaan, mistä aineiston vielä saa tai miten vanhan aineiston kautta tehdyt haut voidaan toistaa uudessa versiossa.

Karttuvat aineistot

Suomi24: Aineisto päivittyy kahdesti vuodessa. Aineiston lyhenne on Suomi24-<vuosi><vuoden puolisko>, esim. Suomi24-2016H1. Uudemmat versiot sisältävät aina vanhemman version, ja haut voi toistaa rajaamalla ne sopivaan aikaväliin.

Muut aineistot

Uudet aineistot saavat uuden versionumeron, esim. helpuhe-v2. META-SHAREssa on kuvaus uuden version erosta vanhaan. Vanha versio arkistoidaan tarvittaessa, ja tunnisteet vievät ”hautakivisivulle”.

Yleiset kielivarojen väliset suhteet

IsVariantFormOf / IsOriginalFormOf

Kyseessä on saman kielivaran kaksi eri versiota tai muunnosta, esimerkiksi eri tavalla paketoitu aineisto.

IsDerivedFrom / IsSourceOf

Kielivara on toisen johdannainen. Esimerkiksi jos korpuksesta on tehty taajuussanasto tai kielimalli.

IsPartOf / HasPart

Kielivara on toisen (laajemman kielivaran tai kokonaisuuden) osa. Voidaan käyttää esimerkiksi sarjamuotoisen aineiston osista.

IsPreviousVersionOf / Is NewVersionOf

Kielivara on edellinen / seuraava versio viitatulle kielivaralle.

IsContinuedBy / Continues

Aineisto on jatkoa toiselle. Sisältö on eri, mutta koostamistapa on sama.

IsCompiledBy / Compiles

Viittaa työkaluun, jonka avulla aineisto on luotu. Voi olla esimerkiksi jäsennin.

IsMetadataFor / HasMetadata

Kielivaraperheellä on yhteinen metadata, esim. yhteinen lisenssi tai yhteinen kuvaus.

Yhteisestä metadatasta ei ole suoraa linkkiä kielivaran sisältöön.

Muut relaatiot

Jollei mikään yllä kuvatuista relaatioista sovi, muita mahdollisia relaatioita löytyy DataCitelta ([1]). Muita kun DataCiten suhdetermejä ei saa käyttää.

Lähteet

[1] DataCite Metadata Working Group. (2016, alkaen sivulta 37). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.0. DataCite e.V. http://doi.org/10.5438/0012

Kuukauden tutkija: Maximilian Murmann

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317