Mikäli tutkimuksessasi aiotaan käsitellä henkilötietoja ja käsittely aiheuttaisi tutkittaville korkean riskin, pitää hankkeesta tehdä lainsäädännön vaatima tietosuojaa koskeva vaikutustenarviointi (Data Protection Impact Assessment, DPIA) ennen henkilötietojen käsittelyn aloittamista. Mitä enemmän riskejä henkilötietojen käsittelyyn liittyy, sitä tarkemmin aineistoa on suojattava. Mieti, kuinka voit käsitellä ja suojata tutkimusaineistoa niin, että riskit vähenevät tai poistuvat.
Tällä sivulla olevat kysymykset on tarkoitettu avuksi siinä vaiheessa, kun suunnittelet omaa tutkimustasi. Kysymysten avulla voit alustavasti kartoittaa, millaisia riskejä henkilötietojen käsittelyyn voi omassa hankkeessasi liittyä. Varsinaisen vaikutustenarvioinnin (DPIA) tekeminen saattaa olla tarpeen etenkin, jos vastaat ”kyllä” useampaan kuin yhteen kysymykseen. Kysymysten kohdalla mainitut yksittäiset kriteerit ovat kuitenkin vain suuntaa-antavia ja niihin liittyvät tulkinnat voivat vaihdella.
Henkilötietojen käsittelyssä on noudatettava ensisijaisesti rekisterinpitäjän antamia ohjeita. Sinun tulee siis aina varmistaa omasta organisaatiostasi, missä tapauksessa ja miten vaikutustenarviointi on tehtävä.
Lisätietoa vaikutustenarvioinnista löydät myös tietosuojavaltuutetun sivuilta.
Käsittely saatetaan katsoa laajamittaiseksi esimerkiksi, jos
Sensitiivisiä henkilötietoja voivat olla:
Päivitetty 6.9.2021
Oheista sopimuspohjaa voidaan käyttää, kun aineisto luovutetaan Kielipankin säilytettäväksi ja jaeltavaksi. Sopimuksessa määritellään sekä yleiset että aineistokohtaiset ehdot, joiden mukaisesti Kielipankki voi välittää aineistoa eteenpäin. Kielipankkia edustaa muodollisesti Helsingin yliopisto.
Tallennussopimuksen yksityiskohdista sovitaan aina aineistokohtaisesti. Kun suunnittelet keräämäsi tutkimusaineiston sijoittamista Kielipankkiin, ota ajoissa yhteyttä FIN-CLARINiin, jotta voimme yhdessä varmistaa aineistosi tilanteen. Lähetä meille etukäteen myös ilmoitus uudesta kielivarasta, jos mahdollista.
Lataa mallisopimus ja liitteet tästä:
Sopimustekstiin on merkitty keltaisella ne kohdat, jotka sinun tulee aineiston oikeudenhaltijana ja/tai rekisterinpitäjänä tarkistaa tai täydentää. Kulmasulkeissa on jonkin verran täyttöohjeita, ja lisää ohjeistusta on tulossa myöhemmin tälle sivulle.
Kysy tarvittaessa lisää FIN-CLARINilta (fin-clarin [AT] helsinki.fi).
Päivitetty 26.1.2023
Tällä sivulla on pysyvä tunniste: urn:nbn:fi:lb-2014120226
Kielivarassa on vähintään kolme osaa:
Lisäksi kielivaralla voi olla oma lisenssisivu ja tarvittaessa ohjesivu esimerkkeineen. Mikäli usealla saman kielivaraperheen osalla on yhteiset lisenssiehdot, niille tehdään vain yksi yhteinen lisenssidokumentti. Kielivarakohtaisilla ohjesivuilla kuvataan vain sellaisia kyseisen varan käyttöön liittyviä erityispiirteitä, joita ei ole kuvattu esimerkiksi hakutyökalun tai muun sovelluksen yleisohjeissa.
Kielivaran kaikkiin osiin viitataan pysyvin tunnistein. Kielipankki käyttää sekä URN- että Handle-järjestelmää. Näistä kahdesta URN on Pohjoismaissa yleisempi mutta Handle kansainvälisesti suositumpi.
Pysyvä tunniste tarkoittaa Kielipankissa, että käyttäjä voi olla varma, että tunnisteen takana oleva tieto on aina saatavissa, vaikka kielivaran sijainti muuttuisi. Uusi sijainti on saatavilla joko suoraan, jolloin tunniste vie suoraan uuteen sijaintiin, tai epäsuorasti, jolloin tunniste vie sivulle, jolla kerrotaan esimerkiksi missä kielivaran vanhaa versiota säilytetään, miten sen voi saada uudelleen käyttöön ja missä uusin versio on saatavilla.
Pysyvillä tunnisteilla on kaksi pääfunktiota:
Kielivaralla voi olla monta eri varianttia (jatkossa versio), jotka muodostavat kielivaraperheen.
Esimerkkejä kielivaraperheistä:
Kaikissa tapauksissa halutaan varmistaa, että kielivaran käyttäjä voi yksiselitteisesti viitata käyttämäänsä varaan nyt ja tulevaisuudessa. Tämän takia jokaisella versiolla on aina oma lyhenne, kuvailutietosivu ja sijainti. Toisaalta lisenssisivu tai ohjesivu voi hyvin olla koko kielivaraperheelle sama.
Aineistosta syntyy uusi versio, kun aineiston sisältö muuttuu merkittävästi. Merkittävä muutos määritellään aineistokohtaisesti. Jollei aineiston kohdalla ole toisin mainittu, merkittäviä ovat sellaiset muutokset, joiden on katsottu voivan olennaisesti vaikuttaa tutkimustuloksiin ja joita ei ole helposti mahdollista perua. Kaikki ei-merkittävät muutokset kirjataan aineiston kuvailutiedoissa olevaan muutoslokiin.
Esimerkkejä ei-merkittävistä muutoksista:
Jos aineistosta syntyy uusi versio, suhde vanhoihin versioihin merkitään META-SHAREen. Uusi versio saa uuden pysyvän tunnisteen ja uuden META-SHARE-tietueen. META-SHARE-tietueessa uusi versio on merkitty IsNewVersionOf-relaatiolla, ks. alla. Jollei vanha aineisto ole edelleen tutkimuksen kannalta merkittävä, uusi aineisto korvaa vanhan Kielipankin aineistotaulukossa. Myös kielipankki.fi/<lyhenne> vie aina uusimpaan versioon. Vanhojen versioiden tunnisteet kuitenkin säilytetään. Ne vievät joko suoraan vanhaan aineistoon tai aihetta koskevalle selityssivulle (”hautakivisivulle”), jolla kerrotaan, mistä aineiston vielä saa tai miten vanhan aineiston kautta tehdyt haut voidaan toistaa uudessa versiossa.
Suomi24: Aineisto päivittyy kahdesti vuodessa. Aineiston lyhenne on Suomi24-<vuosi><vuoden puolisko>, esim. Suomi24-2016H1. Uudemmat versiot sisältävät aina vanhemman version, ja haut voi toistaa rajaamalla ne sopivaan aikaväliin.
Uudet aineistot saavat uuden versionumeron, esim. helpuhe-v2. META-SHAREssa on kuvaus uuden version erosta vanhaan. Vanha versio arkistoidaan tarvittaessa, ja tunnisteet vievät ”hautakivisivulle”.
Kielipankki ei poista kielivaroja ilman kielivaran omistajan suostumusta.
Kukin alla oleva relaatio on esillä olevan kielivaran suhde linkitettävään.
Kyseessä on saman kielivaran kaksi eri versiota tai muunnosta, esimerkiksi eri tavalla paketoitu aineisto.
Kielivara on toisen johdannainen. Esimerkiksi jos korpuksesta on tehty taajuussanasto tai kielimalli.
Kielivara on toisen (laajemman kielivaran tai kokonaisuuden) osa. Voidaan käyttää esimerkiksi sarjamuotoisen aineiston osista.
Kielivara on edellinen / seuraava versio viitatulle kielivaralle.
Aineisto on jatkoa toiselle. Sisältö on eri, mutta koostamistapa on sama.
Viittaa työkaluun, jonka avulla aineisto on luotu. Voi olla esimerkiksi jäsennin.
Kielivaraperheellä on yhteinen metadata, esim. yhteinen lisenssi tai yhteinen kuvaus.
Yhteisestä metadatasta ei ole suoraa linkkiä kielivaran sisältöön.
Jollei mikään yllä kuvatuista relaatioista sovi, muita mahdollisia relaatioita löytyy DataCitelta ([1]). Muita kun DataCiten suhdetermejä ei saa käyttää.
[1] DataCite Metadata Working Group. (2016, alkaen sivulta 37). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.0. DataCite e.V. http://doi.org/10.5438/0012
FIN-CLARIN järjestää Aineistoklinikka-kurssin 21.11.2016 – 5.5.2017. Kurssi käynnistyy nelipäiväisellä intensiivijaksolla 21.-24.11.2016.
Aineistoklinikka-kurssi soveltuu kieliaineistojen parissa työskenteleville humanististen ja yhteiskuntatieteellisten alojen opiskelijoille ja tutkijoille. Myös muiden kuin Helsingin yliopiston opiskelijat ovat tervetulleita mukaan!
Lisätietoa ja ilmoittautumisohjeet löytyvät kurssin kotisivulta (ks. ohessa).
Mikäli kieliaineistosi sisältää tekstiä, sen käsitteleminen on tehokkainta, jos aineisto on tallennettu raakatekstinä ja UTF-8-merkistökoodauksella. Tässä neuvotaan, miten se tapahtuu.
Jos tekstiä sisältävä aineistosi on tallennettu esimerkiksi Word-dokumentteina, voit käsitellä aineistoa vain Wordilla tai sen kanssa yhteensopivilla ohjelmilla. Word-dokumentti ei myöskään ole sellaisenaan arkistointikelpoinen muoto. Kun aineistosi on tallennettu raakatekstitiedostoina (plain text) ja lisäksi UTF-8-merkistökoodauksella, voit avata ja käsitellä tiedostoja tehokkaasti monenlaisilla kätevillä työkaluilla sekä Kielipankissa että sen ulkopuolella.
Raakatekstitiedosto sisältää kuitenkin vain merkkejä. Siihen eivät tallennu esimerkiksi Wordilla tehdyt tekstin asettelut, lihavointi tai kursiivi. Jos tarvitset tekstidokumenteista myös taitetut tai muotoillut versiot ihmisten luettaviksi, tallenna sellaiset erikseen. Pysyvää arkistointia varten taitetuista dokumenteista on syytä tehdä esimerkiksi pdf-muotoisia.
Tarvittaessa myös raakatekstin joukkoon voidaan lisätä erilaisia merkkauksia, joilla osoitetaan, missä kohtaa on vaikkapa kappaleen vaihto tai otsikko. Tällaiset merkkaukset kannattaa tehdä jossakin XML-yhteensopivassa muodossa (esim. TEI/XML), jolloin niitä voidaan ohjelmallisesti hyödyntää.
Jos alkuperäinen tiedosto on tehty Microsoft Word -ohjelmalla tai se on esim. RTF-muotoinen, toimi seuraavasti:
Unicode on kansainvälinen merkistöstandardi, jonka avulla lähes kaikki maailman kielet ja niissä käytetyt erikoismerkit voidaan kuvata yksiselitteisesti ja yhteensopivalla tavalla. Jokaisella Unicode-standardissa määritellyllä merkillä on yksilöllinen koodi. Koodeja on määritelty jopa yli 100 000 erilaiselle merkille. Unicode-standardi on otettu laajasti käyttöön, ja lähes kaikki nykyiset tekstiä prosessoivat sovellusohjelmat tukevat sitä.
UTF-8 on Unicode-standardin 8-bittinen koodaustapa. Se on osittain yhteensopiva niiden vanhempien järjestelmien kanssa, joissa merkkikoodeja käsitellään 8-bittisinä. UTF-8-muotoisen tiedoston sisältämät merkit näyttävät samoilta kaikilla tietokoneilla ja kaikissa käyttöjärjestelmissä, jos tiedostoa käytetään ohjelmalla, joka tukee Unicode-standardia ja UTF-8-tiedostoja. Useimmat nykyiset sovellukset tukevat ainakin UTF-8-merkistökoodausta.
UTF-16 on puolestaan Unicode-merkkien 16-bittinen koodaustapa, jossa jokaista merkkiä kuvataan aina kahden 8 bitin tavun muodostamana parina. UTF-16 on vielä hiukan harvinaisempi kuin UTF-8.
Kaikki Kielipankin tarjoamat työkalut edellyttävät, että käsiteltävät tekstitiedostot ovat UTF-8-muotoisia.
Voit esimerkiksi