In English

Tutkimuksen tietosuojan ennakkoarviointi

Mikäli tutkimuksessasi aiotaan käsitellä henkilötietoja ja käsittely aiheuttaisi tutkittaville korkean riskin, pitää hankkeesta tehdä lainsäädännön vaatima tietosuojaa koskeva vaikutustenarviointi (Data Protection Impact Assessment, DPIA) ennen henkilötietojen käsittelyn aloittamista. Mitä enemmän riskejä henkilötietojen käsittelyyn liittyy, sitä tarkemmin aineistoa on suojattava. Mieti, kuinka voit käsitellä ja suojata tutkimusaineistoa niin, että riskit vähenevät tai poistuvat.

Tällä sivulla olevat kysymykset on tarkoitettu avuksi siinä vaiheessa, kun suunnittelet omaa tutkimustasi. Kysymysten avulla voit alustavasti kartoittaa, millaisia riskejä henkilötietojen käsittelyyn voi omassa hankkeessasi liittyä. Varsinaisen vaikutustenarvioinnin (DPIA) tekeminen saattaa olla tarpeen etenkin, jos vastaat ”kyllä” useampaan kuin yhteen kysymykseen. Kysymysten kohdalla mainitut yksittäiset kriteerit ovat kuitenkin vain suuntaa-antavia ja niihin liittyvät tulkinnat voivat vaihdella.

Henkilötietojen käsittelyssä on noudatettava ensisijaisesti rekisterinpitäjän antamia ohjeita. Sinun tulee siis aina varmistaa omasta organisaatiostasi, missä tapauksessa ja miten vaikutustenarviointi on tehtävä.

Lisätietoa vaikutustenarvioinnista löydät myös tietosuojavaltuutetun sivuilta.

Ennakkoarviointikysymykset

1. Onko henkilötietojen käsittely laajamittaista?

Käsittely saatetaan katsoa laajamittaiseksi esimerkiksi, jos

 • Tutkittavien henkilöiden lukumäärä on 10 000 tai enemmän
 • Yksittäisestä henkilöstä kerätään paljon tietoa
 • Tieto kerätään suuresta osasta jonkin ihmisryhmän jäsenistä (esim. suuresta osasta pieneen etniseen ryhmään kuuluvista henkilöistä tai tietyn työnantajan palveluksessa olevista henkilöistä)
 • Käsittely on pysyvää tai pitkäkestoista
 • Käsittely on maantieteellisesti laajamittaista

2. Käsitelläänkö sensitiivisiä ts. arkaluonteisia tai erityisen henkilökohtaisia henkilötietoja?

Sensitiivisiä henkilötietoja voivat olla:

 • Terveystiedot
 • Paikannustiedot (seurataan liikkumista)
 • Geneettiset tiedot
 • Biometristen tietojen käsittely henkilön tunnistamista varten
 • Rotu tai etninen alkuperä
 • Poliittiset mielipiteet
 • Uskonnollinen tai filosofinen vakaumus
 • Ammattiliiton jäsenyys
 • Seksuaalinen suuntautuminen tai käyttäytyminen
 • Rikostuomioita tai rikkomuksia koskevat tiedot
 • Taloudelliset tiedot, joita saatetaan käsitellä maksuvälinepetoksiin
 • Sähköinen viestintä
 • Muutoin erityisen henkilökohtaiseksi koetut tiedot (kuten muistiinpanot ja päiväkirjat)

3. Aiotaanko poiketa seuraavista rekisteröityjen oikeuksista:

 • Informointi
 • Oikeus saada jäljennökset tutkittavaa koskevista tiedoista
 • Oikeus korjata virheelliset tiedot
 • Oikeus rajoittaa käsittelyä
 • Oikeus vastustaa tietojensa käsittelyä (esim. jos käsittely tapahtuu julkisella alueella, jossa vierailevat henkilöt eivät pysty välttämään tietojen keräämistä)

4. Yhdistelläänkö tietoja eri aineistosta tutkittaville odottamattomalla tavalla?

 • Esimerkiksi tietojen yhdistely kahteen eri käyttötarkoitukseen kerätystä aineistosta tai kahden eri rekisterinpitäjän tietojen yhdistäminen

5. Käsitelläänkö tutkimuksessa henkilöiden tietoja, joiden voi olla vaikea heikon asemansa vuoksi käyttää oikeuksiaan?

 • esim. lapset, vanhukset, työntekijät, potilaat, turvapaikanhakijat, …

6. Sisältyykö käsittelyyn automaattista päätöksentekoa (ts. päätös ilman ihmisen osallistumista päätöksentekoon) ja/tai profilointia, josta saattaa seurata tutkittavalle merkittäviä vaikutuksia?

 • Merkittäviä vaikutuksia saattaisivat olla esimerkiksi syrjintä, poissulkeminen, merkittävä vaikutus yksityisyyteen, tutkittavan palkkion määrittäminen automaattisen päätöksenteon avulla tms.

7. Käsitelläänkö tutkimuksessa henkilötietoja tutkittavien arvioimiseksi tai pisteyttämiseksi?

 • Esimerkiksi sairastumisriskin arviointi/ennustaminen tai käyttäytymiseen perustuvan profiilin luominen

8. Käsittääkö tutkimus tutkittavien järjestelmällistä valvontaa?

9. Käytetäänkö tutkimuksessa henkilötietojen käsittelyyn uutta teknologiaa innovatiivisella tavalla?

 • Kerätäänkö tai käytetäänkö tietoja uudella tavalla?
 • Ovatko uuden tekniikan käytön seuraukset vielä toistaiseksi tuntemattomia?

10. Jos tutkimusaineisto julkaistaisiin tai se vuotaisi julkisuuteen, voisiko siitä aiheutua merkittäviä vaikutuksia tutkittaville?

 • esim. väkivallan tai vainoamisen uhka

Päivitetty 6.9.2021

Tallennussopimus

In English

Oheista sopimuspohjaa voidaan käyttää, kun aineisto luovutetaan Kielipankin säilytettäväksi ja jaeltavaksi. Sopimuksessa määritellään sekä yleiset että aineistokohtaiset ehdot, joiden mukaisesti Kielipankki voi välittää aineistoa eteenpäin. Kielipankkia edustaa muodollisesti Helsingin yliopisto. 

Tallennussopimuksen yksityiskohdista sovitaan aina aineistokohtaisesti. Kun suunnittelet keräämäsi tutkimusaineiston sijoittamista Kielipankkiin, ota ajoissa yhteyttä FIN-CLARINiin, jotta voimme yhdessä varmistaa aineistosi tilanteen. Lähetä meille etukäteen myös ilmoitus uudesta kielivarasta, jos mahdollista.

Lataa mallisopimus ja liitteet tästä:

Sopimustekstiin on merkitty keltaisella ne kohdat, jotka sinun tulee aineiston oikeudenhaltijana ja/tai rekisterinpitäjänä tarkistaa tai täydentää. Kulmasulkeissa on jonkin verran täyttöohjeita, ja lisää ohjeistusta on tulossa myöhemmin tälle sivulle.

Kysy tarvittaessa lisää FIN-CLARINilta (fin-clarin [AT] helsinki.fi).

Päivitetty 26.1.2023

Tällä sivulla on pysyvä tunniste: urn:nbn:fi:lb-2014120226

Kielivarojen elinkaari- ja kuvailumalli

Kielivaran osat

Kielivarassa on vähintään kolme osaa:

Lisäksi kielivaralla voi olla oma lisenssisivu ja tarvittaessa ohjesivu esimerkkeineen. Mikäli usealla saman kielivaraperheen osalla on yhteiset lisenssiehdot, niille tehdään vain yksi yhteinen lisenssidokumentti. Kielivarakohtaisilla ohjesivuilla kuvataan vain sellaisia kyseisen varan käyttöön liittyviä erityispiirteitä, joita ei ole kuvattu esimerkiksi hakutyökalun tai muun sovelluksen yleisohjeissa.

Pysyvät tunnisteet

Kielivaran kaikkiin osiin viitataan pysyvin tunnistein. Kielipankki käyttää sekä URN- että Handle-järjestelmää. Näistä kahdesta URN on Pohjoismaissa yleisempi mutta Handle kansainvälisesti suositumpi.

Pysyvä tunniste tarkoittaa Kielipankissa, että käyttäjä voi olla varma, että tunnisteen takana oleva tieto on aina saatavissa, vaikka kielivaran sijainti muuttuisi. Uusi sijainti on saatavilla joko suoraan, jolloin tunniste vie suoraan uuteen sijaintiin, tai epäsuorasti, jolloin tunniste vie sivulle, jolla kerrotaan esimerkiksi missä kielivaran vanhaa versiota säilytetään, miten sen voi saada uudelleen käyttöön ja missä uusin versio on saatavilla.

Pysyvillä tunnisteilla on kaksi pääfunktiota:

 • Pitää tiedot saatavilla, jos sijainti muuttuu (esimerkiksi, jos korp.csc.fi:n alla olevat aineistot ovat jatkossa toisessa osoittessa).
 • Pitää vanhojen kielivarojen tiedot saatavilla, jos vanhan version julkinen tarjoaminen ei ole tarkoituksenmukaista, esimerkiksi kustannussyistä.

Kielivaraversiot

Kielivaralla voi olla monta eri varianttia (jatkossa versio), jotka muodostavat kielivaraperheen.

Esimerkkejä kielivaraperheistä:

 • Sama aineisto on analysoitu eri morfologisin jäsentimin.
 • Tekstiversio audio- tai videoaineistosta (käsin luotu tai tunnistimin generoitu).
 • Karttuva aineisto: aineiston sisältö on melkein sama, mutta yhdessä versioista on enemmän tai uudempaa sisältöä.
 • Korjattu aineisto: aineistossa on havaittu puutteita, ja niitä on korjattu käsin tai automaattisesti.

Kaikissa tapauksissa halutaan varmistaa, että kielivaran käyttäjä voi yksiselitteisesti viitata käyttämäänsä varaan nyt ja tulevaisuudessa. Tämän takia jokaisella versiolla on aina oma lyhenne, kuvailutietosivu ja sijainti. Toisaalta lisenssisivu tai ohjesivu voi hyvin olla koko kielivaraperheelle sama.

Milloin syntyy uusi versio?

Aineistosta syntyy uusi versio, kun aineiston sisältö muuttuu merkittävästi. Merkittävä muutos määritellään aineistokohtaisesti. Jollei aineiston kohdalla ole toisin mainittu, merkittäviä ovat sellaiset muutokset, joiden on katsottu voivan olennaisesti vaikuttaa tutkimustuloksiin ja joita ei ole helposti mahdollista perua. Kaikki ei-merkittävät muutokset kirjataan aineiston kuvailutiedoissa olevaan muutoslokiin.

Esimerkkejä ei-merkittävistä muutoksista:

 • Isosta keskusteluaineistosta pitää poistaa yksittäinen artikkeli asianosaisen pyynnöstä. Tällöin ei olisi muutenkaan mahdollista enää jatkossa tarjota vanhaa versiota.
 • Isossa aineistossa on havaittu, että muutamat käsin kirjoitetut tagit sisältävät kirjoitusvirheen.
 • Aineisto on automaattisesti konvertoitu Latin-1:stä UTF-8-merkistökoodaukseen. Vanha merkistökoodaus on arkiston kautta saatavilla.

Miten uusi versio syntyy?

Jos aineistosta syntyy uusi versio, suhde vanhoihin versioihin merkitään META-SHAREen. Uusi versio saa uuden pysyvän tunnisteen ja uuden META-SHARE-tietueen. META-SHARE-tietueessa uusi versio on merkitty IsNewVersionOf-relaatiolla, ks. alla. Jollei vanha aineisto ole edelleen tutkimuksen kannalta merkittävä, uusi aineisto korvaa vanhan Kielipankin aineistotaulukossa. Myös kielipankki.fi/<lyhenne> vie aina uusimpaan versioon. Vanhojen versioiden tunnisteet kuitenkin säilytetään. Ne vievät joko suoraan vanhaan aineistoon tai aihetta koskevalle selityssivulle (”hautakivisivulle”), jolla kerrotaan, mistä aineiston vielä saa tai miten vanhan aineiston kautta tehdyt haut voidaan toistaa uudessa versiossa.

Karttuvat aineistot

Suomi24: Aineisto päivittyy kahdesti vuodessa. Aineiston lyhenne on Suomi24-<vuosi><vuoden puolisko>, esim. Suomi24-2016H1. Uudemmat versiot sisältävät aina vanhemman version, ja haut voi toistaa rajaamalla ne sopivaan aikaväliin.

Muut aineistot

Uudet aineistot saavat uuden versionumeron, esim. helpuhe-v2. META-SHAREssa on kuvaus uuden version erosta vanhaan. Vanha versio arkistoidaan tarvittaessa, ja tunnisteet vievät ”hautakivisivulle”.

Kielivarojen säilyttäminen

Kielipankki ei poista kielivaroja ilman kielivaran omistajan suostumusta.

Yleiset kielivarojen väliset suhteet

Kukin alla oleva relaatio on esillä olevan kielivaran suhde linkitettävään.

IsVariantFormOf / IsOriginalFormOf

Kyseessä on saman kielivaran kaksi eri versiota tai muunnosta, esimerkiksi eri tavalla paketoitu aineisto.

IsDerivedFrom / IsSourceOf

Kielivara on toisen johdannainen. Esimerkiksi jos korpuksesta on tehty taajuussanasto tai kielimalli.

IsPartOf / HasPart

Kielivara on toisen (laajemman kielivaran tai kokonaisuuden) osa. Voidaan käyttää esimerkiksi sarjamuotoisen aineiston osista.

IsPreviousVersionOf / IsNewVersionOf

Kielivara on edellinen / seuraava versio viitatulle kielivaralle.

IsContinuedBy / Continues

Aineisto on jatkoa toiselle. Sisältö on eri, mutta koostamistapa on sama.

IsCompiledBy / Compiles

Viittaa työkaluun, jonka avulla aineisto on luotu. Voi olla esimerkiksi jäsennin.

IsMetadataFor / HasMetadata

Kielivaraperheellä on yhteinen metadata, esim. yhteinen lisenssi tai yhteinen kuvaus.

Yhteisestä metadatasta ei ole suoraa linkkiä kielivaran sisältöön.

Muut relaatiot

Jollei mikään yllä kuvatuista relaatioista sovi, muita mahdollisia relaatioita löytyy DataCitelta ([1]). Muita kun DataCiten suhdetermejä ei saa käyttää.

Lähteet

[1] DataCite Metadata Working Group. (2016, alkaen sivulta 37). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.0. DataCite e.V. http://doi.org/10.5438/0012

FIN-CLARIN järjestää Aineistoklinikka-kurssin 21.11.2016 – 5.5.2017. Kurssi käynnistyy nelipäiväisellä intensiivijaksolla 21.-24.11.2016.

Aineistoklinikka-kurssi soveltuu kieliaineistojen parissa työskenteleville humanististen ja yhteiskuntatieteellisten alojen opiskelijoille ja tutkijoille. Myös muiden kuin Helsingin yliopiston opiskelijat ovat tervetulleita mukaan!

Lisätietoa ja ilmoittautumisohjeet löytyvät kurssin kotisivulta (ks. ohessa).

Tekstitiedoston tallentaminen UTF-8-muodossa

Mikäli kieliaineistosi sisältää tekstiä, sen käsitteleminen on tehokkainta, jos aineisto on tallennettu raakatekstinä ja UTF-8-merkistökoodauksella. Tässä neuvotaan, miten se tapahtuu.

 

Word-dokumentin muuntaminen UTF-8-muotoiseksi tekstitiedostoksi

Jos tekstiä sisältävä aineistosi on tallennettu esimerkiksi Word-dokumentteina, voit käsitellä aineistoa vain Wordilla tai sen kanssa yhteensopivilla ohjelmilla. Word-dokumentti ei myöskään ole sellaisenaan arkistointikelpoinen muoto. Kun aineistosi on tallennettu raakatekstitiedostoina (plain text) ja lisäksi UTF-8-merkistökoodauksella, voit avata ja käsitellä tiedostoja tehokkaasti monenlaisilla kätevillä työkaluilla sekä Kielipankissa että sen ulkopuolella.

Raakatekstitiedosto sisältää kuitenkin vain merkkejä. Siihen eivät tallennu esimerkiksi Wordilla tehdyt tekstin asettelut, lihavointi tai kursiivi. Jos tarvitset tekstidokumenteista myös taitetut tai muotoillut versiot ihmisten luettaviksi, tallenna sellaiset erikseen. Pysyvää arkistointia varten taitetuista dokumenteista on syytä tehdä esimerkiksi pdf-muotoisia.

Tarvittaessa myös raakatekstin joukkoon voidaan lisätä erilaisia merkkauksia, joilla osoitetaan, missä kohtaa on vaikkapa kappaleen vaihto tai otsikko. Tällaiset merkkaukset kannattaa tehdä jossakin XML-yhteensopivassa muodossa (esim. TEI/XML), jolloin niitä voidaan ohjelmallisesti hyödyntää.

Jos alkuperäinen tiedosto on tehty Microsoft Word -ohjelmalla tai se on esim. RTF-muotoinen, toimi seuraavasti:

 1. Avaa tiedosto MS Word -ohjelmalla tavalliseen tapaan.
 2. Valitse Save As…
 3. Valitse Format: Plain Text (.txt).
 4. Seuraavassa ikkunassa valitse ylhäältä oikeanpuoleinen pallero Other encoding: ja sen oikealla puolella olevasta listasta ’Unicode 5.0 UTF-8’.
  • Ei rastia kohtaan Insert line breaks
  • End lines with: valitse ’CR only’
  • (Ei rastia kohtaan Allow character substitution)
 5. MS Wordissa avoinna olevaa raakatekstitiedostoa voit toki edelleen jatkokäsitellä esim. Wordin etsi & korvaa-toiminnoilla. Muista tarvittaessa lopuksi varmistaa, että tiedosto on tallennettu (myös) UTF-8-muotoisena. Jos muokattavaa on paljon ja/tai haluat käsitellä vaikkapa hakemistollisen tekstitiedostoja kerrallaan, kannattaa etsi ja korvaa -toiminnot tehdä jollakin paremmin tällaiseen käyttöön suunnitellulla tekstieditorilla.
 6. Eri käyttöjärjestelmiin on tarjolla monia hyviä tekstieditoreja. Ellei koneellasi ole kunnollista tekstieditoria, harkitse sellaisen asentamista mahdollisimman pian.
 7. Windowsissa tallennettua tekstitiedostoa voi hätätilassa tarkastella esim. WordPad-ohjelmalla, mutta WordPadin ominaisuudet eivät ole kummoiset, eivätkä merkitkään välttämättä näy oikein.
  • Windows saattaa oletusarvoisesti avata .txt-päätteisen tiedoston Notepad-ohjelmalla, joka ei osaa käsitellä UTF-8-muotoisia tiedostoja ja näyttää ne yhtenä pötkönä ilman rivinvaihtoja.

 

 

 

Raakatekstitiedoston merkistön muuntaminen iconv-työkalulla (unix)

Miksi tiedostot pitää tallentaa UTF-8-merkistökoodauksella? (Mikä se on? Mikä ihme on Unicode?)

Unicode on kansainvälinen merkistöstandardi, jonka avulla lähes kaikki maailman kielet ja niissä käytetyt erikoismerkit voidaan kuvata yksiselitteisesti ja yhteensopivalla tavalla. Jokaisella Unicode-standardissa määritellyllä merkillä on yksilöllinen koodi. Koodeja on määritelty jopa yli 100 000 erilaiselle merkille. Unicode-standardi on otettu laajasti käyttöön, ja lähes kaikki nykyiset tekstiä prosessoivat sovellusohjelmat tukevat sitä.

UTF-8 on Unicode-standardin 8-bittinen koodaustapa. Se on osittain yhteensopiva niiden vanhempien järjestelmien kanssa, joissa merkkikoodeja käsitellään 8-bittisinä. UTF-8-muotoisen tiedoston sisältämät merkit näyttävät samoilta kaikilla tietokoneilla ja kaikissa käyttöjärjestelmissä, jos tiedostoa käytetään ohjelmalla, joka tukee Unicode-standardia ja UTF-8-tiedostoja. Useimmat nykyiset sovellukset tukevat ainakin UTF-8-merkistökoodausta.

UTF-16 on puolestaan Unicode-merkkien 16-bittinen koodaustapa, jossa jokaista merkkiä kuvataan aina kahden 8 bitin tavun muodostamana parina. UTF-16 on vielä hiukan harvinaisempi kuin UTF-8.

Kaikki Kielipankin tarjoamat työkalut edellyttävät, että käsiteltävät tekstitiedostot ovat UTF-8-muotoisia.

Voit esimerkiksi

UTF-8-muotoisen tiedoston jatkokäsittely: tekstieditorit

 • Niin kielentutkijan kuin ohjelmoijankin tarpeisiin soveltuvia, ilmaisia ja monipuolisia tekstieditoreja ovat esim. Notepad++ (Win), jEdit (Win/Mac/Linux), BBEdit (Mac), monenlaiseen käyttöön mukautuva Emacs (Win/Mac/Linux) tai vielä teknisemmin suuntautuneille Vim (Unix/Linux/Win).
Hae Kielipankki-portaalista:
Therese Lindström Tiedemann
Månadens forskare: Therese Lindström Tiedemann

 

Tulevat tapahtumat

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot