Aineiston tekninen muoto: Äänitiedostojen näytteistäminen

Tutkimusta varten arkistoitavien äänitiedostojen tulee olla laadultaan ja tarkkuudeltaan tarkoituksenmukaisia.

Mitä suuremmalla tarkkuudella äänitiedosto tallennetaan, sitä enemmän levytilaa tiedosto vie. Suurikokoisten tiedostojen käsittely ja analyysi voi myös vaatia enemmän laskentatehoa. Aineistoa arkistoidessa täytyy ennakoida erilaisia tulevia tutkimustarpeita ja pyrkiä säilyttämään mahdollisesti hyödyllinen informaatio. Hyvissä olosuhteissa ja korkealaatuisilla laitteilla äänitettyä sekä korkealla resoluutiolla digitoitua äänisignaalia voidaan tutkia monipuolisesti sekä kuulonvaraisin että erilaisin teknisin menetelmin. Jos taas äänitteestä on olemassa vain heikolla resoluutiolla tallennettu tai häviöllisesti pakattu (esim. MP3-muotoinen) tiedosto, äänisignaalia ei voida enää jälkikäteen palauttaa parempaan tarkkuuteen.

Käytännön syistä on järkevää säilyttää aineistosta arkistokopiot riittävän suurella tarkkuudella ja tallentaa tiedostoista tarvittaessa matalammalla tarkkuudella ns. käyttökopioita, joiden käsitteleminen on teknisesti nopeampaa.

On hyvä huomata, ettei hienolla nauhurilla ja suurella digitointitarkkuudella ole mahdollista pelastaa tilannetta, jos mikrofonit on suunnattu väärin tai sijoitettu liian kauas halutuista äänilähteistä tai jos äänitystapahtuma on ollut muilta osin huonosti suunniteltu. Äänitiedoston näytetaajuuden nostaminen jälkikäteen ei myöskään ole sisällön kannalta hyödyllistä.

Äänitiedostojen suositeltava tarkkuus

Suosittelemme äänitiedostojen näytekooksi eli näytesyvyydeksi (engl. bit depth) vähintään 16 bittiä, joka myös yleensä riittää tavanomaiseen äänitteiden analyysiin.

Näytetaajuudeksi (sample rate, sample frequency) suositellaan esimerkiksi puheen akustis-foneettista tutkimusta silmällä pitäen vähintään 22050 Hz (= 22,05 kHz). Puheteknologisissa sovelluksissa käytetään usein alempaa 16 kHz:n näytetaajuutta, jonka katsotaan riittävän kyseisiin tarkoituksiin.

Esimerkiksi CD-äänilevyissä käytetty näytetaajuus on 44100 Hz (44,1 kHz) ja näytesyvyys 16 bittiä. Digitaaliset CD:t on alun perin tarkoitettu musiikin vivahteista kiinnostuneen ihmisen kuunneltaviksi, ja 44100 Hz:n näytetaajuuden avulla voidaankin tallentaa enintään 22050 Hz:n taajuisia ääniä. Hyvillä laitteilla ihmisen kuuloalueen ylärajaa hipovia ääniä voidaan ainakin periaatteessa myös toistaa. CD-levyt ovat myös kaksikanavaisia stereoäänitteitä. Stereoäänitiedoston koko on kaksinkertainen yksikanavaiseen ts. monoäänitiedostoon verrattuna.

Äänitiedostojen näytetaajuuden muuntaminen ja yhtenäistäminen

Jos sinulla on omalla koneellasi yhdessä kansiossa vaikkapa wav-päätteisiä äänitiedostoja ja haluaisit saada niistä kopiot tietyllä taajuudella näytteistettyinä, kokeile SpeCT-kokoelmaan kuuluvaa Praat-skriptiä change_sample_rate_in_folder.praat.

  1. Koneellasi pitää olla asennettuna Praat-ohjelma, jolla Praat-skriptejä voi käyttää. Praat on saatavilla ilmaiseksi ja melkein kaikille käyttöjärjestelmille.
  2. Lataa yllä mainittu skripti ensin täältä ja tallenna skriptitiedosto omalle koneellesi sopivaan paikkaan, josta löydät sen myöhemmin helposti.
  3. Avaa Praat.
  4. Avaa koneelle tallentamasi skriptitiedosto change_sample_rate_in_folder.praat Praat-ohjelmaan valitsemalla Open: Read from file…
  5. Käynnistä skripti valitsemalla editori-ikkunassa Run: Run. Skriptin alussa ilmestyvään lomakkeeseen annetaan hakemistopolku siihen paikkaan, jossa muunnettavat äänitiedostot ovat, sekä haluttu näytetaajuus (esimerkiksi 22050 tai 44100, vrt. yllä). Tiedostojen koosta ja muuntamistarpeista riippuen uudelleen näytteistäminen kestää jonkin aikaa – odota rauhassa.
  6. Muunnetut äänitiedostot ilmestyvät uuteen alihakemistoon entisen hakemiston sisälle.

Komentoriviin tottuneet käyttäjät voivat näytteistää äänitiedostoja nopeasti esimerkiksi unix-pohjaisista järjestelmistä löytyvällä sox-työkalulla. Pienillä muutoksilla myös edellä mainittua Praat-skriptiä on mahdollista käyttää komentoriviltä. Ilman graafista käyttöliittymää se toimii huomattavasti nopeammin.

Ohje: Tutkimuskäyttöä koskevan tietosuojailmoituksen julkaiseminen

Kun ryhdyt käsittelemään Kielipankista saatua, henkilötietoja sisältävää aineistoa uuteen tarkoitukseen, sinun on tehtävä käsittelytarkoitusta koskeva tietosuojailmoitus, julkaistava se avoimesti sähköisessä muodossa ja toimitettava ilmoituksen linkki Kielipankille. Tietosuojailmoituksen tarkoituksena on auttaa rekisteröityjä ymmärtämään, millaisiin tarkoituksiin heidän tietojaan käytetään.

Kielipankin sivuilla on nyt ohjeet, joiden tarkoitus on helpottaa tarvittavien tietojen keräämistä tietosuojailmoitusta varten. Huomaa kuitenkin, että sinun tulee noudattaa henkilötietojen käsittelyssä aina ensisijaisesti oman organisaatiosi antamia tietosuojaohjeita.

Tietosuojailmoitus – ohjeita tutkijoille

Privacy notice – Instructions for researchers

Suomeksi

When you obtain a resource containing personal data from the Language Bank of Finland (Kielipankki) and start processing it for a new purpose, you must prepare a privacy notice regarding the purpose of processing, publish the notice openly in electronic format, and provide a link to the notice to the Language Bank. (lisää…)

<< Donate Speech resource page (commercial / non-academic use)

Suomeksi

Privacy Notice or Controller’s record of processing activities

Instructions for companies and other non-academic organizations

 

The Donate Speech datasets contain audio recordings of speech and written transcripts of the recordings. It is possible that an individual speaker could be identified at least indirectly by combining information included in the resource. Therefore, the resource contains personal data according to the General Data Protection Regulation (GDPR).

When processing the Donate Speech data for the purposes of a company or a non-academic organization, the company/organization must maintain a public record of the processing of personal data related to the Donate Speech resources, and a link to the document must be provided to the Language Bank. The purpose of the privacy statement is to help data subjects understand the purposes for which their data is used.

For more information on the processing of personal data and information for data subjects, see the website of the Data Protection Ombudsman.

Kielipankki – The Language Bank of Finland and the University of Helsinki are not responsible for the content, accuracy, legality or timeliness of the documentation produced by the company/organisation.

At least the following details are usually required for a privacy notice. However, please check the Data Protection Ombudsman’s website for up-to-date guidance.

  • The company or other non-academic organisation acting as controller and their contact details
  • Contact details of the data protection officer of the controller
  • Purpose of the processing of personal data
    • The legal basis of processing the personal data is to be included with respect to the purpose of processing of the controller in question (i.e., not regarding the purpose of processing by the Language Bank).
    • Note, however, that the legal basis for collecting the original Donate Speech data was based on legitimate interest (see the Privacy Notice of the Donate Speech campaign).
  • Legitimate interests of the controller or third party, in case the processing is based on a legitimate interest
  • Description of the personal data that are processed (categories of personal data and categories of data subjects)
  • Recipients of data
    • Here, the recipients of data do not refer to the employees of the controller specified in the notice, but to potential external entities.
    • Please note that in the case of the Donate Speech resources, the recipients can only be subcontractors or service providers acting as processors of personal data, with whom contracts have been concluded as required by law.
  • Transfer of data outside the EEA countries
  • Automated decision-making
  • How long the personal data need to be processed (retention period and determination criteria)
    • The notice should include the estimated end date of the processing.
    • Please note that the personal data may only be stored for as long as there is a legal basis for the processing, up to a maximum of 10 years.
  • The rights of the data subject

 

 

General terms for using the Donate Speech data (companies and non-academic organizations)

 

<< Donate Speech resource page (commercial / non-academic use)

 

 

Last updated: 9.5.2023


Persistent Identifier of this page: urn:nbn:fi:lb-2023042024

<< Lahjoita puhetta -aineistosivu (yritykset)

In English

Tietosuojailmoitus tai seloste henkilötietojen käsittelytoimista

Ohjeita yrityksille ja muille ei-akateemisille organisaatioille, jotka käsittelevät Lahjoita puhetta -aineistoja

 

Lahjoita puhetta -aineistopaketit sisältävät puheäänitteitä ja niiden tekstimuotoisia litteraatteja. Koska on mahdollista, että yksittäinen puhuja olisi tunnistettavissa ainakin epäsuorasti aineistossa esiintyviä tietoja yhdistelemällä, aineisto sisältää tietosuoja-asetuksessa tarkoitettuja henkilötietoja. 

Kun Kielipankin kautta saatua Puhelahjat-aineistoa käsitellään yrityksen tarkoituksiin, yrityksen tulee ylläpitää julkista selostetta aineistoon liittyvien henkilötietojen käsittelystä ja toimittaa dokumentin linkki Kielipankille. Selosteen tarkoitus on auttaa rekisteröityjä ymmärtämään, millaisiin tarkoituksiin heidän tietojaan käytetään. 

Lisätietoa henkilötietojen käsittelystä ja rekisteröityjen informoinnista on tietosuojavaltuutetun sivuilla, https://tietosuoja.fi/rekisteroidyn-informointi. 

Kielipankki ja Helsingin yliopisto eivät vastaa yrityksen/organisaation tuottaman dokumentaation sisällöstä, oikeellisuudesta, lainmukaisuudesta tai ajantasaisuudesta.

Alla on lueteltu tietoja, joita yleensä ainakin tarvitaan tietosuojailmoitukseen. Tarkistathan ajantasaiset ohjeet tietosuojavaltuutetun sivuilta. 

  • Rekisterinpitäjänä toimiva yritys tai muu ei-akateeminen organisaatio ja yhteystiedot
  • Rekisterinpitäjän tietosuojavastaavan yhteystiedot
  • Henkilötietojen käsittelyn tarkoitus
    • Henkilötietojen käsittelyn oikeusperuste on ilmoitettava rekisterinpitäjänä toimivan yrityksen tai organisaation oman käsittelytarkoituksen (ei siis esimerkiksi Kielipankin) osalta.
    • Huomaa kuitenkin, että alkuperäisen Lahjoita puhetta -aineiston keräämisen oikeusperusteena on ollut oikeutettu etu, ks. Lahjoita puhetta -kampanjan tietosuojaseloste.
  • Rekisterinpitäjän tai kolmannen osapuolen oikeutetut edut, jos käsittely perustuu oikeutettuun etuun
  • Kuvaus käsiteltävistä henkilötiedoista (henkilötietoryhmät ja rekisteröityjen ryhmät)
    • Mainitse kyseiseen tarkoitukseen käytettävän Lahjoita puhetta -aineiston/-aineistojen otsikko ja viitetiedot (ks. Lahjoita puhetta -aineistosivu).
    • Mainitse myös, että aineiston sisältämät tiedot on saatu Kielipankin kautta. (Kielipankista saatavaa Lahjoita puhetta -aineistoa käsiteltäessä tietoja ei siis kerätä suoraan rekisteröidyiltä.)
    • Kielipankista saatavan alkuperäisen Lahjoita puhetta -aineiston sisältämiä henkilötietoja on kuvattu aineiston akateemista tutkimuskäyttöä koskevissa tietosuojaehdoissa. Kuvauksesta voi tarvittaessa muokata sopivan version.
  • Tietojen vastaanottajat
    • Tietojen vastaanottajilla ei tarkoiteta rekisterinpitäjänä toimivan yrityksen tai organisaation omia työntekijöitä vaan mahdollisia muita tahoja.
    • Huomaa, että Lahjoita puhetta -aineistoa koskevien sopimusehtojen mukaan tietojen vastaanottajat voivat olla vain käsittelijöinä toimivia alihankkijoita tai palveluntarjoajia, joiden kanssa on tehty lain edellyttämät sopimukset.
  • Tietojen siirtäminen ETA-maiden ulkopuolelle
  • Automatisoitu päätöksenteko
  • Kuinka kauan henkilötietoja tarvitaan (säilytysaika ja määrittämiskriteerit)
    • Tietosuojailmoitukseen tulee kirjata mahdollisimman tarkka arvio ajankohdasta, jolloin henkilötietojen käsittelytarve päättyy.
    • Huomaa, että henkilötietoja saa säilyttää vain niin kauan kuin käsittelyyn on lain mukainen peruste, kuitenkin enintään 10 vuotta.
  • Mitä oikeuksia rekisteröidyllä on

 

 

Lahjoita puhetta -aineistojen käytön yleiset ehdot (yrityksille ja ei-akateemisille organisaatioille)

 

<< Lahjoita puhetta -aineistosivu (yritykset)

 

 

Viimeksi päivitetty: 9.5.2023


Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2023042023

Tietosuojailmoitus – ohjeita tutkijoille

In English

Kun ryhdyt käsittelemään Kielipankista saatua, henkilötietoja sisältävää aineistoa uuteen tarkoitukseen, sinun on tehtävä käsittelytarkoitusta koskeva tietosuojailmoitus, julkaistava se avoimesti sähköisessä muodossa ja toimitettava ilmoituksen linkki Kielipankille. (lisää…)

Tekijänoikeus

Tälle sivulle kootaan tekijänoikeuksiin liittyviä kysymyksiä ja ohjeita.

Kysymyksiä ja vastauksia AV-aineistojen tekijänoikeuksista

Linkkien takaa löytyvillä videoilla FIN-CLARINin tutkimusjohtaja Krister Lindén haastattelee lakimies Pekka Heikkistä, joka vastaa kääntämisen tutkielmaseminaarin opiskelijoiden ja opettajien esittämiin kysymyksiin.

Johdanto 1/2: Mitä tarkoittaa tekijänoikeus?

Määritelmä. Suhde muihin aineettomiin oikeuksiin. Tekijännokeudella on taloudellinen ja moraalinen puoli. Mitä seuraa luvatta käyttämisestä?

Johdanto 2/2: Miten tekijänoikeus eroaa tietosuojasta? Millä periaatteella tietosuojan alaista materiaalia voi kerätä?

Käyttörajoituksista yleensä. Tekijänoikeus on omaperäisyyden suoja. Tietosuoja suojaa henkilöihin liittyviä tietoja.

Henkilötiedot tutkimustarkoitukseen vaativat joko suostumuksen tai yleisen edun mukaista tieteellistä tutkimusta, jonka tunnusmerkit ovat mm. vastuullinen tutkija ja tutkimussuunnitelma.

Kysymys 1: Julkisuuden henkilöiden twiitit tutkimusaineistona

”Minkälaisia tekijänoikeuksia liittyy julkishallinnon, viranomaisten tai poliitikkojen Twitter-tileiltä lähetettyjen twiittien käyttöön osana tutkimusaineistoa. Jos tutkii maisterintutkielmassa tietyllä periodilla tapahtunutta viranomaisviestintää ja sen välittymistä kansalaisille:saako käyttää esimerkiksi Aluehallintovirasto AVIn twiittejä aineistossa vapaasti vai tuleeko minun kysyä niiden käytöstä lupa, entä julkisten henkilöiden, esimerkiksi poliitikkojen twiittejä?”

Riittävän pitkä Twiitti voi olla suojattu, mutta viranomaisten lausumat ovat tekijänoikeudesta vapaa. Rajatapus on siinä, onko twiitti viranomaisena annettu vai henkilökohtainen.

Sitaattioikeus antaa mahdollisuuden siteerata hyvän tavan mukaisesti tarvittavassa laajuudessa. Myös esim. maalauksia voi käyttää sitaatteina, jos voidaan vedota siihen, että se on tarpeen tutkimuksen näkökulmasta.

Henkilökohtainen kopio voi ottaa ilman lupaa siitä, mihin on laillinen pääsy tutkimusvaiheessa ja myös kaveripiirin käyttöä varten, mutta sitä ei voi saattaa saataville siitä eteenpäin, joten tämä voi olla ongelma siinä vaiheessa, kun kerätyn aineiston haluaisi jakaa muiden kanssa.

Kysymys 2: Elokuvien tekijänoikeudet

”Liittyen elokuvien tekijänoikeuksiin, mikäli haluaa käyttää elokuvan ruutukaappauksia gradussa, lukeutuvatko nämä opetukseen ja koulutukseen kuuluviksi materiaaleiksi (eli onko ok liittää tutkielmaan), vai tuleeko hankkia lisenssi elokuvan ulkomaiselta/suomalaiselta tuottajayhtiöltä tms., jos kyseessä on amerikkalainen animaatio?”

Kuvasitaattisäännös koskee myös elokuvan ruutukaappauksia, kuten edellisessä vastauksessa mainittiin.

Kysymys 3: Kuvakaappaukset peleistä

”Jos tutkii videopelien tai elokuvan multimodaalista kerrontaa, voiko ottaa kuvakaappauksia pelistä ja sisällyttää ne graduuni? Mistä haen luvan?”

Myös tähän sopii kuvasitaattisäännös. Pelituottajilla ei ole omaa tekijänoikeusorganisaatiota, josta voisi hakea luvan keskitetysti, mutta jos haluaa pätkän elokuvasta, voi ottaa yhteyttä Audio Visual Finland -järjestöön.

Kysymys 4: Videopelien dialogit

”Jos tutkii videopelin dialogeja, saako gradun liitteenä olla kyseisen pelin dialogilista? Entä voiko tällainen liite olla osa gradua, jos gradu on julkinen? Voiko e-thesiksessä julkaistusta gradusta jättää  julkaisematta pelkästään mahdolliset tekijänoikeuden alaiset liitteet?”

Jos dialogilista tarkoittaa lista dialogeista, se ei ylitä teoskynnystä, vaikka yksittäisellä videopelin dialogilla on tekijänoikeus. Gradun voi toki jättää ilman liitteitä, mutta tässä voi tulla vastaan yliopston tieteellisen työn vaatimukset. Dialogia voisi kenties lainata tarpeellisessa laajuudessa itse gradussa ja kommentoida sitä mukaa kun se on tarpeen.

Kysymys 5: Otteet elokuvien tekstityksestä

”Jos tekee kontrastiivista tutkimusta tekstityksen konventioiden vastaanotosta, saako esittää otteen tekstitetystä elokuvasta koeyleisölle? Jos ei, miten voi toimia? Entä saako tehdä samaan elokuvaotteeseen omia tekstityksiä vastaanottoeroja tutkiessa? Voiko näitä esittää?”

Käännös on oma tekijänoikeutensa. Jos tehdään kokonaan uusi se on uuden kääntäjän. Jos tehdään vain pieni muunnos, syntyy yhteisteos, johon sekä uudella että alkuperäisellä kääntäjällä on oikeus.

Yleisön saatavaille saattamista riippuu siitä onko yleisö ennalta rajattu henkilöjoukko, jolloin jos tutkija kutsuu ennalta nimetyt n. 10 henkilöä katsomaan ja arvioimaan elokuvaa, tämä ei ole julkista esittämistä.

Käännöstekstitystä voi toki tutkia myös esim. CC-BY-lisensioiduilla YouTube-videoilla, jolloin aineisto on vapaasti kaikkien arvioitavana ja päätelmien tieteellinen arviointi onnistuu helpommin.

Kysymys 6: Elokuvan näyttäminen silmänliiketutkimuksen koehenkilöille

”Jos tekee silmänliiketutkimusta elokuvaotteesta, onko elokuvan esittäminen kymmenelle ihmiselle yksitellen ja erikseen julkinen esitys? Kun elokuvaan sitten projisoi koehenkilöiden silmänliikkeet ja tämän ”tutkimustuloksen” esittää esimerkiksi luokkahuoneessa, onko teosta muokattu? Saako niin ylipäätään tehdä?”

Kymmenelle henkilölle sen voinee esittää kuten edellisessä vastauksessa todettiin. Tällaiselle koeyleisölle voinee myös esittää tutkimustuloksen. Kun tulosta halutaan näyttää luokkahuoneessa, joutunee hankkimaan luvan, ellei ole käyttänyt esim. aikaisemmin mainittua CC-BY videota.

Kysymys 7: Tekijänoikeuslupien hakeminen: mitä ohjeita opiskelijoille?

”Onko Helsingin yliopistolla opiskelijoille olemassa valmista tekijänoikeusluvan hakemuspohjaa tai ylipäätään parhaita käytänteitä helpottamaan opiskelijoiden tutkimusprojektien etenemistä?”

Tekijänoikeudesta voi sopia melko vapaamuotoisesti. Siihen voi riittää jopa sähköpostiviesti oikeudenhaltijalta. Sopimukset ovat perinteisesti pitkä lähinnä sen takia, että halutaan varautua monenlaisiin ongelmatilanteisiin.

Kysymys 8: Kauanko kestää luvan hakeminen tutkimuskäyttöön?

”Kuinka pitkistä prosesseista on kysymys, kun haetaan teoksen käyttölupaa tutkimukseen?”

Yksttäinen käyttö yhteen tarkoitukseen onnistuu yleensä hyvin nopeasti eikä ole kovin kallista suoraan tekijänoikeusorganisaatiolta. Ison aineiston saaminen useampaan tarkoitukseen on taas haastavampi.

Kopiostolla on tekijänoikeuteen liittyen Kopiraittila https://kopiraittila.fi/, josta selviää monia perusasioita.

Kysymys 9: Elokuvan/videopelin tekijänoikeuksien haltijan selvittäminen

”Mistä löydän teoksen (elokuvan/videopelin ja näiden suomennosten) tekijänoikeuksien haltijan?”

Tuottajalla on aika laajasti tiedot hallussaan, mutta mitään yleistä rekisteriä ei ole olemassa tekijänoikeuden haltijoista.

Jos oikeudenhaltija ei perusteellisten etsintöjen jälkeen löydy ja siitä ilmoittaa EU:n teollisoikeuksien virastolle, teosta voi sen jälkeen käyttää ilman lupaa. Tällainen selvitys on kuitenkin melko isotöinen.

Kysymys 10: Kommenttien lainaaminen julkisesta Facebook-ryhmästä

”Saako julkisesta Facebook-ryhmästä lainata keskustelujen kommentteja tutkielmaan tai julkaistavaan artikkeliin ilman kirjoittajien lupaa? Jos saa, niin pitääkö kirjoittajien anonymiteettiä kuitenkin suojella? Entäpä Twitter tai Instagramin kaikille näkyvät julkaisut?”

Varsin lyhytkin teksti voi ylittää teoskynnyksen, mutta kommentit voidaan lainata hyvän tavan mukaisesti, kunhan mainitsee tekijän nimen. Jos tekijä puhuu muista, niistä on kuitenkin syytä käyttää pseudonymia.

Tekstitiedoston tallentaminen UTF-8-muodossa

Mikäli kieliaineistosi sisältää tekstiä, sen käsitteleminen on tehokkainta, jos aineisto on tallennettu raakatekstinä ja UTF-8-merkistökoodauksella. Tässä neuvotaan, miten se tapahtuu.

 

Word-dokumentin muuntaminen UTF-8-muotoiseksi tekstitiedostoksi

Jos tekstiä sisältävä aineistosi on tallennettu esimerkiksi Word-dokumentteina, voit käsitellä aineistoa vain Wordilla tai sen kanssa yhteensopivilla ohjelmilla. Word-dokumentti ei myöskään ole sellaisenaan arkistointikelpoinen muoto. Kun aineistosi on tallennettu raakatekstitiedostoina (plain text) ja lisäksi UTF-8-merkistökoodauksella, voit avata ja käsitellä tiedostoja tehokkaasti monenlaisilla kätevillä työkaluilla sekä Kielipankissa että sen ulkopuolella.

Raakatekstitiedosto sisältää kuitenkin vain merkkejä. Siihen eivät tallennu esimerkiksi Wordilla tehdyt tekstin asettelut, lihavointi tai kursiivi. Jos tarvitset tekstidokumenteista myös taitetut tai muotoillut versiot ihmisten luettaviksi, tallenna sellaiset erikseen. Pysyvää arkistointia varten taitetuista dokumenteista on syytä tehdä esimerkiksi pdf-muotoisia.

Tarvittaessa myös raakatekstin joukkoon voidaan lisätä erilaisia merkkauksia, joilla osoitetaan, missä kohtaa on vaikkapa kappaleen vaihto tai otsikko. Tällaiset merkkaukset kannattaa tehdä jossakin XML-yhteensopivassa muodossa (esim. TEI/XML), jolloin niitä voidaan ohjelmallisesti hyödyntää.

Jos alkuperäinen tiedosto on tehty Microsoft Word -ohjelmalla tai se on esim. RTF-muotoinen, toimi seuraavasti:

  1. Avaa tiedosto MS Word -ohjelmalla tavalliseen tapaan.
  2. Valitse Save As…
  3. Valitse Format: Plain Text (.txt).
  4. Seuraavassa ikkunassa valitse ylhäältä oikeanpuoleinen pallero Other encoding: ja sen oikealla puolella olevasta listasta ’Unicode 5.0 UTF-8’.
    • Ei rastia kohtaan Insert line breaks
    • End lines with: valitse ’CR only’
    • (Ei rastia kohtaan Allow character substitution)
  5. MS Wordissa avoinna olevaa raakatekstitiedostoa voit toki edelleen jatkokäsitellä esim. Wordin etsi & korvaa-toiminnoilla. Muista tarvittaessa lopuksi varmistaa, että tiedosto on tallennettu (myös) UTF-8-muotoisena. Jos muokattavaa on paljon ja/tai haluat käsitellä vaikkapa hakemistollisen tekstitiedostoja kerrallaan, kannattaa etsi ja korvaa -toiminnot tehdä jollakin paremmin tällaiseen käyttöön suunnitellulla tekstieditorilla.
  6. Eri käyttöjärjestelmiin on tarjolla monia hyviä tekstieditoreja. Ellei koneellasi ole kunnollista tekstieditoria, harkitse sellaisen asentamista mahdollisimman pian.
  7. Windowsissa tallennettua tekstitiedostoa voi hätätilassa tarkastella esim. WordPad-ohjelmalla, mutta WordPadin ominaisuudet eivät ole kummoiset, eivätkä merkitkään välttämättä näy oikein.
    • Windows saattaa oletusarvoisesti avata .txt-päätteisen tiedoston Notepad-ohjelmalla, joka ei osaa käsitellä UTF-8-muotoisia tiedostoja ja näyttää ne yhtenä pötkönä ilman rivinvaihtoja.

 

 

 

Raakatekstitiedoston merkistön muuntaminen iconv-työkalulla (unix)

Miksi tiedostot pitää tallentaa UTF-8-merkistökoodauksella? (Mikä se on? Mikä ihme on Unicode?)

Unicode on kansainvälinen merkistöstandardi, jonka avulla lähes kaikki maailman kielet ja niissä käytetyt erikoismerkit voidaan kuvata yksiselitteisesti ja yhteensopivalla tavalla. Jokaisella Unicode-standardissa määritellyllä merkillä on yksilöllinen koodi. Koodeja on määritelty jopa yli 100 000 erilaiselle merkille. Unicode-standardi on otettu laajasti käyttöön, ja lähes kaikki nykyiset tekstiä prosessoivat sovellusohjelmat tukevat sitä.

UTF-8 on Unicode-standardin 8-bittinen koodaustapa. Se on osittain yhteensopiva niiden vanhempien järjestelmien kanssa, joissa merkkikoodeja käsitellään 8-bittisinä. UTF-8-muotoisen tiedoston sisältämät merkit näyttävät samoilta kaikilla tietokoneilla ja kaikissa käyttöjärjestelmissä, jos tiedostoa käytetään ohjelmalla, joka tukee Unicode-standardia ja UTF-8-tiedostoja. Useimmat nykyiset sovellukset tukevat ainakin UTF-8-merkistökoodausta.

UTF-16 on puolestaan Unicode-merkkien 16-bittinen koodaustapa, jossa jokaista merkkiä kuvataan aina kahden 8 bitin tavun muodostamana parina. UTF-16 on vielä hiukan harvinaisempi kuin UTF-8.

Kaikki Kielipankin tarjoamat työkalut edellyttävät, että käsiteltävät tekstitiedostot ovat UTF-8-muotoisia.

Voit esimerkiksi

UTF-8-muotoisen tiedoston jatkokäsittely: tekstieditorit

  • Niin kielentutkijan kuin ohjelmoijankin tarpeisiin soveltuvia, ilmaisia ja monipuolisia tekstieditoreja ovat esim. Notepad++ (Win), jEdit (Win/Mac/Linux), BBEdit (Mac), monenlaiseen käyttöön mukautuva Emacs (Win/Mac/Linux) tai vielä teknisemmin suuntautuneille Vim (Unix/Linux/Win).
Hae Kielipankki-portaalista:
Harri Uusitalo
Kuukauden tutkija: Harri Uusitalo

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot