Tekstitiedoston merkistökoodauksen muuntaminen iconv-komennolla

Kaikki Kielipankin työkalut edellyttävät syötteenä annettavan tekstitiedoston olevan UTF-8- eli Unicode-muodossa. UTF-8 on niin yleisesti hyväksytty ja yhteensopiva merkistöstandardi, että sitä on syytä pyrkiä käyttämään aina. Sovelluspalvelimen työkaluilla käsiteltäviksi tarkoitetut tekstitiedostot kannattaa mahdollisuuksien mukaan tallentaa UTF8-muotoisina jo omalla koneella.

Mikäli jostakin syystä haluat muuntaa sovelluspalvelimella olevan tekstitiedoston merkistökoodauksen (esim. ISO-Latin1 -> UTF8), tässä on ohjeet.

Kirjaudu ensin sovelluspalvelimelle (taito-shell.csc.fi)

Jotta voit käyttää iconv-työkalua, sinun on etukäteen tiedettävä tai arvattava, mikä merkistökoodaus on käytössä alkuperäisessä tekstitiedostossa. Seuraavassa esimerkissä oletetaan, että alkuperäinen tiedosto on länsieurooppalaisessa Latin1-muodossa ja se halutaan muuntaa UTF8-muotoon.

Kirjoita komento:

iconv -f ISO−8859−1 -t UTF8 -o uusiteksti.txt alkuperainenteksti.txt

Olethan tarkkana. Jos tiedosto näyttää tämän jälkeen sovelluspalvelimen työkaluilla oudolta, on syytä oletusmerkistösi ko. palvelimella ja tarvittaessa myös pääteyhteysohjelmasi merkistöasetukset. On myös mahdollista, että tiedosto ei ollutkaan alunperin Latin1-muotoinen.

Muita sovelluspalvelimen käyttöohjeita

Hae Kielipankki-portaalista:
Kuukauden tutkija: Katri Leino

 

Tulevat tapahtumat

  1. Kurssi: Puheen analyysin perusteet

    28.10.201913.12.2019
  2. Course: Data Clinic 2019-20

    1.11.201917.4.2020

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317