Tekstitiedoston merkistökoodauksen muuntaminen iconv-komennolla

Kaikki Kielipankin työkalut edellyttävät syötteenä annettavan tekstitiedoston olevan UTF-8- eli Unicode-muodossa. UTF-8 on niin yleisesti hyväksytty ja yhteensopiva merkistöstandardi, että sitä on syytä pyrkiä käyttämään aina. CSC:n laskentaympäristön työkaluilla käsiteltäviksi tarkoitetut tekstitiedostot kannattaa mahdollisuuksien mukaan tallentaa UTF8-muotoisina jo omalla koneella.

Mikäli jostakin syystä haluat muuntaa laskentaympäristössä olevan tekstitiedoston merkistökoodauksen (esim. ISO-Latin1 -> UTF8), tässä on ohjeet.

Kirjaudu ensin laskentaympäristöön.

Jotta voit käyttää iconv-työkalua, sinun on etukäteen tiedettävä tai arvattava, mikä merkistökoodaus on käytössä alkuperäisessä tekstitiedostossa. Seuraavassa esimerkissä oletetaan, että alkuperäinen tiedosto on länsieurooppalaisessa Latin1-muodossa ja se halutaan muuntaa UTF8-muotoon.

Kirjoita komento:

iconv -f ISO−8859−1 -t UTF8 -o uusiteksti.txt alkuperainenteksti.txt

Olethan tarkkana. Jos tiedosto näyttää tämän jälkeen laskentaympäristön työkaluilla oudolta, on syytä oletusmerkistösi ko. palvelimella ja tarvittaessa myös pääteyhteysohjelmasi merkistöasetukset. On myös mahdollista, että tiedosto ei ollutkaan alunperin Latin1-muotoinen.

Muita laskemtaympäristön käyttöohjeita

Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317