Oletusmerkistön vaihtaminen Unicodeen (UTF-8) laskentaympäristössä

Kielipankin käyttäjille CSC:n laskentaympäristön oletusmerkistökoodauksen pitäisi olla en_US.UTF-8 (eli Unicode-merkistö). Näin ollen ongelmia ei yleensä pitäisi esiintyä esimerkiksi ääkkösten ja muiden erikoismerkkien suhteen. Tämä toki edellyttää myös, että kaikki palvelimella käsittelemäsi tekstitiedostot on tallennettu UTF8-muotoisina.

Huom. Myös käyttämäsi pääteohjelmassa (Windows-koneissa esim. PuTTY tai Mac-koneissa Terminal) täytyy säätää merkistöasetus vastaavasti, jotta verkon yli siirtyvät merkit myös näkyvät oikein omalla koneellasi.

Kaikki Kielipankin työkalut (paitsi AaltoASR-puheentunnistin) olettavat syötteen olevan UTF8-muodossa.

Laskentaympäristön merkistöasetusten määritteleminen ja tallentaminen

Alla olevin määrityksin voi tarvittaessa muuttaa unix-pohjaisen laskentaympäristön merkistöasetuksia. Asetukset täytyy tallentaa ko. tavalla vain kerran, minkä jälkeen ne tulevat voimaan aina heti ko. palvelimelle kirjautuessa.

Kirjaudu ensin laskentaympäristöön.

Lisää kotihakemistosi tiedostoihin .bashrc ja .cshrc rivit:

     	
  • export LC_ALL=fi_FI.utf8
  • export LANG=fi_FI.utf8
  • export LESSCHARSET=utf-8

Jos kyseisiä tiedostoja ei vielä ole kotihakemistossa olemassa, sellaiset tulee samalla luotua.

Mainitut lisäykset voi tehdä esim. pico-tekstieditorilla seuraavasti:

  • Siirry ensin kotihakemistoosi laskentaympäristössä kirjoittamalla
cd

ja painamalla rivinvaihtoa.

  • Kirjoita sitten
pico .bashrc
  • Kirjoita joko uuteen tyhjään tiedostoon tai aiemman tekstin alapuolelle em. rivit ts. kolme export-komentoa. (Huom. Copy-paste ei välttämättä toimi oikein pääteohjelmassa! Ole tarkkana, että kirjoitat kaiken oikein ja että rivinvaihdot tulevat oikeisiin kohtiin.)
  • Tallenna tiedosto painamalla Ctrl-X. (Jos tiedosto oli jo olemassa, vastaa overwrite-kysymykseen painamalla Y.)
  • Kirjoita
pico .cshrc

ja lisää samat rivit siihenkin. Tallenna.

Lisää vielä vastaavalla tavalla kotihakemistosi tiedostoon .bash_profile seuraava rivi:

. ~/.bashrc

Kirjaudu lopuksi ulos palvelimelta ja uudelleen sisään, jotta muutokset tulevat voimaan.<

Muita laskentaympäristön käyttöohjeita

Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317