Egrep

Egrep-ohjelmalla voi tutkia CSC:n laskentaympäristössä (tai muissa unix/linux-ympäristöissä, joihin egrep on asennettu) olevien tekstitiedostojen sisältöä ja tehdä niistä monipuolisia hakuja.

  1. Varmistetaan ensin, että tutkittava tekstitiedosto on UTF-8-muodossa.
  2. Siirretään tiedosto tarvittaessa palvelimelle vaikka omaan kotihakemistoon.
  3. Otetaan komentorivipohjainen pääteyhteys laskentaympäristöön.
  4. Käytetään egrep-työkalua kirjoittamalla komentoriville egrep, sen perään välilyönti, sitten etsittävä merkkijono tai lauseke (ks. ao. esimerkit), taas välilyönti, ja lopuksi sen tekstitiedoston nimi, jonka sisältä haku tehdään.
  5. Egrepin tulos ilmaantuu näytölle. Sitten voitkin kokeilla uudestaan erilaista hakua.
  6. Jos ääkköset tai muut asiat eivät tunnu toimivan oikein, varmista merkistöasetuksesi.

Egrep-esimerkkejä (kannattaa etsiä lisää netistä)

egrep elämä mehiläinen.txt

etsii kaikki rivit joissa esiintyy elämä

egrep -w elämä mehiläinen.txt

pitäisi etsiä välimerkein tai välilyönnein erotetut elämä-sanat.

egrep -w elämä mehiläinen.txt

pitäisi etsiä välimerkein tai välilyönnein erotetut elämä-sanat.

Huom. egrep ei kaikissa toteutuksissa tunnista ääkkösiä aakkosiksi.

Voi käyttää myös käsin kirjoitetulla syötteellä:

egrep omena

(kirjoita tämän jälkeen sanoja; egrep kaiuttaa ne näytölle jos ne sopivat hakukriteeriin.)

egrep -i omena

sopii myös sanoihin, joiden sisällä on isoja kirjaimia.

Säännölliset lausekkeet (regular expressions):

egrep "[Oo]mena"

(toimii jos alkukirjain on iso tai pieni ja muut kirjaimet pienellä)

Ohjelmien sulkeminen

Yleensä ohjelmat lopetetaan komennolla Ctrl-D (esim. egrep tms.).

Käteviä yhden rivin komentosarjoja

cat jaatelo_wiki.jasennetty.txt | cut -f3 | sort | uniq

antaa kaikki tekstitiedoston 3. sarakkeessa esiintyvät ainutlaatuiset merkkijonot (= tässä: ko. tekstissä käytetyt lauseenjäsenten koodit)

Muuta hyödyllistä

Perushakuja tekstikorpuksesta unix-palvelimella: Egrep for linguists (Nikolaj Lindberg)

Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317