Egrep

Egrep-ohjelmalla voi tutkia Kielipankin sovelluspalvelimella (tai muilla unix/linux-palvelimilla, joihin egrep on asennettu) olevien tekstitiedostojen sisältöä ja tehdä niistä monipuolisia hakuja.

  1. Varmistetaan ensin, että tutkittava tekstitiedosto on UTF-8-muodossa.
  2. Siirretään tiedosto tarvittaessa palvelimelle vaikka omaan kotihakemistoon.
  3. Otetaan komentorivipohjainen pääteyhteys sovelluspalvelimeen.
  4. Käytetään egrep-työkalua kirjoittamalla komentoriville egrep, sen perään välilyönti, sitten etsittävä merkkijono tai lauseke (ks. ao. esimerkit), taas välilyönti, ja lopuksi sen tekstitiedoston nimi, jonka sisältä haku tehdään.
  5. Egrepin tulos ilmaantuu näytölle. Sitten voitkin kokeilla uudestaan erilaista hakua.
  6. Jos ääkköset tai muut asiat eivät tunnu toimivan oikein, varmista merkistöasetuksesi.

Egrep-esimerkkejä (kannattaa etsiä lisää netistä)

egrep elämä mehiläinen.txt

etsii kaikki rivit joissa esiintyy elämä

egrep -w elämä mehiläinen.txt

pitäisi etsiä välimerkein tai välilyönnein erotetut elämä-sanat. Ei toimi hipulla, mutta voi toimia jossain (egrep ei kaikissa toteutuksissa tunnista ääkkösiä aakkosiksi!)

egrep -w elämä mehiläinen.txt

pitäisi etsiä välimerkein tai välilyönnein erotetut elämä-sanat. Ei toimi hipulla, mutta voi toimia jossain (egrep ei kaikissa toteutuksissa tunnista ääkkösiä aakkosiksi!)

Voi käyttää myös käsin kirjoitetulla syötteellä:

egrep omena

(kirjoita tämän jälkeen sanoja; egrep kaiuttaa ne näytölle jos ne sopivat hakukriteeriin.)

egrep -i omena

sopii myös sanoihin, joiden sisällä on isoja kirjaimia.

Säännölliset lausekkeet (regular expressions):

egrep "[Oo]mena"

(toimii jos alkukirjain on iso tai pieni ja muut kirjaimet pienellä)

Ohjelmien sulkeminen

Yleensä ohjelmat lopetetaan komennolla Ctrl-D (esim. egrep tms.).

Käteviä yhden rivin komentosarjoja

cat jaatelo_wiki.jasennetty.txt | cut -f3 | sort | uniq

antaa kaikki tekstitiedoston 3. sarakkeessa esiintyvät ainutlaatuiset merkkijonot (= tässä: ko. tekstissä käytetyt lauseenjäsenten koodit)

Muuta hyödyllistä

Perushakuja tekstikorpuksesta unix-palvelimella: Egrep for linguists (Nikolaj Lindberg)

Hae Kielipankki-portaalista:
Kuukauden tutkija: Maija Saviniemi

 

Tulevat tapahtumat

  1. Kurssi: Puheen analyysin perusteet

    28.10.201913.12.2019
  2. Course: Data Clinic 2019-20

    1.11.201917.4.2020

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317