Jyrki’s raw mail:

Skriptejä on Korp-palvelimella hakemistossa /v/korp/logutil. Skriptit
eivät vielä(kään) ole Gitissä, mutta vien ne.

Olen ensin muuntanut lokitiedoston TSV-muotoon:

korplog2tsv <(grep '@ 2017-' /v/korp/log/korp-cgi.log) /v/korp/log/korp-cgi-2017*.log > /v/korp/log/korp-cgi-log-info-2017.tsv

(Kuukausittaiset lokitiedostot alkavat maaliskuusta 2017.
Tarkoituksenani on pilkkoa vanhakin lokitiedosto kuukausittaisiksi.)

TSV-muodosta saa tekemäni HTML-taulukot periaatteessa
seuraavanlaisella putkella:

korplogtsv-get-query-corpora /v/korp/log/korp-cgi-log-info-2017.tsv |
 korplogtsv-add-corpus-groups |
 korplogtsv-add-ip-country |
 korplogtsv-query-summarize > korp-usage-2017.html

Skripti korplogtsv-add-ip-country ei kuitenkaan toimi
Korp-palvelimella, koska se vaatii Python pakkaukset python-geoip ja
python-geoip-geolite2 PyPista, enkä ole edes yrittänyt asentaa niitä
Korp-palvelimelle paikallisesti.

Skripti korplogtsv-query-summarize puolestaan olisi järkevää jakaa
kahtia niin, että ensin tuotettaisiin taulukkoa vastaavat tiedot
TSV-muodossa ja siitä sitten toisella skriptillä HTML-sivu. Näin siinä
välissä olisi helppoa suodattaa tietoja esim. niin, että mukaan
tulisivat vain tietyt korpukset.

Skriptejä pitäisi myös täydentää niin, että lopputulos erottelisi
kirjautuneet ja kirjautumattomat käyttäjät. Käsittääkseni Krister
toivoi näin, ja lokeissa on tieto siitä muistaakseni tämän vuoden
huhtikuusta alkaen.

Nämä ohjeet olisi varmaan hyvä olla myös Portaalin
development/korp-sivuilla.
Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317