Kielipankki esittäytyy Tampereen yliopiston kurssilla Digitaalinen historia 1800-1900-luvuilla

Digitaalisen historian kurssilla opitaan käyttämään Kielipankin Korp-palvelua ja Kielipankissa olevia tekstiaineistoja 1800- ja 1900-luvuilta.

Paikka: Pinni B0090, Tampereen yliopisto
Luennoitsija: Mietta Lennes

Kurssin Moodle-alue

 

 

 

 

FIN-CLARIN järjestää Aineistoklinikka-kurssin 21.11.2016 – 5.5.2017. Kurssi käynnistyy nelipäiväisellä intensiivijaksolla 21.-24.11.2016.

Aineistoklinikka-kurssi soveltuu kieliaineistojen parissa työskenteleville humanististen ja yhteiskuntatieteellisten alojen opiskelijoille ja tutkijoille. Myös muiden kuin Helsingin yliopiston opiskelijat ovat tervetulleita mukaan!

Lisätietoa ja ilmoittautumisohjeet löytyvät kurssin kotisivulta (ks. ohessa).

FIN-CLARIN järjestää korpuslingvistiikan johdantokurssin 16.1.-3.3.2017.

Kurssi suoritetaan kokonaan etäopiskeluna Moodle-oppimisympäristössä. Mukaan mahtuvat lähtökohtaisesti kaikki halukkaat ja sille voi osallistua myös muista yliopistoista käsin. Lisätietoa ja ilmoittautumisohjeet löytyvät kurssin kotisivulta (ks. ohessa).

Tekstitiedoston tallentaminen UTF-8-muodossa

Mikäli kieliaineistosi sisältää tekstiä, sen käsitteleminen on tehokkainta, jos aineisto on tallennettu raakatekstinä ja UTF-8-merkistökoodauksella. Tässä neuvotaan, miten se tapahtuu.

 

Word-dokumentin muuntaminen UTF-8-muotoiseksi tekstitiedostoksi

Jos tekstiä sisältävä aineistosi on tallennettu esimerkiksi Word-dokumentteina, voit käsitellä aineistoa vain Wordilla tai sen kanssa yhteensopivilla ohjelmilla. Word-dokumentti ei myöskään ole sellaisenaan arkistointikelpoinen muoto. Kun aineistosi on tallennettu raakatekstitiedostoina (plain text) ja lisäksi UTF-8-merkistökoodauksella, voit avata ja käsitellä tiedostoja tehokkaasti monenlaisilla kätevillä työkaluilla sekä Kielipankissa että sen ulkopuolella.

Raakatekstitiedosto sisältää kuitenkin vain merkkejä. Siihen eivät tallennu esimerkiksi Wordilla tehdyt tekstin asettelut, lihavointi tai kursiivi. Jos tarvitset tekstidokumenteista myös taitetut tai muotoillut versiot ihmisten luettaviksi, tallenna sellaiset erikseen. Pysyvää arkistointia varten taitetuista dokumenteista on syytä tehdä esimerkiksi pdf-muotoisia.

Tarvittaessa myös raakatekstin joukkoon voidaan lisätä erilaisia merkkauksia, joilla osoitetaan, missä kohtaa on vaikkapa kappaleen vaihto tai otsikko. Tällaiset merkkaukset kannattaa tehdä jossakin XML-yhteensopivassa muodossa (esim. TEI/XML), jolloin niitä voidaan ohjelmallisesti hyödyntää.

Jos alkuperäinen tiedosto on tehty Microsoft Word -ohjelmalla tai se on esim. RTF-muotoinen, toimi seuraavasti:

  1. Avaa tiedosto MS Word -ohjelmalla tavalliseen tapaan.
  2. Valitse Save As…
  3. Valitse Format: Plain Text (.txt).
  4. Seuraavassa ikkunassa valitse ylhäältä oikeanpuoleinen pallero Other encoding: ja sen oikealla puolella olevasta listasta ’Unicode 5.0 UTF-8’.
    • Ei rastia kohtaan Insert line breaks
    • End lines with: valitse ’CR only’
    • (Ei rastia kohtaan Allow character substitution)
  5. MS Wordissa avoinna olevaa raakatekstitiedostoa voit toki edelleen jatkokäsitellä esim. Wordin etsi & korvaa-toiminnoilla. Muista tarvittaessa lopuksi varmistaa, että tiedosto on tallennettu (myös) UTF-8-muotoisena. Jos muokattavaa on paljon ja/tai haluat käsitellä vaikkapa hakemistollisen tekstitiedostoja kerrallaan, kannattaa etsi ja korvaa -toiminnot tehdä jollakin paremmin tällaiseen käyttöön suunnitellulla tekstieditorilla.
  6. Eri käyttöjärjestelmiin on tarjolla monia hyviä tekstieditoreja. Ellei koneellasi ole kunnollista tekstieditoria, harkitse sellaisen asentamista mahdollisimman pian.
  7. Windowsissa tallennettua tekstitiedostoa voi hätätilassa tarkastella esim. WordPad-ohjelmalla, mutta WordPadin ominaisuudet eivät ole kummoiset, eivätkä merkitkään välttämättä näy oikein.
    • Windows saattaa oletusarvoisesti avata .txt-päätteisen tiedoston Notepad-ohjelmalla, joka ei osaa käsitellä UTF-8-muotoisia tiedostoja ja näyttää ne yhtenä pötkönä ilman rivinvaihtoja.

 

 

 

Raakatekstitiedoston merkistön muuntaminen iconv-työkalulla (unix)

Miksi tiedostot pitää tallentaa UTF-8-merkistökoodauksella? (Mikä se on? Mikä ihme on Unicode?)

Unicode on kansainvälinen merkistöstandardi, jonka avulla lähes kaikki maailman kielet ja niissä käytetyt erikoismerkit voidaan kuvata yksiselitteisesti ja yhteensopivalla tavalla. Jokaisella Unicode-standardissa määritellyllä merkillä on yksilöllinen koodi. Koodeja on määritelty jopa yli 100 000 erilaiselle merkille. Unicode-standardi on otettu laajasti käyttöön, ja lähes kaikki nykyiset tekstiä prosessoivat sovellusohjelmat tukevat sitä.

UTF-8 on Unicode-standardin 8-bittinen koodaustapa. Se on osittain yhteensopiva niiden vanhempien järjestelmien kanssa, joissa merkkikoodeja käsitellään 8-bittisinä. UTF-8-muotoisen tiedoston sisältämät merkit näyttävät samoilta kaikilla tietokoneilla ja kaikissa käyttöjärjestelmissä, jos tiedostoa käytetään ohjelmalla, joka tukee Unicode-standardia ja UTF-8-tiedostoja. Useimmat nykyiset sovellukset tukevat ainakin UTF-8-merkistökoodausta.

UTF-16 on puolestaan Unicode-merkkien 16-bittinen koodaustapa, jossa jokaista merkkiä kuvataan aina kahden 8 bitin tavun muodostamana parina. UTF-16 on vielä hiukan harvinaisempi kuin UTF-8.

Kaikki Kielipankin tarjoamat työkalut edellyttävät, että käsiteltävät tekstitiedostot ovat UTF-8-muotoisia.

Voit esimerkiksi

UTF-8-muotoisen tiedoston jatkokäsittely: tekstieditorit

  • Niin kielentutkijan kuin ohjelmoijankin tarpeisiin soveltuvia, ilmaisia ja monipuolisia tekstieditoreja ovat esim. Notepad++ (Win), jEdit (Win/Mac/Linux), BBEdit (Mac), monenlaiseen käyttöön mukautuva Emacs (Win/Mac/Linux) tai vielä teknisemmin suuntautuneille Vim (Unix/Linux/Win).

Tekstin automaattinen perusmuotoistaminen, jäsentäminen ja muut merkkaukset

Tekstin sisältöä voidaan automaattisesti esikäsitellä ja annotoida monin tavoin. Tässä on muutamia esimerkkejä saatavilla olevista työkaluista. Tutkimuskäytössä on toki hyvä muistaa, etteivät menetelmät ole virheettömiä.

Suomen kielen tilastollisen dependenssijäsentimen (finnish-parse) käyttö CSC:n laskentaympäristössä

CSC:n laskentaympäristöön asennetulla finnish-parse-työkalulla voi jäsentää haluamansa suomenkielisen tekstitiedoston. Kielipankin jäsentimiä voi käyttää myös Myllyn kautta.

CSC:n laskentaympäristössä jäsennys onnistuu seuraavasti:

  • Muunna analysoitava tiedosto tarvittaessa etukäteen raakatekstiksi (plain text) ja Unicode-muotoon (UTF-8). On myös turvallisinta, ettei tiedoston nimessä ole välilyöntejä tai ääkkösiä.
  • Siirrä käsiteltävä tiedosto omalta koneeltasi CSC:n laskentaympäristössä olevaan kotihakemistoosi (ohje tiedoston siirtämiseksi WinSCP-ohjelmalla.
  • Kirjaudu laskentaympäristöön.
  • Kirjoita (tai copy-pastea) komentoriville seuraava komentorimpsu. Vaihda teksti.txt:n tilalle oman tekstitiedostosi nimi ja tuloste.txt:n tilalle tarvittaessa jokin muu nimi.
cat teksti.txt | finnish-parse > tuloste.txt
  • Paina lopuksi enteriä, jolloin jäsennys alkaa. Odottele rauhassa. Huomaa, että jäsentimen käynnistyminen kestää hetken riippumatta siitä, kuinka pitkä teksti on kyseessä, mutta itse jäsennys tapahtuu suhteellisen nopeasti.
  • Kun näet komentorivillä taas normaalin kehotteen, pitäisi kotihakemistoosi olla ilmestynyt tiedosto tuloste.txt, jossa alkuperäinen teksti on jäsennettynä. Voit tarkistaa tiedoston sisällön komennolla
less tuloste.txt
  • Poistu less-selailutilasta Q-näppäintä painamalla.
    Huom. Jos less-työkalu näyttää ääkkösten paikalla monen merkin pituisia omituisia rimpsuja, less-ohjelman merkistöasetus on väärä. Jos mitään ääkkösiä sisältävää sanaa ei ole jäsennetty, komentotulkin merkistöasetus on väärä. Kummassakin tapauksessa kannattaa luultavasti määritellä vielä laskentaympäristön oletusmerkistöt ja kokeilla sitten ajaa jäsennys uudelleen.
  • Siirrä valmis tiedosto tarvittaessa laskentaympäristöstä takaisin omalle koneellesi.

Jäsentimen käyttämä annotaatiomuoto

finnish-parse -skripti tuottaa oletuksena Universal Dependencies -järjestelmän version 1 mukaista muotoa.

Esimerkki:

echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse

1    Kielipankki    kieli#pankki    NOUN    _    Case=Nom|Number=Sing    nsubj:cop    _    _
2    on    olla    VERB    _    Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act    6    cop    _    _
3    kieliaineistoja    kieli#aineisto    NOUN    _    Case=Par|Number=Plur    dobj    _    _
4    käyttävien    käyttää    VERB    _    Case=Gen|Degree=Pos|Number=Plur|PartForm=Pres|VerbForm=Part|Voice=Act    5    acl    _    _
5    tutkijoiden    tutkija    NOUN    _    Case=Gen|Number=Plur    6    nmod:poss    _    _
6    palvelukokonaisuus    palvelu#kokonaisuus    NOUN    _    Case=Nom|Number=Sing    0    root    _    _
7    .    .    PUNCT    _    _    6    punct    _    _

Universal Dependencies (UD) -järjestelmästä on olemassa myös päivitetty versio 2, mutta sen toteutus finnish-parse-jäsentimeen ei ole vielä täysin valmis. UD2-muoto tulee käyttöön lähitulevaisuudessa. Tarvittaessa jäsentimellä voi myös jatkossa tuottaa ykkösversion mukaista muotoa käyttämällä komennon perässä valitsinta –ud1.

Mikäli haluat saada jäsentimen tuottamaan Korp-palvelussa laajimmin käytettyä muotoa, voit käyttää komennon perässä valitsinta: finnish-parse –stanford. Kuvaukset –stanford -kytkimen tuottamista tageista löytyvät Korpin korpusannotaatiosivulta.

Esimerkki:

echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse --stanford

1    Kielipankki    kieli|pankki    N    NUM_Sg|CASE_Nom|CASECHANGE_Up    6    nsubj-cop
2    on    olla    V    PRS_Sg3|VOICE_Act|TENSE_Prs|MOOD_Ind    6    cop
3    kieliaineistoja    kieli|aineisto    N    NUM_Pl|CASE_Par    4    dobj
4    käyttävien    käyttää    V    NUM_Pl|CASE_Gen|VOICE_Act|PCP_PrsPrc|CMP_Pos    5    partmod
5    tutkijoiden    tutkija    N    NUM_Pl|CASE_Gen    6    poss
6    palvelukokonaisuus    palvelu|kokonaisuus    N    NUM_Sg|CASE_Nom    0    ROOT
7    .    .    Punct    _    6    punct

Interaktiivinen käyttö

finnish-parse-työkalua voi käyttää myös interaktiivisesti jättämällä pois tiedoston nimen. Komento

finnish-parse

lukee käyttäjän kirjoittamaa syötettä rivi kerrallaan (jokaisen rivin jälkeen pitää painaa enteriä kaksi kertaa) ja tulostaa analyysin. Näppäinyhdistelmällä ctrl–D tai ctrl–C voi poistua ohjelmasta.

Laskentaympäristön käyttöohjeita

Hae Kielipankki-portaalista:
Therese Lindström Tiedemann
Månadens forskare: Therese Lindström Tiedemann

 

Tulevat tapahtumat

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot