NooJ-työkalu tekstikorpusten käsittelemiseksi

NooJ ei ole Kielipankin virallisesti tuettu sovellus. Joitakin NooJin käyttöohjeita kuitenkin löytyy tältä sivulta ja runsaammin muualta verkosta. NooJ-ohjelman voi ladata verkosta ilmaiseksi ja asentaa omalle koneelle. NooJ-käyttäjillä on oma keskusteluryhmä Yahoo-palvelussa. Ohjelman käyttöön on olemassa myös ranskankielinen opaskirja.

FIN-CLARIN järjestää ajoittain NooJ-ohjelman käyttöön liittyvää koulutusta (esim. Kieliaineiston käsittely -kurssi).

(Nämä vanhat muistiinpanot perustuvat Max Silberzteinin luentoon 22.11.2012 Helsingin yliopiston nykykielten laitoksella.)

Käyttötarkoitus

NooJilla voi automaattisesti jäsentää tekstiaineistoja. Edellytyksenä on, että käytettävissä on sopiva kyseisen kielen kielioppi. Sellaisen voi tuottaa NooJilla myös itse.

  • NooJilla voi
    • hakea teksteistä haluttuun hakulausekkeeseen sopivia konkordansseja ja kuvantaa niiden esiintyvyyttä tai annotoida tekstiä kieliopin mukaisesti.
    • luoda kielioppeja graafisen työkalun avulla.

Asentaminen

  • NooJin on kehittänyt Max Silberztein.
  • Ohjelma on vapaasti ladattavissa verkosta (Windows, Linux, Mac OSX).
    • Ladattavissa on myös joukko eri kielten moduuleja (ei vielä suomea).
      • Saatavilla (22.11.2012) seuraavat kielimoduulit: Acadian, Arabic, Armenian, Belarussian, Bulgarian, Catalan, Croatian, English (mukana asennuksessa), French (mukana asennuksessa), German, Greek, Hebrew, Hungarian, Italian, Latin, Polish, Portuguese, Russian, Serbian, Spanish, Turkish, Vietnamese.
      • Osa kielimoduuleista on kuitenkin kryptattu, ts. niitä ei pääse suoraan käyttämään. Käyttömahdollisuutta voi kysellä kunkin moduulin tekijältä suoraan.

Toimintaperiaate

  • Analyysi ei perustu tilastollisiin piirteisiin vaan kielikohtaiseen lingvistiseen analyysiin (kielioppeihin).
  • Lingvististen ilmiöiden tasot, joita NooJ teksteistä parsii:
    • typografia ja oikeinkirjoitus
    • morfologia
    • sanakirjat (myös monisanaiset ilmaukset)
    • (”paikallinen”) syntaksi
    • transformaatiosyntaksi
  • Kaikki em. tasot varastoidaan ns. tekstin annotaatiorakenteeksi (Text Annotation Structure).
  • Yleensä NooJ toimii hyvin moniselitteisten annotaatioiden varassa.
    • Atomiset yksiköt voivat esiintyä myös sanojen sisällä tai muodostua useammasta sanasta.
  • NooJissa käytetään kontekstittomia kielioppeja (.nog).
    • Määritelmät toimivat käytännössä monimutkaisina hakukriteereinä.
    • Kielioppitiedostossa mainituilla kulmasulkeiden <> sisällä olevillä yksiköillä on useita taivutusmuotoja.
  • Kieliopin (esim. tietyn sanan/lemman morfologian) voi näyttää graafina tai tekstimuotoisena.
    • esim. V+FLX=AIDER tarkoittaa, että kyseinen verbimuoto taipuu verbin AIDER taivutusparadigman mukaisesti.
  • NooJille määritellyt kieliopit toimivat periaatteessa aina kaksisuuntaisesti: niillä voi sekä jäsentää että generoida kieltä.
  • Pieniä paikallisia kielioppeja käytetään tavallisesti uudelleen suuremmissa, yleisemmissä kieliopeissa.
  • Luettavuuden ja jatkokäytön helpottamiseksi kielioppiin liitetään ”contract” eli joukko esimerkkirakenteita, joihin kieliopin on tarkoitus sopia tai joihin se ei saa sopia.
    • Näiden avulla näkee helposti, mitä rakenteita kieliopilla on haluttu haarukoida.
  • Kieliopin avulla minkä tahansa siihen sopivan lauseen kaikki transformaatiot (parafraasit l. rakenteeltaan samanlaiset lauseet, Perform all transformations) tai tietty transformaatio (Name a transformation) voidaan saada NooJilla näkyviin.
  • Voidaan myös seurata tiettyjen rakenteiden esiintymiä joukossa tekstejä ja kuvantaa niiden standard score (normaalista poikkeavat frekvenssit jossa normi = 0)
    • esim. merkitykseltään positiiviset/negatiiviset adverbit ranskalaisten sanomalehtien Sarkozyyn liittyvissä lauseissa: negatiivisten adverbien esiintymäpiikkejä negatiivisten uutisten ajankohtina

Käyttö

Konkordansseja

  • Avaa teksti (Open > text The portrait of a lady.not)
  • TEXT > Locate
    • (Valitse Locate-ikkunassa All occurrences)
    • Kirjoita kohtaan a NooJ regular expression esimerkiksi
      • table | house (joko sana table TAI sana house)
        • jos halutaan isot/pienet kirjaimet, laitetaan lainausmerkit sanan ympärille
      • will <V+INF> (will + verbi infinitiivissä)
      • (will | shall) (not | ) <V+INF> (hakee myös kieltomuodot)
        • = epsilon eli tyhjä

      • (will | shall) * <V+INF> | * going to <V+INF> | tomorrow
        • tuottaa erilaiset futuurin ilmaukset

    • Hakulausekkeen tilastollista esiintyvyyttä voi katsoa CONCORDANCE > Statistical Analyses
        • eri muotojen frekvenssit
        • standard score (tekstin eri osissa)
        • relevance (tekstin eri osissa)
        • similarity-matriisi

Uusi kielioppi

  • File > New > Grammar
    • Ctrl + click: lisää noodi tai muokkaa noodia. Kirjoita noodin sisältö (sana tai muu rakenne samaan tapaan kuin NooJ-hakulausekkeessa).
    • Ctrl+enter: hyväksy uusi noodi
      • kun nurkat vilkkuvat, noodi on valittuna/aktiivisena. Klikkaa jonnekin kerran poistaaksesi valinnan.
    • Noodien yhdistäminen: klikkaa ensin kerran noodia A, sitten noodia B, jolloin ne yhdistyvät viivalla.
      • Toista sama toimenpide, jos haluat poistaa olemassa olevan linkin.
    • Ctrl+Z = Undo.
    • Kaksoisklikkaa noodia -> noodin osoittama rakenne toistetaan mielivaltaisen monta kertaa.
    • Vaihtoehtoiset sisällöt tietyssä noodissa voi syöttää useina riveinä (esim. viikonpäivät).
    • Epsilon-noodi näkyy graafissa pienenä kolmiona viivojen yhtymäkohdassa.
    • Tietyn noodin voi merkitä aligraafiksi kirjoittamalla sille nimen ja sen eteen kaksoispisteen :.
      • Aligraafi edustaa kieliopin sisällä olevaa osakielioppia.
    • Alt+click tuo päällimmäiseksi noodin alla olevan aligraafin.
      • Aligraafit näkyvät vasemmalle ilmaantuvassa puussa päägraafin Main alla.
Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317