Sanemäärän laskeminen

Sanemäärä tarkoittaa yksittäisten sanaesiintymien eli saneiden kokonaislukumäärää valitussa aineistossa. Tällä sivulla on yleisiä ohjeita Kielipankin aineistojen sanemäärien laskemiseen.

Huomaa, että aineiston annotaatio- tai litterointiperiaatteet voivat vaikuttaa tuloksiin, etenkin jos korpuksen varsinaisen sisällön (esim. litteroidun tekstin) joukossa on kommentteja tai muita merkintöjä. Koska sanemäärän laskentatapa on usein korpuskohtainen, siitä on hyvä tehdä muistiinpanoja ja kuvata se tarvittaessa julkaisujen yhteydessä.

Kielipankissa olevasta annotoidusta ääni- tai videokorpuksesta (LAT)

Siirry LATin etusivulle, jonka vasemmassa laidassa näkyy korpuspuu. (Voit päästä palveluun myös suoraan tietyn korpuksen kuvailutiedoissa olevasta linkistä.)
Kirjaudu tarvittaessa sisään LAT-palveluun, jos haluat laskea saneita sellaisesta aineistosta, jonka käyttäminen edellyttää kirjautumista. Ruutukaappaus LATista: Kirjautumislinkki oikeassa yläkulmassa
Valitse korpuksen päänoodi tai sen alta erikseen ne tiedostot, joiden sanemäärän haluat laskea: klikkaa noodi(t) aktiivisiksi.
Huom. Sanamäärä kannattaa laskea yhdellä haulla vain sellaisesta aineistosta, joka on annotoitu samantyyppisiin annotaatiokerroksiin.

Vinkki edistyneille käyttäjille: Voit myös aluksi tehdä metadatahaun (Metadata search) korpuksen sisältä ja kohdistaa Trova-haun näin rajaamiisi annotaatiotiedostoihin.

Klikkaa sitten Content search, jolloin selaimeen aukeaa Trova-työkalun näkymä.

Ruutukaappaus LATista: valitse korpus ja klikkaa Content search
Klikkaa Trovassa välilehteä Single Layer Search.

Joidenkin korpusten mediatiedostoista on tarjolla samansisältöisiä annotaatiotiedostoja useana eri versiona. Rastita yläreunasta vain ne tiedostomuodot, joihin haluat haun kohdistaa, jolloin samat saneet eivät tule mukaan useaan kertaan.

TextGrid=Praat-ohjelmalla tehdyt annotaatiotiedostot.

  • EAF: ELAN-ohjelmalla tehdyt annotaatiotiedostot. Ainoastaan EAF-tyyppisillä tiedostoilla voidaan käyttää hyväksi annotaatiokerrosten tyypitystä (Tier type), jos se on kyseisen korpuksen osalta tehty.
  • TextGrid-tiedostoilla haku voidaan kohdistaa vain joko kaikkiin mahdollisiin annotaatiokerroksiin (All tiers) tai tietynnimisiin annotaatiokerroksiin (Tier name).
  • Text= irralliset raakatekstiä sisältävät tekstitiedostot, joita ei ole kohdistettu ääni- tai videotiedostoon.

Valitse kohdassa Mode: vaihtoehdot ”N-gram within annotation”, ”case-insensitive” ja ”regular expression”.

Kirjoita Find-hakukenttään \w
Tällä tavalla sanoiksi lasketaan vain kirjaimia tai numeroita sisältävät merkkijonot.

Valitse in:-kohdan valikosta ne kerrokset tai kerrostyypit, jotka haluat mukaan laskelmaan. Sopiva valinta on korpuskohtainen, ts. sinun on ensin tiedettävä, mitä annotaatiokerroksia korpus sisältää ja kuinka ne on mahdollisesti tyypitetty.

Esimerkiksi Reitti A-siipeen -korpuksen kohdalla voi valita ”Tier type: utterance”, jolloin saneet etsitään niistä kerroksista, jotka sisältävät kummankin puhujan puheen ortografisen litteraatin.

Esim. Helpuhe1-korpuksessa voi laskea ensin speech-tyyppiset kerrokset (=haastateltavien puheen litteraatit) ja sitten interviewer speech-tyyppiset kerrokset (=haastattelijoiden puheen litteraatit). Näiden summa kertoo kokonaissanemäärän.

Klikkaa lopuksi Find ja odota hetki, niin kokonaissanemäärä ilmestyy tekstikentän alapuolelle, Ready-tekstin viereen. Esimerkiksi tulos 245383 hits in 20859 annotations tarkoittaa, että valitusta aineistosta löytyi 245383 sanetta (yhteensä 20859 annotoidussa puhunnoksessa tai muussa litteroidussa pätkässä).

Ruutukaappaus Trovasta: Sanemäärän laskeminen

Omalla koneella olevasta annotoidusta ääni- tai videokorpuksesta (ELAN)

ELANissa on mahdollisuus käyttää samankaltaista hakua kuin LAT-alustalla.

Valitse ELAN-ohjelman Search-valikosta komento Structured Search Multiple eaf… Ruutukaappaus ELANista: Valikkokomento Structured Search Multiple eaf…

Näkyviin tulevassa ikkunassa on LAT-alustan Trova-työkalua muistuttavat kolme välilehteä: Substring Search, Single Layer Search ja Multiple Layer Search. Valitse sanemäärän laskemista varten Single Layer Search.

Ennen haun aloittamista on määriteltävä hakualue eli se aineisto, johon haluat haun kohdistaa. Klikkaa Define Domain.

Ruutukaappaus ELANista: Single Layer Search, Define Domain-painike

Valitse kohdassa Mode: vaihtoehdot ”N-gram within annotation”, ”case-insensitive” ja ”regular expression”. N-gram within annotation -valinnalla sanaesiintymät saa laskettua myös yksittäisen annotaation sisältä, jos annotaatio on monisaneinen. Regular expression -valinta tuo käyttöön ns. säännölliset lausekkeet.

Kirjoita Find-hakukenttään \w
Tällä tavalla sanoiksi lasketaan vain kirjaimia tai numeroita sisältävät merkkijonot, jotka on eroteltu toisistaan välilyönneillä tai muilla erottimilla.

Valitse hakutekstikentän oikealla puolella olevasta valikosta ne kerrokset tai kerrostyypit, jotka haluat mukaan laskelmaan. Huom. Sopiva valinta on korpuskohtainen, ts. sinun on ensin tiedettävä, mitä annotaatiokerroksia korpus sisältää ja kuinka ne on mahdollisesti tyypitetty.

Esimerkiksi Reitti A-siipeen -korpuksen kohdalla voi valita ”Tier type: utterance”, jolloin saneet etsitään yhdellä kertaa niistä kerroksista, jotka sisältävät (kumman tahansa puhujan) puheen litteraatin.

Esim. Helpuhe1-korpuksessa voi laskea erikseen ensin speech-tyyppiset kerrokset (=haastateltavien puheen litteraatit) ja sitten interviewer speech-tyyppiset kerrokset (=haastattelijoiden puheen litteraatit). Näiden summa kertoo aineiston kokonaissanemäärän.

Klikkaa lopuksi Find ja odota hetki, niin kokonaissanemäärä ilmestyy tekstikentän alapuolelle, Ready-tekstin viereen. Esimerkiksi tulos 166 hits in 47 annotations tarkoittaa, että valitusta aineistosta löytyi 166 sanetta (yhteensä 47 annotoidussa puhunnoksessa tai muussa litteroidussa pätkässä).

Ruutukaappaus ELANista: Sanemäärä valitusta aineistosta

Kielipankissa olevasta tekstikorpuksesta (Korp)

(Ohje tulossa)

Kuukauden tutkija: Krista Lagus

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317