Sanemäärä tarkoittaa yksittäisten sanaesiintymien eli saneiden kokonaislukumäärää valitussa aineistossa. Tällä sivulla on yleisiä ohjeita Kielipankin aineistojen sanemäärien laskemiseen.
Huomaa, että aineiston annotaatio- tai litterointiperiaatteet voivat vaikuttaa tuloksiin, etenkin jos korpuksen varsinaisen sisällön (esim. litteroidun tekstin) joukossa on kommentteja tai muita merkintöjä. Koska sanemäärän laskentatapa on usein korpuskohtainen, siitä on hyvä tehdä muistiinpanoja ja kuvata se tarvittaessa julkaisujen yhteydessä.
Siirry LATin etusivulle, jonka vasemmassa laidassa näkyy korpuspuu. (Voit päästä palveluun myös suoraan tietyn korpuksen kuvailutiedoissa olevasta linkistä.) | |
Kirjaudu tarvittaessa sisään LAT-palveluun, jos haluat laskea saneita sellaisesta aineistosta, jonka käyttäminen edellyttää kirjautumista. | ![]() |
Valitse korpuksen päänoodi tai sen alta erikseen ne tiedostot, joiden sanemäärän haluat laskea: klikkaa noodi(t) aktiivisiksi. Huom. Sanamäärä kannattaa laskea yhdellä haulla vain sellaisesta aineistosta, joka on annotoitu samantyyppisiin annotaatiokerroksiin. Vinkki edistyneille käyttäjille: Voit myös aluksi tehdä metadatahaun (Metadata search) korpuksen sisältä ja kohdistaa Trova-haun näin rajaamiisi annotaatiotiedostoihin. Klikkaa sitten Content search, jolloin selaimeen aukeaa Trova-työkalun näkymä. |
![]() |
Klikkaa Trovassa välilehteä Single Layer Search. | ![]() |
Joidenkin korpusten mediatiedostoista on tarjolla samansisältöisiä annotaatiotiedostoja useana eri versiona. Rastita yläreunasta vain ne tiedostomuodot, joihin haluat haun kohdistaa, jolloin samat saneet eivät tule mukaan useaan kertaan. TextGrid=Praat-ohjelmalla tehdyt annotaatiotiedostot.
Valitse kohdassa Mode: vaihtoehdot ”N-gram within annotation”, ”case-insensitive” ja ”regular expression”. Kirjoita Find-hakukenttään \w Valitse in:-kohdan valikosta ne kerrokset tai kerrostyypit, jotka haluat mukaan laskelmaan. Sopiva valinta on korpuskohtainen, ts. sinun on ensin tiedettävä, mitä annotaatiokerroksia korpus sisältää ja kuinka ne on mahdollisesti tyypitetty. Esimerkiksi Reitti A-siipeen -korpuksen kohdalla voi valita ”Tier type: utterance”, jolloin saneet etsitään niistä kerroksista, jotka sisältävät kummankin puhujan puheen ortografisen litteraatin. Esim. Helpuhe1-korpuksessa voi laskea ensin speech-tyyppiset kerrokset (=haastateltavien puheen litteraatit) ja sitten interviewer speech-tyyppiset kerrokset (=haastattelijoiden puheen litteraatit). Näiden summa kertoo kokonaissanemäärän. Klikkaa lopuksi Find ja odota hetki, niin kokonaissanemäärä ilmestyy tekstikentän alapuolelle, Ready-tekstin viereen. Esimerkiksi tulos 245383 hits in 20859 annotations tarkoittaa, että valitusta aineistosta löytyi 245383 sanetta (yhteensä 20859 annotoidussa puhunnoksessa tai muussa litteroidussa pätkässä). |
![]() |
ELANissa on mahdollisuus käyttää samankaltaista hakua kuin LAT-alustalla.
(Ohje tulossa)