19.2.2019

Suomi24-korpuksen uusi versio 2017H2 nyt koekäytössä

Suomi24-aineiston uusi versio 2017H2 on nyt kokeiltavissa Kielipankin Korp-konkordanssipalvelussa, https://korp.csc.fi/#?corpus=suomi24_2017h2
(Jos aineisto ei vielä näy, lataa sivu uudelleen ja tyhjennä tarvittaessa selaimen välimuisti.)

Uuden aineistoversion kuvailutietue: http://urn.fi/urn:nbn:fi:lb-2019021101

Testausvaihe

Aineisto näkyy Korpissa toistaiseksi beta-merkittynä, mikä tarkoittaa sitä, että voimme tehdä siihen muutoksia ilman eri ilmoitusta ja uuden version julkaisemista. Tämän vuoksi on varminta, ettei beta-version pohjalta tehdä sellaista tutkimusta, joka on välttämätöntä voida toistaa myöhemmin täsmälleen samanlaisena. Erityisiä muutoksia ei ole tiedossa, mutta niitä voidaan tehdä palautteen pohjalta. Beta-vaihe kestää arviolta 2–4 viikkoa, ellei suuria muutostarpeita ilmene.

Otamme mielellämme vastaan kommentteja, kehitys- ja parannusehdotuksia sekä muuta palautetta aineistosta ja erityisesti sen Korp-muodosta. Voit lähettää palautetta esimerkiksi Korpin palautelomakkeen kautta.

Miten uusi versio eroaa edellisestä?

Suomi24-aineiston uuden version Korp-muodossa on jonkin verran eroja aiempaan versioon. Erot on kuvattu alla.

Lopullinen aineistoversio viedään myös Kielipankin latauspalveluun Korp-muotoa vastaavassa VRT-muodossa. (Alustava VRT-muoto on jo latauspalvelussa saatavilla, mutta Korpissa koekäytettävä versio eroaa siitä pieneltä osin.)

1. Aineiston kattavuus

Suomi24 2017H2 kattaa Allerilta saadun Suomi24-aineiston ajalta 1.1.2001–31.12.2017. (Versiotunnus 2017H2 ilmaisee, että korpus kattaa aineiston vuoden 2017 loppuun asti.)

Kattavuus on selvästi aiempaa versiota parempi, mutta poistetut viestit ja suljetut keskusteluketjut eivät siinä näy, kuten eivät Suomi24-palvelussakaan. Kaikkiaan uudessa aineistossa on 82 858 608 viestiä ja 4 132 665 850 sanetta, kun aiemmassa versiossa oli 55 250 113 viestiä ja 2 663 114 497 sanetta.

2. Aineiston toimivuus Korpissa

Korpissa uuden version konkordanssihaut ja tilastot toimivat, mutta sanakuva ei vielä tällä hetkellä toimi.

Aineistolle ei ole vielä ajettu nimientunnistinta, joten sen lisäämät tiedot puuttuvat toistaiseksi. Ne pyritään lisäämään lähiaikoina, joka tapauksessa tämän kevään aikana.

3. Suomi24-aineistot Korpin korpusvalikossa

Aineisto näkyy Korpin korpusvalikossa aiemman Suomi24:n rinnalla, toistaiseksi nimellä ”Suomi24 virkkeet -korpus (2017H2) (beta)”. Aiemmasta versiosta poiketen aineisto on jaettu osakorpuksiin viestien kirjoitusvuoden perusteella.

Koska Suomi24:n edellistä versiota (2016H2, vaikka tietoa ei Korpissa toistaiseksi näykään) on käytetty varsin paljon, myös se näkyy Korpin korpusvalikossa vielä ainakin jonkin aikaa, mahdollisesti pitkäänkin.

Mietimme, miten edellisen version olisi hyvä näkyä jatkossa: olisiko esimerkiksi hyvä merkitä vanhan aineiston kuvaukseen, että uudempi versio korvaa sen, tai olisiko hyvä, että korpusvalikon ”Valitse kaikki” ei valitsiskaan aineistojen vanhoja versioita. Yksi mahdollisuus olisi, että vanha versio olisi käytettävissä vain erillisessä ”arkisto-Korpissa”, joka sisältäisi aineistojen vanhoja versioita.

4. Aineiston järjestys

Kunkin vuoden sisällä aineisto on järjestetty niin, että kaikki saman viestiketjun viestit ovat peräkkäin. Viestiketjut puolestaan on järjestetty ketjun kyseisen vuoden ensimmäisen viestin päivämäärän mukaan. (Jos viestiketju on alkanut samana vuonna, järjestys on siis ketjun aloitusviestin perustella.)

Viestit kunkin viestiketjun (ja vuoden) sisällä on järjestetty ”ketjujärjestykseen”, jossa kommenttiviestit ovat kommentoidun viestin perässä aikajärjestyksessä. Tämän vastannee sitä järjestystä, jossa viestit näkyvät Suomi24-palvelun kautta.

5. Tekstin piirteet ja niiden näkyminen Korpissa

Aiempaan versioon verrattuna tekstin piirteitä on nimetty uudelleen sekä sisäisiltä että Korpissa näkyviltä nimiltään, jotta ne olisivat ymmärrettävämpiä. Parannusehdotukset ovat tervetulleita.

Korpin hakutuloksen reunapalkissa tekstin piirteet näkyvät nyt seuraavasti. Sulkeissa on piirteen sisäinen nimi, joka ei näy reunapalkissa, mutta jota käytetään Korpin edistyneen haun ja Korp-APIn CQP-kyselylausekkeissa.

otsikko (text_title): Totuus 206:sta
päiväys (text_date): 2001-01-01
kellonaika (text_time): 02:05:00
kirjoittajan nimimerkki (text_author): Haimsplitz
kirjautunut käyttäjä (text_author_logged_in): ei
rekisteröity nimimerkki (text_author_nick_registered): ei
aihealue (text_topic_names): Ajoneuvot ja liikenne > Autot > Automerkit > Peugeot
aihealue vain aikuisille (text_topic_adultonly): ei
viestin tyyppi (text_msg_type): keskusteluketjun aloitus
viesti on täysin tyhjä (text_empty): ei
tunniste (text_id): 25383:0
keskusteluketjun tunniste (text_comment_id): 25383
keskusteluketjun alkuaikaleima (text_thread_start_datetime): 2001-01-01 02:05:00
kommentin tunniste (text_comment_id): 0 [ketjun aloitusviesti]
kommentin vanhemman tunniste (text_parent_comment_id): 0 [ketjun aloitusviesti]
kommentin vanhemman aikaleima (text_parent_datetime): [tyhjä]
lainatun kommentin tunniste (text_comment_id): 0 [ei lainausta]
tiedoston nimi (text_filename_vrt): s24_2001_01.vrt
kappaleen tyyppi (paragraph_type): kappale

Tunniste (text_id) on yhdistelmä keskusteluketjun ja kommentin tunnisteesta. Sen sijaan kommentin vanhemman tunniste ja lainatun kommentin tunniste ovat nimenomaan kommentin tunnisteita saman ketjun sisällä. Tiedostonimi on uuden tiedostojaon mukainen, ei alkuperäisen datan mukainen.

Aivan kaikki tekstin piirteet eivät näy reunapalkissa, vaan Korpin laajennetussa haussa on mahdollista hakea erikseen myös esim. aihealueen ylimmän ja alimman tason perusteella. Laajennetussa haussa aihealueen ylimmälle tasolle on valintalista. Koko aihealueelle olisi mahdollista tehdä myös hierarkkinen valintalista (tai -dialogi), mutta sellaisen toteuttaminen on jonkin verran mutkikkaampaa.

Piirteiden nimet ja osin arvot eroavat myös aiemmasta Suomi24-versiosta, jossa ne olivat seuraavanlaiset:

otsikko (text_title): Totuus 206:sta
otsikon sanojen perusmuodot (text_title_lemmas): totuus 206 : sta
päiväys (text_date): 01.01.2001
kellonaika (text_time): 02:05
keskusteluketjun tunniste (text_tid): 25383
viestin tunniste (text_cid): unspecified
pääaihealue (text_discussionarea): Ajoneuvot ja liikenne
aihealueen tarkennus (text_subsections): Autot > Automerkit > Peugeot
nimimerkki (text_anonnick): Haimsplitz
nimimerkin sanojen perusmuodot (text_anonnick_lemmas): Haimsplitz

Mikäli vanhan version mukaisten sisäisten nimien näkyminen olisi mielestäsi tarpeen myös uudessa versiossa, jätäthän tästä palautetta. Joissain tapauksissa arvojoukko on muuttunut (esim. päiväys on nyt ISO-muodossa), jolloin taaksepäin yhteensopivuutta voi olla vaikea toteuttaa. Aihealue oli aiemmin jaettu pääaihealueeseen ja aihealueen tarkennukseen, mutta nyt koko aihealueketju on samassa piirteessä, ja lisäksi voi siis hakea aihealueen ylimmän tai alimman tason perusteella.

Uudessa versiossa ei ole aiempaan jälkeenpäin lisättyjä otsikon ja nimimerkin sanojen perusmuotoja. Otsikon sanojen perusmuodot ovat nyt osana itse tekstiä. Sen sijaan nimimerkin sanojen perusmuotoja ei nykyisellään ole lainkaan.

6. Mahdolliset tekstin lisäpiirteet

Aineistoon olisi mahdollista lisätä kohtuullisella vaivalla myös muiden tietojen perusteella laskettuja tekstin lisäpiirteitä, jos käyttäjät niitä toivovat.

Mahdollisia lisäpiirteitä olisivat ainakin seuraavat:

  • ketjun kommenttien (tai viestien) määrä
  • viestiin tulleiden kommenttien määrä (”lapset”)
  • viestiin tulleiden kommenttien ja niiden kommenttien määrä (”jälkeläiset”)
  • viestin syvyys viestiketjussa
  • ajallinen etäisyys ketjun aloitusviestistä
  • ajallinen etäisyys vanhemmasta

Kommenttien määrien osalta harkitaan vielä, pitäisikö niiden koskea yhtä vuotta vai kaikkia vuosia. Jos ne koskevat kaikkia vuosia, niitä täytyy päivittää, kun aineisto karttuu, mikä heikentäisi tutkimuksen toistettavuutta tältä osin, tai sitten pitäisi olla erilliset attribuutit jokaiselle uudelle (laajennetulle) aineistoversiolle.

Ajallinen etäisyys puolestaan voitaisiin ilmaista sekunteina, mahdollisesti sen lisäksi vuorokausina.

7. Sanan piirteet

Nimitietoja lukuun ottamatta aineiston sanojen piirteet ovat samat kuin aiemmassa versiossa. Sanojen palauttamisessa perusmuotoon on joitain pieniä eroja ja tietyiltä osin perusmuotoistaminen on onnistunut heikommin kuin aiemmassa versiossa. Perusmuotoistaminen on kuitenkin tarkoitus tehdä uudelleen parannetulla menetelmällä, mahdollisesti jo tämän kevään kuluessa.

8. Ladattava versio

Kielipankin latauspalvelussa on aineistosta toistaiseksi alustava VRT-muotoinen versio:

http://urn.fi/urn:nbn:fi:lb-2019010802

Tämänhetkistä Korp-versiota vastaava VRT-versio on tarkoitus viedä latauspalveluun viimeistään beta-vaiheen päätyttyä. Eroja latauspalvelun tämänhetkiseen versioon ovat ainakin seuraavat:

  • Aineisto on tarkoitus jakaa paketteihin vuosittain. Kunkin vuoden sisällä kussakin VRT-tiedostossa on enintään 250 000 viestiä samassa
    järjestyksessä kuin nyt Korpissa. Suurimmat yksittäiset VRT-tiedostot ovat kooltaan vähän yli 1 GiB.
  • Muutamien viestien puuttuneet aikaleimat (aikaleimana 1970-01-01 02:00:00) on korvattu viereisten viestien perusteella arvioiduilla aikaleimoilla.
  • Täysin tyhjiin viesteihin on lisätty sisällöksi yksittäinen alaviiva, jotta ne eivät häviä Korpiin vietäessä.
  • Aineiston rakenneattribuutteja (tekstin piirteitä) on nimetty uudelleen (ks. kohta 5) ja niihin on lisätty aihealueen nimen sisältävät attribuutit.
  • Aineiston saneisiin on lisätty perusmuoto, josta on poistettu yhdyssanarajamerkit.

Kaikki palaute tästä Suomi24-aineiston uudesta Korp-versiosta on tervetullutta!