22.11.2018

Kuulumisia Transkribus-ohjelman käyttäjätapaamisesta Wienistä

Itävallasta kajahtaa: Innsbruckin yliopistossa on kehitetty sovellus, joka lukee vaikka millaisia harakanvarpaita ja muuntaa ne Unicodeksi. Toki se muuntaa helpompaakin tekstiä, vaikkapa painettua.

Ohjelman tärkeintä toimintoa nimitetään HTR:ksi eli Handwritten Text Recognitioniksi. Sovellus on vuodesta 2014 pyörineen EU-rahoitteisen READ (Recognition and Enrichment of Archival Documents) -projektin tärkein aikaansaannos. Projektissa on mukana 14 jäsenorganisaatiota seitsemästä eri EU-maasta ja lisäksi Sveitsistä. Suomesta mukana on Kansallisarkisto. Lisäksi omia arkistoaineistojaan ovat projektissa tekstiksi muuntaneet myös Svenska Litteratursällskapet, Suomalaisen Kirjallisuuden Seura sekä Kansanperinteen arkisto Tampereelta.

Itse havahduin sovelluksen olemassaoloon vasta tänä vuonna. Onnistuin pääsemään käyttäjäkonferenssiin Wieniin, vaikka olenkin aivan aloittelija sovelluksen käytössä. Siellä sai seurata toinen toistaan inspiroivampia esityksiä sovelluksen käytöstä eurooppalaisten arkistojen kätköistä löytyneiden dokumenttien muuntamisesta digitaaliseksi tekstiksi.

Tässä kuva siitä, kuinka filosofi Foucault’n muistiinpanot muuntuvat digitekstiksi.

Kuva 1. Marie-Laure Massot’n PP-esityksestä “Papers of French philosopher Michel Foucault”.

Lyhyesti sanottuna kyse on siitä, että ensin ihminen kirjoittaa manuaalisesti n. 7 000 sanaa ja sitten sovellus hoitaa loput. Se ottaa mallia ja oppii ihmisen kirjoittamasta tekstistä. Lopullisen tuotoksen virheprosentti vaihtelee, mutta joissakin tapauksissa se on ällistyttävän alhainen.

Pullonkaula on enää oikeastaan vain se, kuinka paljon materiaalia on skannattuna. Siihenkin READ-projektissa on jo kehitetty helpottavaa tekniikkaa. Tekeillä on teltta, johon skannattava kirja tai paperipinkka asetetaan. Teltan katon aukosta matkapuhelin ottaa sitten valokuvan aina, kun se havaitsee, että liikettä ei ole, eli sivun kääntäminen on saatu loppuun. Valokuvaaminen hoituu puhelinsovelluksella, joka perustuu liikkeen tunnistamiseen. Sovellus päälle ja sivuja kääntelemään!

Kuva 2. Kuvausteltta. Kuva: Mari Siiroinen

Transkribus-ohjelma on toistaiseksi ilmainen, ainakin vuoden 2019 loppuun asti. Kannattaa ehdottomasti alkaa muuntaa tekstejään siinä pikapikaa. Vuonna 2020 sovelluksen käyttö saattaa olla jo maksullista.

Uskon tämän mullistavan historiantutkimuksen, mutta se on hyödyllinen minkä tahansa vanhan aineiston muuntamisessa koneluettavaan muotoon ja jakamisessa verkoitse avoimeen käyttöön. Itse aion käyttää sitä vielä paperimuodossa olevan kielitieteellisen aineiston muuntamiseen digimuotoon.

Mari Siiroinen

Ilmaisen ohjelman voi ladata täältä: https://transkribus.eu/Transkribus/

Projektista kerrotaan täällä: https://read.transkribus.eu/

Marraskuun 2018 konferenssiaineistot ovat täällä: https://read.transkribus.eu/transkribus-user-conference-2018/