Tekstiks – Puheesta tekstiksi (automaattinen puheentunnistuspalvelu)

In English

Demopalvelu, jossa voi kokeilla puheen automaattista litterointia ja muokata automaattisesti tuotettua litteraattia selainkäyttöliittymän kautta.

Huom. Tämä palvelu on tarkoitettu toistaiseksi ainoastaan kokeilukäyttöön yksittäisillä äänitiedostoilla. Palvelua ei ole mitoitettu laajojen aineistojen käsittelyyn, eikä siinä tietosuojasyistä tule käsitellä luottamuksellisia puhetallenteita.

Viimeisin versio:  

Tekstiks
icon-info-circle Metadata
icon-quote-right Viittaaminen

Käytä palvelua
Etsi muita tämän työkalun versioita META-SHAREsta  

Mikä on Tekstiks.ee?

Tekstiks.ee on verkkoselaimella toimiva puheentunnistuspalvelu, jossa voi litteroida mm. viron- tai suomenkielistä puhetta.

Tekstiks-palvelu on osa kansainvälistä CLARIN-yhteistyötä. Litteraattien muokkaukseen tarkoitettu tekstieditori ja puheentunnistinten ajamiseen tarkoitettu käyttöliittymä on kehitettu Tallinnan teknillisen yliopiston (TalTech) kieliteknologian laboratoriossa. Palveluun on kytketty TalTechin oma viron kielen puheentunnistin sekä suomalaisen Kielipankin kautta tarjottava puheentunnistin, jonka avulla Tekstiks-palvelussa voi käyttää myös Aalto-yliopistossa kehitettyjä puheentunnistusmalleja mm. suomen kielelle.

Järjestelmässä voidaan käsitellä useita tiedostoja samanaikaisesti. Keskimääräinen tunnistusaika on noin puolet käsiteltävän äänitteen kokonaiskestosta (marraskuussa 2022). Selainkäyttöliittymässä voi valita viron sijaan myös suomen- tai englanninkielisen näkymän.

Miten Tekstiks-palvelu toimii suomenkielisellä puheella?

Aluksi käyttäjän pitää luoda paikallinen käyttäjätunnus Virossa sijaitsevalle Tallinnan teknillisen yliopiston hallinnoimalle palvelimelle. Tunnuksen luomiseen riittää toimiva sähköpostiosoite, jonka lisäksi annetaan käyttäjän nimi ja valitaan salasana. Käsiteltävät äänitiedostot ladataan Tekstiks-palvelimelle Viroon. Kirjautunut käyttäjä voi itse hallinnoida ja poistaa Tekstiks-palvelimeen lataamiaan tiedostoja.

Jos Tekstiks-palvelussa valitaan ja käynnistetään suomenkielisen puheen tunnistus, puheäänitteet siirretään verkon yli Suomeen CSC:n isännöimälle palvelimelle, jossa ne käsitellään. Tunnistettu teksti siirretään CSC:n palvelimelta takaisin Tekstiks-palvelimelle Viroon, jossa käyttäjä voi edelleen muokata tekstiä ja halutessaan ladata sen itselleen. Tällä hetkellä tuettu latausmuoto on .docx (MS Word -dokumentti).

Huomaa, että tämän testikäytössä olevan palvelun tietoturvan taso ei vielä riitä luottamuksellisen puheaineiston käsittelyyn.

Viittaaminen

 

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2022122021

Hae Kielipankki-portaalista:
Harri Uusitalo
Kuukauden tutkija: Harri Uusitalo

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot