Osa työkaluista on tarjolla Docker-paketteina. Näin niitä voi käyttää ilman tarvetta asentaa mitään muuta (paitsi Dockerin). Tällä hetkellä paketit ovat komentorivityökalujen korvikkeita, eli niitä käytetään stdin ja stdout -mekanismien kautta, mutta näitä työkaluja voi käyttää myös sovelluspalvelimen avulla verkkopalveluna.
Toistaiseksi tarjolla ovat finnish-nertag, finnish-postag ja finnish-tokenize.
Työkalut löytyvät kielipankin Dockerhub-tililtä, joten ne voi asentaa seuraavasti:
sudo docker pull kielipankki/finnish-nertag:latest
(Tai finnish-postag, ja niin edelleen.)
Docker-paketit kommunikoivat stdinin ja stdoutin välityksellä, joten niitä voi testata esimerkiksi näin:
$ sudo docker run --rm -i kielipankki/finnish-nertag <<< 'Pekingin olympialaiset 2008'
Pekingin <EnamexEvtXxx>
olympialaiset
2008 </EnamexEvtXxx>
Niille voi antaa samoja komentoriviargumentteja kuin normaalistikin:
$ sudo docker run --rm -i kielipankki/finnish-nertag --bio <<< 'Pekingin olympialaiset 2008'
Pekingin B-MISC
olympialaiset I-MISC
2008 I-MISC
$ sudo docker run –rm -i kielipankki/finnish-nertag –show-analyses <<< ’Pekingin olympialaiset 2008’
Pekingin peking [POS=NOUN][PROPER=PROPER][NUM=SG][CASE=GEN] [PROP=GEO] <EnamexEvtXxx>
olympialaiset olympialaiset [POS=NOUN][NUM=PL][CASE=NOM] _
2008 2008 [POS=NUMERAL][SUBCAT=CARD] _ </EnamexEvtXxx>
HeLI-OTS on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan tekstin kielen. HeLI-OTS valitsee sopivimman vaihtoehdon 200 kielen joukosta. Nyt julkaistu docker-versio perustuu aikaisemmin viime kuussa julkaistuun HeLI-OTS versioon 1.3, joka on saatavilla Zenodosta.
Uusina ominaisuuksina ensimmäiseen viime vuoden kesäkuussa julkaistuun 1.0 versioon verrattuna ovat uusimmassa versiossa:
– Kielen tunnistuksen luotettavuudelle voi tulostaa arvon.
– Mahdollisuus tulostaa lista todennäköisimmin tunnistetuista kielistä vain yhden todennäköisimmän sijaan.
– Mahdollisuus käyttää osana tekstinkäsittelyprosessia: tunnistettavaa tekstiä ei tarvitse aina lukea tiedostosta.
– Tunnistuksen kielivalikoimaa voi rajoittaa sekä tunnistinta käynnistettäessä että myöhemmin.
– Käytössä on useita kielimalleja murteelliselle suomelle.
Docker-julkaisu tapahtui Lingsoftin toimesta osana Microservices at your service -projektia.
Projekti järjestää kaksi NLP-työkalujen kehittäjille ja käyttäjille ELG:tä ja sen mahdollisuuksia esittelevää työpajaa 22.3. ja 25.3. otsikolla ”ELG, a bridge for NLP development”.
HeLI-OTS on kehitetty osana Vaikuttavuussäätiön rahoittamaa HY:n ja Lingsoftin tekstin ja puheen kielentunnistukseen keskittyvää yhteistyöprojektia.
Jutussa esiintyviä linkkejä kootusti:
HeLI-OTS-kielentunnistin hub.docker.com -palvelussa
HeLI-OTS versio 1.3
HeLI-OTS versio 1.0
Lingsoft
Microservices at your service -projekti
European Language Grid (ELG)
Vaikuttavuussäätiö
Aalto-ASR includes two main functionalities: automatic speech recognition and automatic forced alignment. The speech recognizer allows you to obtain a transcript of an audio file that contains Finnish speech. The result of the recognition process is returned either as an annotation file (such as Praat TextGrid) or as a plain text file. In case a transcript of the audio file already exists, the words included in the text can be automatically aligned with the corresponding parts of the audio signal. The automatic forced aligner also works in several other languages in addition to Finnish.
Aalto University Automatic Speech Recognition System, version 2.1
Metadata, license and citation instructions
Instructions (in Finnish only; English instructions forthcoming!)
The new, upgraded version 2.1 was installed in Kielipankki in September 2021. The tools can be used in the Puhti environment. If required, Aalto-ASR can now also be installed on other environments as a Docker container.
Some features of version 1 were previously available via the Mylly service as well. However, the old Aalto-ASR version was removed in 2020 and the new version has not yet been plugged in to Mylly, but this may happen at a later stage.
Persistent identifier of this resource group page: http://urn.fi/urn:nbn:fi:lb-2021082325
The upgraded version 2.1 of the Aalto University Automatic Speech Recognition System (Aalto-ASR) is now available for use on the CSC Puhti server. Instructions for using the toolkit are currently available in Finnish only (English translation forthcoming).
There are currently two main functionalities in Aalto-ASR:
The brand new version of Aalto-ASR is also available as a Docker container that can be installed on other systems if required.
Metadata and citation instructions for Aalto-ASR 2.1
Aalto-yliopistossa kehitetyn Aalto-ASR -puheentunnistusjärjestelmän uudistettu versio on nyt käytettävissä CSC:n Puhti-palvelimella. Suomenkieliset käyttöohjeet löytyvät Kielipankin sivuilta (englanninkieliset ohjeet ovat vielä tulossa).
Aalto-ASR:ssä on tällä hetkellä kaksi perustoiminnallisuutta:
Uusi Aalto-ASR on saatavilla myös Docker-säiliönä, jonka voi tarvittaessa asentaa omaan laiteympäristöön.
Aalto-ASR 2.1 -järjestelmän kuvailutiedot ja viittausohjeet
The general language identifier HeLI-OTS 1.0 is an automatic tool that is capable of identifying the language of each line of text in the input file. HeLI-OTS 1.0 selects the best match among 200 languages.
The publication of HeLI-OTS 1.0 is one of the results of the co-operation project Language Identification of Speech and Text by the University of Helsinki and Lingsoft Oy, supported by “Tandem Industry Academia 2020” funding from Finnish Research Impact Foundation. The tool is based on the HeLI method, developed by Tommi Jauhiainen and Heidi Jauhiainen in continuation to Tommi’s research for his Master and PhD projects at the Department of Digital Humanities at the University of Helsinki.
The language identifier is available under Apache 2 and CC-BY licenses. The tool is simple to use: it reads the text file specified as a parameter, identifies the language of each line in the input file, and writes the ISO 639-3 language codes in the corresponding lines of the output file. The source code for the entire language identifier can be downloaded from Zenodo, but if you just want to use the language identifier, you will only need the file HeLI.jar (42 MB). When in operation, the language identifier uses about 3 gigabytes of memory and a single computing core. It is capable of identifying the language of about 3,000 sentences per second on a modern laptop.
You can run the tool with the following type of command:
java -jar HeLI.jar <infile> <outfile>
HeLI-OTS 1.0 on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan jokaisen annetussa tekstitiedostossa olevan tekstirivin kielen. HeLI-OTS 1.0 valitsee sopivimman vaihtoehdon 200 kielen joukosta.
HeLI-OTS 1.0 on julkaistu Helsingin yliopiston ja Lingsoft Oy:n yhteistyöprojektissa Language Identification of Speech and Text, joka on saanut rahoitusta Vaikuttavuussäätiön “Tandem Industry Academia 2020” -hausta. Kielentunnistin perustuu HeLI-menetelmään, jonka Tommi Jauhiainen ja Heidi Jauhiainen ovat kehittäneet Tommin pro gradu– ja väitöstutkimusten pohjalta Helsingin yliopiston digitaalisten ihmistieteiden osastolla.
Kielentunnistin on saatavilla avoimilla Apache 2- ja CC-BY-lisensseillä Zenodon kautta. Sitä on myös helppo käyttää: se lukee parametrinä annetun tekstitiedoston, tunnistaa tiedoston jokaisen rivin kielen ja kirjoittaa vastaavat ISO 639-3 järjestelmän mukaiset kielikoodit tulostiedoston riveille. Zenodosta voi ladata koko kielentunnistimen lähdekoodin, mutta mikäli haluaa vain käyttää kielentunnistinta, tarvitaan pelkästään HeLI.jar-niminen tiedosto, joka on kooltaan 42 megatavua. Toiminnassa ollessaan kielentunnistin käyttää noin 3 gigatavua keskusmuistia ja yhden laskentaytimen. Se kykenee nykyaikaisella kannettavalla tietokoneella tunnistamaan sekunnissa noin 3000 virkkeen kielen.
HeLI-OTS-työkalun voi käynnistää seuraavanlaisella komennolla:
java -jar HeLI.jar <infile> <outfile>
META-SHARE is the Language Bank’s metadata repository. It contains information about each language resource’s type, content, extent, license etc. and offers search and filtering options.
This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021101104
For technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020.
The LAT platform itself is no longer developed in its present form by MPI, and the media browser component Annex (part of LAT) is based on deprecated Adobe Flash technology that will stop working at the end of this year.
A replacement service for LAT has not yet been selected by the Language Bank of Finland. However, all the speech and sign language corpora that were previously available in LAT will be made available by alternative means.
All of the LAT corpora can be offered as downloadable packages that can be used and studied directly on the user’s local computer. In the download service, the corpora can be accessed under the same conditions as via LAT. For some corpora, more advanced solutions might already be available.
The LAT instances of the following corpora will be affected:
In order to see where each corpus will be located in the future, please refer to the corresponding metadata page where this information will be updated. The relevant metadata links are provided on the list above.
LAT assigned 25000 PIDs to individual files. We have no automatic mapping of these PIDs but we can help you find the file if you need it. We aimed to structure downloadable packages similar to the dataset structure on LAT. To locate a file look into the URL field of this page where you find a ”?path=...
” parameter. Example: ?path=demo/TRASH/2017-01/526/v7556__.C_4.4_Viittomakielisten_kielelliset_oikeudet.imdi
This should help you locate your file, please contact us if you have any questions.
August-September 2020:
September-October 2020:
30th November 2020:
Year 2021 (and later):
Further details on the schedule of the aforementioned process will be updated on this page. In case you need additional information at this point, please contact FIN-CLARIN directly.
Teknisistä syistä Kielipankin käytössä ollut LAT-palvelu (lat.csc.fi) joudutaan sulkemaan marraskuun lopussa 2020.
MPI ei enää kehitä LAT-alustaa nykyisessä muodossaan, ja LATiin kuuluva Annex-mediaselaintyökalu perustuu Adoben vanhentuneeseen Flash-teknologiaan, joka lakkaa toimimasta vuoden lopussa.
Kielipankin käyttämälle LAT-palvelulle ei vielä ole valittu täysin korvaavaa palvelua. Kaikki puheaineistot ja viittomakielten aineistot, jotka ovat aiemmin olleet käytettävissä LATin kautta, tuodaan saataville toisella tavalla.
Kaikki LATissa olleet aineistot voidaan tarjota ladattavina paketteina, joita voi käyttää suoraan omalla koneella. Latauspalvelun kautta korpuksiin pääsee samoilla ehdoilla kuin aiemmin LATin kautta. Joillekin aineistoille voidaan jo nyt tarjota edistyneempiäkin ratkaisuja tavanomaisen latauspalvelun lisäksi.
Muutokset koskevat seuraavien korpusten LAT-versioita:
Kunkin aineiston kuvailutietosivulta löydät päivitetyt tiedot kyseisen aineistoversion tulevasta sijainnista. Linkit kuvailutietueisiin näkyvät yllä olevasta listasta.
Elo-syyskuu 2020:
Syys-lokakuu 2020:
30. marraskuuta 2020:
Vuosi 2021 (ja myöhemmin):
Edellä mainitun prosessin tarkemmat yksityiskohdat päivitetään tälle sivulle. Mikäli tarvitset tässä vaiheessa lisätietoja, ole hyvä ja ota suoraan yhteyttä FIN-CLARINiin.
The registration deadline of the online course Corpus Clinic has been extended to 23rd November, until when it is possible to join the course area on Moodle. Students from the University of Helsinki as well as from other universities can enrol. Please note, however, that a limited number of participants can be accepted. See further instructions on the course page.
In the Corpus Clinic, you will learn about the various methods and tools that are available for managing, processing and analyzing your data. You will also learn to write a data management plan. If required, it is possible to complete the course fully online.
This year, the course is jointly organized by FIN-CLARIN and HELDIG. During the spring term – after passing the initial stage of the course – each participant will have the opportunity to meet with a member of the supporting group of digital humanities experts who can help you with more specific questions about your data analysis. More information about this will be provided during the course.
The Korp service at the Language Bank of Finland was updated to a newer version that is based on Språkbanken’s Korp version 5.0.10. New features, fixes and changes:
If a previously working feature no longer works or if you notice other bugs, please send a bug report via the Korp feedback form. The previous Korp version is still accessible at https://korp.csc.fi/old/.
Kielipankin Korp on päivitetty uudempaan versioon, joka pohjautuu Språkbankenin Korp-versioon 5.0.10. Uusia ominaisuuksia, korjauksia ja muutoksia:
Jos jokin aiemmin toiminut ominaisuus ei toimi tai jos huomaat muita vikoja, ilmoita niistä Korp-palautelomakkeen kautta. Edellinen Korp-versio on toistaiseksi käytettävissä osoitteessa https://korp.csc.fi/old/.
Aalto-ASR eli Aalto-yliopiston automaattinen puheentunnistin on Aalto-yliopistossa kehitetty automaattinen puheentunnistusjärjestelmä, johon kuuluu kaksi toimintoa, puheentunnistin ja kohdistin. Tunnistimella voidaan tunnistaa suomenkielisestä puhetta annetusta äänitiedostosta. Tunnistuksen tulos tallentuu joko annotaatiotiedostona tai yksinkertaisena tekstitiedostona. Jos puhetta sisältävästä äänitiedostosta on jo tehtynä tekstimuotoinen litteraatti, siinä olevat sanat voidaan kohdistimen avulla automaattisesti kohdistaa vastaaviin äänitiedoston kohtiin. Kohdistin toimii suomen lisäksi useilla muillakin kielillä.
Aalto-yliopiston automaattinen puheentunnistin (Aalto-ASR), versio 2.1
Kuvailutiedot, lisenssi ja viittausohje
Tunnistimen käyttöohje
Lähdekoodi
Kielipankkiin on syyskuussa 2021 asennettu Aalto-ASR:stä uusi versio 2.1, joka on käytettävissä CSC:n Puhti-laskentaympäristössä. Lisäksi Aalto-ASR on tarjolla myös Docker-säiliönä, jonka voi tarvittaessa asentaa omalle koneelle tai muuhun ympäristöön.
Aalto-ASR:n edellisen version 1 joitakin osia oli aikaisemmin mahdollista käyttää myös Kielipankin Mylly-palvelun kautta. Vanha Aalto-ASR 1.0 -versio on kuitenkin Taito-palvelimen mukana poistunut käytöstä vuonna 2020. Uutta versiota 2 ei toistaiseksi ole kytketty Myllyyn.
Tämän aineistoryhmäsivun PID: http://urn.fi/urn:nbn:fi:lb-2021101112
ELAN-ohjelmalla voi monipuolisesti litteroida ja annotoida video- ja ääninäytteitä. Tämä vasta-alkajille suunnattu Kielipankin tuottama opasvideo on nyt tutkijoiden pyynnöstä tekstitetty suomeksi ja se on käytettävissä vapaasti Creative Commons Nimeä 4.0 -lisenssillä.
ELAN-ohjelmaa kehittää Max Planck Institute for Psycholinguistics Alankomaissa. Voit ladata ELANin osoitteesta https://tla.mpi.nl/tools/tla-tools/elan/. Kielipankin tukisivuilta löytyy lisää ELAN-ohjeita.
https://youtube.com/watch?v=_Ukb7Lfcvpw%26hl%3Den%26fs%3D1 |
Kerro foorumilla, mistä muusta aiheesta haluaisit nähdä video-oppaan!
Tutkijan käyttöliittymän verkkolevypalvelimessa ilmenneiden teknisten ongelmien takia vanhat siellä sijainneet palvelut joudutaan sulkemaan huhtikuun 2016 loppuun mennessä. Kielipankin osalta tämä koskee Digitaalista muoto-opin arkistoa ja Lemmietä. DMA on jo aiemmin sijoitettu Korp-käyttöliittymään. Lemmien aineistot sijoitetaan niin ikään Korpiin Lemmien käytöstä poistumiseen mennessä. Siirto oli joka tapauksessa ohjelmassa vuoden 2016 aikana, mutta aikataulun oli tarkoitus olla väljempi. Kielipankin ylläpito pahoittelee lyhyttä varoitusaikaa.
Digitaalinen muoto-opin arkisto, DMA on avattu Korpissa julkiseen käyttöön. Aineiston sanalippujen käytöstä kiinnostuneen täytyy kuitenkin hakea käyttölupa osoitteessa https://lbr.csc.fi
Tekstin sisältöä voidaan automaattisesti esikäsitellä ja annotoida monin tavoin. Tässä on muutamia esimerkkejä saatavilla olevista työkaluista. Tutkimuskäytössä on toki hyvä muistaa, etteivät menetelmät ole virheettömiä.
CSC:n laskentaympäristöön asennetulla finnish-parse-työkalulla voi jäsentää haluamansa suomenkielisen tekstitiedoston. Kielipankin jäsentimiä voi käyttää myös Myllyn kautta.
CSC:n laskentaympäristössä jäsennys onnistuu seuraavasti:
cat teksti.txt | finnish-parse > tuloste.txt
less tuloste.txt
finnish-parse -skripti tuottaa oletuksena Universal Dependencies -järjestelmän version 1 mukaista muotoa.
Esimerkki:
echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse 1 Kielipankki kieli#pankki NOUN _ Case=Nom|Number=Sing nsubj:cop _ _ 2 on olla VERB _ Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act 6 cop _ _ 3 kieliaineistoja kieli#aineisto NOUN _ Case=Par|Number=Plur dobj _ _ 4 käyttävien käyttää VERB _ Case=Gen|Degree=Pos|Number=Plur|PartForm=Pres|VerbForm=Part|Voice=Act 5 acl _ _ 5 tutkijoiden tutkija NOUN _ Case=Gen|Number=Plur 6 nmod:poss _ _ 6 palvelukokonaisuus palvelu#kokonaisuus NOUN _ Case=Nom|Number=Sing 0 root _ _ 7 . . PUNCT _ _ 6 punct _ _
Universal Dependencies (UD) -järjestelmästä on olemassa myös päivitetty versio 2, mutta sen toteutus finnish-parse-jäsentimeen ei ole vielä täysin valmis. UD2-muoto tulee käyttöön lähitulevaisuudessa. Tarvittaessa jäsentimellä voi myös jatkossa tuottaa ykkösversion mukaista muotoa käyttämällä komennon perässä valitsinta –ud1.
Mikäli haluat saada jäsentimen tuottamaan Korp-palvelussa laajimmin käytettyä muotoa, voit käyttää komennon perässä valitsinta: finnish-parse –stanford. Kuvaukset –stanford -kytkimen tuottamista tageista löytyvät Korpin korpusannotaatiosivulta.
Esimerkki:
echo "Kielipankki on kieliaineistoja käyttävien tutkijoiden palvelukokonaisuus." | finnish-parse --stanford 1 Kielipankki kieli|pankki N NUM_Sg|CASE_Nom|CASECHANGE_Up 6 nsubj-cop 2 on olla V PRS_Sg3|VOICE_Act|TENSE_Prs|MOOD_Ind 6 cop 3 kieliaineistoja kieli|aineisto N NUM_Pl|CASE_Par 4 dobj 4 käyttävien käyttää V NUM_Pl|CASE_Gen|VOICE_Act|PCP_PrsPrc|CMP_Pos 5 partmod 5 tutkijoiden tutkija N NUM_Pl|CASE_Gen 6 poss 6 palvelukokonaisuus palvelu|kokonaisuus N NUM_Sg|CASE_Nom 0 ROOT 7 . . Punct _ 6 punct
finnish-parse-työkalua voi käyttää myös interaktiivisesti jättämällä pois tiedoston nimen. Komento
finnish-parse
lukee käyttäjän kirjoittamaa syötettä rivi kerrallaan (jokaisen rivin jälkeen pitää painaa enteriä kaksi kertaa) ja tulostaa analyysin. Näppäinyhdistelmällä ctrl–D tai ctrl–C voi poistua ohjelmasta.
Laskentaympäristön käyttöohjeita
Korp-tekstikorpushakupalvelu on päivitetty uuteen versioon 4.0. Lataa selaimessa Korp-sivu uudelleen saadaksesi päivitetyn version käyttöösi. (Tarvittaessa tyhjennä selaimen välimuisti ja käynnistä selain uudelleen.)
NooJ on ohjelma, jolla voi rakentaa ja käyttää joko valmiita tai eriasteisia itse rakennettuja kielioppeja tekstiaineiston jäsentämiseen ja annotointiin sekä kieliopillisten rakenteiden etsimiseen tekstin joukosta.
Nyt on ilmestynyt NooJ-ohjelman käyttöä esittelevä ranskankielinen kirja La formalisation des langues – l’approche de NooJ , jonka on kirjoittanut ohjelman kehittäjä Max Silberztein. Kirjaa kannattaa kysellä oman korkeakoulun kirjastosta.
NooJ ei varsinaisesti kuulu Kielipankin tukemiin ohjelmiin, mutta sen omatoimista opettelua kannattaa harkita varsinkin, jos tutkit kieliopillisia rakenteita ja aiot käyttää laajoja tekstiaineistoja. NooJin avulla on myös mahdollista testata kieliopillisia hypoteeseja sellaisten kielten osalta, joihin ei ole olemassa valmiita kielioppeja.
NooJ-ohjelman käyttämistä harjoiteltiin syksyllä 2014 järjestetyllä Kieliaineiston käsittely -kurssilla. Vastaava kurssi on suunnitteilla myös syksylle 2015.