Uusi automaattinen puheentunnistuspalvelu Tekstiks on testikäytössä. Järjestelmä pystyy tunnistamaan puhuttua viroa ja suomea sekä tuottamaan äänitteestä tekstimuotoisen litteraatin. Palveluun kuuluu myös käyttöliittymä, jossa litteroitua tekstiä voi muokata ja kuunnella samalla äänitettä.
Tekstiks-palvelua voi jo alustavasti kokeilla yksittäisillä omilla puhenäytteillä. Huomaa kuitenkin, että palvelu on vielä kehitteillä. Tietosuojasyistä järjestelmä ei tässä vaiheessa vielä sovellu luottamuksellisen puheaineiston käsittelyyn.
Tekstiks-palvelu on syntynyt Tallinnan teknillisen korkeakoulun, Kielipankin ja Aalto-yliopiston välisenä yhteistyönä.
Tekstiks, a new automatic speech transription service, is now up and running for test users. The automated system can recognise spoken Estonian and Finnish and produce a transcript of the recording. The service also includes an interface for editing the transcribed text while listening to the recording.
The Tekstiks service may already be tested on individual speech samples. Please note, however, that the service is still under development and the level of security at this stage is not sufficient for processing confidential speech data.
The Tekstiks service is jointly offered by the Tallinn University of Technology, the Language Bank of Finland and Aalto University.
Read more about Tekstiks and try it out!
Welcome to follow us! @kielipankki@toot.community
Kielipankki on liittynyt Mastodoniin. Tervetuloa seuraamaan meitä! @kielipankki@toot.community
(Updated on 29.10.2022: Added information about the license for commercial use)
The Donate Speech Corpus (Puhelahjat) is a collection of speech recordings that accumulated during the Donate Speech campaign between 16.6.2020 and 14.9.2021. The resource is now available via the download service of the Language Bank of Finland under restricted terms and conditions.
The Donate Speech Corpus contains a total of about 3200 hours of speech recordings, out of which about 1600 hours have been transcribed. The resource also includes information about the elicitation tasks for which each of the speech samples was donated in the original campaign, and the background details that were voluntarily provided by speech donors.
Access to the Puhelahjat resource may be granted for purposes related to language research or to the research and development of AI (artificial intelligence). Academic researchers can now apply for access to the dataset. In parallel to the license for research use, a license agreement is offered for companies who wish to use the data. The details regarding commercial use will soon be available online. Interested companies may request further information at lahjoita-puhetta@helsinki.fi.
For academic research use, the license terms and conditions (including the data protection terms and conditions) can be found at http://urn.fi/urn:nbn:fi:lb-2022020223.
Researchers can now apply for access via the Language Bank Rights system. The researcher must present a research plan before the license can be granted. As the Puhelahjat resource contains personal data, the researcher must also submit to Kielipankki a notification that contains the public information about the processing of the personal data.
Donate Speech (Puhelahjat) datasets for research use (corresponding information for commercial use will soon be available)
Donate Speech (Puhelahjat) Corpus Metadata
Donate Speech (Lahjoita puhetta) campaign information in Kielipankki
(Uutiseen tehty päivitys 29.10.2022: Lisätty maininta myös yrityksille tarkoitetusta lisenssistä Lahjoita puhetta -aineistoon.)
Lahjoita puhetta -aineisto (Puhelahjat) versio 1.0 on kokoelma puhenäytteitä, jotka kertyivät Lahjoita puhetta -kampanjassa aikavälillä 16.6.2020-14.9.2021. Aineisto on nyt rajoitetusti saatavilla Kielipankin latauspalvelussa.
Lahjoita puhetta -aineisto sisältää noin 3200 tuntia puheäänitteitä, joista noin 1600 tuntia on litteroitu. Aineistossa on mukana myös tiedot kampanjasovelluksessa kuhunkin puhenäytteeseen liittyneistä tehtävistä sekä puhettaan lahjoittaneiden ihmisten vapaaehtoisesti ilmoittamat taustatiedot.
Puhelahjat-aineistoa voidaan luovuttaa Kielipankista tarkoituksiin, jotka liittyvät kielentutkimukseen tai tekoälyn tutkimukseen ja kehittämiseen. Tutkijat voivat nyt hakea pääsyä aineistoon. Tutkijalisenssin rinnalla yrityksille tarjotaan omaa lisenssisopimusta, josta tulee pian lisätietoa Kielipankin sivuille. Kiinnostuneet yritykset voivat ottaa yhteyttä osoitteeseen lahjoita-puhetta@helsinki.fi.
Akateemisen tutkimuskäytön osalta aineiston käyttöehdot ja tietosuojaehdot löytyvät osoitteesta http://urn.fi/urn:nbn:fi:lb-2022020221.
Tutkijat voivat hakea lisenssin mukaisilla ehdoilla pääsyä aineistoon Kielipankin oikeudet -palvelun kautta. Ennen lisenssin myöntämistä tutkijan on esitettävä tutkimussuunnitelma. Koska Puhelahjat-aineisto sisältää henkilötietoja, on tutkijan toimitettava Kielipankkiin julkinen ilmoitus henkilötietojen käsittelystä.
Lahjoita puhetta (Puhelahjat) -aineistot tutkimuskäyttöön (vastaava sivu yrityskäyttöä varten on tulossa)
Lahjoita puhetta (Puhelahjat) -aineiston kuvailutiedot
Lahjoita puhetta -hankkeen kuvaus Kielipankissa
This autumn, a campaign to collect Estonian speech has launched in Estonia. The goal of the ”Anneta kõnet” campaign is to develop language technologies and to help to preserve the Estonian language.
All adult Estonian speakers, including those who speak Estonian as a foreign language, are invited to participate in the project and donate their speech through the ”Anneta kõnet” campaign website. With the help of a large number of participants it would be possible to compile a corpus with contemporary and diverse speech, including examples from different Estonian dialects.
The ”Anneta kõnet” campaign was launched by Estonia’s Ministry of Economic Affairs and Communications (MKM) and the State Information System Authority (RIA). The project has received funding from the EU NextGenerationEU recovery plan.
”Anneta kõnet” campaign has similar goals as its predecessor ”Lahjoita puhetta” campaign, which was launched in 2020 to collect spoken Finnish. After it proved successful, a similar campaign for collecting Finland Swedish, ”Donera prat”, was launched in the end of 2021. All these ”Donate your speech” campaigns aim to compile language-specific and open speech corpora, which would in the near future benefit researchers as well as developers of speech technology, applications and language-centric Artificial Intelligence (AI).
Anneta kõnet – About the project
Virossa on tänä syksynä käynnistynyt puheenkeräyskampanja ”Anneta kõnet”, jonka päämääränä on kehittää kieliteknologisia ratkaisuja sekä edistää viron kielen säilymistä. Kaikkia täysi-ikäisiä viron puhujia, myös vieraana kielenä viroa puhuvia, kutsutaan osallistumaan hankkeeseen ja lahjoittamaan puhettaan Anneta kõnet -kampanjan verkkosivujen kautta. Laajan osallistujajoukon puhelahjoitusten avulla on mahdollista koota monipuolinen korpus, joka sisältäisi spontaanin vironkielisen puheen lisäksi myös tietoa eri murrealueiden ääntämyksestä.
Kampanjan on käynnistänyt Viron talous- ja viestintäministeriö (MKM) ja Viron kansallinen tietojärjestelmäviranomainen (RIA). Rahoitusta hanke on saanut EU:n NextGenerationEU-elpymisvaroista.
Anneta kõnet -kampanjalla on samankaltaisia tavoitteita kuin sen esikuvana toimineella suomen kieltä keränneellä Lahjoita puhetta -kampanjalla sekä siitä noin vuosi sitten versonneella suomenruotsin keruuseen keskittyvällä Donera prat -kampanjalla. Erilaisten puheenkeräyskampanjoiden yleisenä tavoitteena on koota kielikohtaisia avoimia puheaineistoja, joista on tulevaisuudessa hyötyä niin tutkijoille kuin puheteknologioiden, sovellusten ja kielikeskeisen tekoälyn kehittäjille.
Anneta kõnet -kampanjan projektikuvaus
Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months
WP x.y: Report on <topic of the deliverable>
Date of reporting: dd-mm-2023
Report authors: Firstname Lastname (Organization)
Contributors: Firstname Lastname (Organization)
Deliverable location: <link to, e.g., a GitHub repository, or other external location that includes further information or relevant content>
Keywords for the deliverable page: (any relevant keywords separated with semicolons; for search engines etc.)
The description text (max. 3000 characters) may include the following, if applicable:
The publication-ready deliverable should be emailed as a MS Word document (or similar) to wilhelmina.dyster (ATT) helsinki.fi, Cc:krister.linden (ATT) helsinki.fi.
Deadline for deliverables due 2022-12: Send the content for your deliverable page by 20.2.2023.
This page will showcase the project deliverables in 2022-2023 (see template and instructions for reporting).
D1.1.1 | Updating LBF resource selection | 2022-09 |
D1.1.2 | Ingesting new unstructured resources | 2023-12 |
D1.2.1 | Forced-Alignment Service | 2022-09 |
D1.2.2 | Transcription Service for Finnish Interviews | 2023-09 |
D1.3.1 | Corpora of non-standard language | 2022-09 |
D1.3.2 | Statistical noise models | 2023-06 |
D1.3.3 | Language models | 2023-09 |
D1.3.4 | Noise-resistant models | 2023-12 |
D2.1.1 | Licensing agreements for personal data | 2022-09 |
D2.1.2 | Licensing agreements for special categories | 2023-06 |
D2.2.1 | Speech recognition for L2 | 2022-12 |
D2.2.2 | Speech recognition for L2 update | 2023-12 |
D2.3.1 | Licensing interpretation sessions | 2022-12 |
D2.3.2 | Aligning and retrieving interpretations | 2023-12 |
D2.4.1 | Term discovery procedures | 2022-09 |
D2.4.2 | Terminology application | 2023-06 |
D2.4.3.1 | Initializing terminology collections | 2022-09 |
D2.4.3.2 | Initializing terminology collections | 2023-06 |
D2.4.3.3 | Initializing terminology collections | 2023-12 |
D2.5.1 | Test performances storage | 2022-12 |
D2.5.2 | Learner performances tools | 2023-12 |
D3.1.1 | Initial NLF data | 2022-09 |
D3.1.2 | Ingestion framework | 2022-12 |
D3.1.3 | Versioning support | 2023-06 |
D3.1.4 | Incremental update process | 2023-12 |
D3.2.1 | Analysis tools for NARC data | 2022-12 |
D3.2.2 | Annotation tools for NARC data | 2023-12 |
D3.3.1 | Qualitative survey data concept network | 2022-09 |
D3.3.2 | Browser for data concept network | 2023-09 |
D3.4.1 | Audio-visual and textual interaction analysis | 2022-12 |
D3.5.1 | TNA-based analysis of text | 2022-12 |
D3.5.2 | TNA network of Parliamentary debates | 2023-09 |
D4.1.1 | Harmonized FNB | 2022-09 |
D4.1.2 | Harmonization code | 2022-12 |
D4.1.3 | Visualisation workflow | 2023-06 |
D4.1.4 | R/Python modules | 2023-12 |
D4.2.1 | LDF knowledge extraction tools | 2022-12 |
D4.2.2 | Parliament of Finland ontology | 2023-12 |
D4.3.1 | Subsetting tool | 2022-09 |
D4.3.2 | Statistical overviews and bias detection | 2023-06 |
D4.3.3 | Intelligent noise reduction | 2023-12 |
D5.1.1 | User experience questionnaire | 2022-09 |
D5.1.2 | Log data collection and analysis | 2023-06 |
D5.1.3 | Protocol for collecting workshop data | 2023-12 |
D5.2.1 | Actor network | 2022-12 |
D5.2.2 | Educational material | 2023-12 |
The Corpus of Finnish Sign Language (CFinSL) has been available via the download service of the Language Bank of Finland after the former LAT platform was discontinued. The original downloadable packages turned out to be too large in order to be frequently downloaded and used during courses, for example. To alleviate the situation, the subcorpus of elicited narratives (CFinSL-elicit) was reorganized into smaller packages. Each package now includes the files of a given session, i.e., the video recordings and annotation files of a specific narration task performed by a specific signer.
For the time being, the download packages of the related conversation subcorpus (CFinSL-conv) were not modified. The access locations and content of both subcorpora remain the same.
More information about the currently available versions of the corpus can be found on the resource group page.
Suomalaisen viittomakielen korpuksen (CFinSL) sisältö on ollut ladattavissa Kielipankin latauspalvelun kautta sen jälkeen, kun LAT-alusta poistui käytöstä. Alkuperäiset latauspaketit ovat kuitenkin osoittautuneet opetuskäytössä liian suuriksi, koska tiettyjä aineiston osia on välttämätöntä ladata usein kurssien yhteydessä. Tilanteen helpottamiseksi korpuksen kerronta-aineisto (CFinSL-elicit) on nyt paketoitu uudelleen hieman pienempiin osiin siten, että yksittäinen latauspaketti sisältää vain yhden istunnon tiedostot (ts. yhden viittojan tiettyyn kerrontatehtävään liittyvät videotallenteet ja annotaatiotiedostot).
Samaan korpuskokonaisuuteen kuuluvan keskusteluaineiston (CFinSL-conv) latauspaketit ovat toistaiseksi ennallaan. Kummankaan osa-aineiston sijainti tai sisältö ei ole muuttunut.
Lisätietoa Suomalaisen viittomakielen korpuksen saatavilla olevista versioista löytyy CFinSL–aineistoryhmän sivulta.
Korp – our favourite corpus query service – will finally be upgraded to a new version before Christmas! You may already test the new Korp at https://korp.csc.fi/korplab/#?lang=en.
In the corpus menu of the new Korp version, the existing corpora have been rearranged under thematic sections. The same content is still available. In case you have links to corpus queries performed in the previous Korp version, they should continue to work in the new Korp version after the upgrade.
In addition, the new Korp version includes some features that have not been previously available, such as an improved way of filtering the content where the search is to be performed, and a better map feature for corpora that include information on geographic locations. All features will not be immediately available in the new Korp version, but they will be added little by little.
Please report any deficiencies either via the feedback form that you can find under the wheel menu in Korp, or by email to fin-clarin (at) helsinki.fi. For the time being, the current Korp version will remain available even after the upgrade at https://korp.csc.fi/korp-old/#?lang=en.
Suosikkihakupalvelumme Korp päivittyy uuteen versioon vielä ennen joulua! Uutta Korp-versiota voi jo kokeilla osoitteessa
Uutta Korp-versiota varten Korpin korpusvalikossa näkyvät aineistot on järjestetty uudelleen aihepiirin mukaan. Korpusten sisällöt ovat kuitenkin samoja, ja aiemmalla Korp-versiolla tehtyjen hakulinkkien pitäisi toimia suoraan myös uudella Korpilla.
Uusi Korp mahdollistaa joitakin sellaisia ominaisuuksia, joita aikaisemmassa versiossa ei ole ollut käytettävissä, esimerkiksi mahdollisuuden suodattaa hakujen kohteena olevaa aineistoa sekä paremman karttanäkymän niille korpuksille, joihin on liitetty sijaintitietoja. Kaikki ominaisuudet eivät välttämättä ole heti käytettävissä uudessa Korp-versiossa, mutta niitä lisätään ajan myötä.
Toivomme palautetta uuden Korpin puutteista joko Korpin ratasvalikosta löytyvän palautelomakkeen kautta tai sähköpostitse osoitteella fin-clarin (ät) helsinki.fi. Päivityksen jälkeen myös nykyinen Korp-versio jää toistaiseksi käyttöön osoitteessa https://korp.csc.fi/korp-old/.
Lahjoita puhetta-kampanjan ruotsinkielinen versio Donera prat (svenska.yle.fi/doneraprat) on alkanut verkossa. Kaikki ruotsin kieltä silloin tällöin arjessa käyttävät ovat tervetulleita lahjoittamaan näytteensä, jotta tekoäly ymmärtäisi tulevaisuudessa myös suomenruotsia.
Tervetuloa lahjoittamaan osoitteessa https://doneraprat.fi!
The Swedish version of the Donate Speech campaign (svenska.yle.fi/doneraprat) has started online (https://doneraprat.fi). Everyone who once in a while uses Swedish in Finland is welcome to donate their speech samples so that in the future, artificial intelligence will also understand Swedish the way it is spoken in Finland.
Kampanjen Donera prat (svenska.yle.fi/doneraprat) har börjat på nätet (https://doneraprat.fi). Alla som då och då använder svenska i vardagen är välkomna att donera lite vardagsprat för att utveckla artificiell intelligens som i framtiden även förstår finlandssvenska.
Lahjoita puhetta -kampanja, jonka suunnittelussa Kielipankki on ollut mukana, palkittiin vuoden 2021 Prix Europa-festivaalilla sarjassa Best European Digital Audio Project of the Year 2021. Voittajat julkistettiin Saksan Potsdamissa 15.10.2021. Lue Ylen sivuilta lisää Prix Europa -palkinnosta: https://yle.fi/aihe/a/20-10001451
Aiemmin tänä vuonna Lahjoita puhetta on voittanut parhaan mobiilipalvelun palkinnon sekä kunniamaininnan parhaasta datan käytöstä digitaalisen median Grand One -gaalassa (linkki Ylen sivuille).
Lahjoita puhetta on Ylen, Valtion kehitysyhtiö Vaken (nykyinen Ilmastorahasto), Solitan, Aalto-yliopiston ja Helsingin yliopiston yhteinen hanke.
Tästä voit lahjoittaa puhettasi!
The Donate Speech campaign, where the Language Bank of Finland has been involved, was awarded with PRIX EUROPA: Best European Digital Audio Project of the Year 2021 (see https://www.prixeuropa.eu/news/2021/10/15winners-y4emh). The award ceremony took place in Potsdam, Germany on 15th October, 2021.
Earlier this year, Donate Speech also won the national Grand One award for Best Mobile Service of the Year, including a distinction for Best Use of Data.
Donate Speech is a joint project of Yle – the Finnish Broadcasting Company, Vake Oy (current Ilmastorahasto), Solita, Aalto University and the University of Helsinki.
If you speak and understand Finnish, you can donate your speech here!
On 29th October 2021, the Language Bank of Finland and the Donate Speech campaign (Lahjoita puhetta) were awarded by the University of Helsinki in recognition of exceptional work in promoting the accessibility and reusability of research data. In addition to the Language Bank, the award was given to Research Coordinator Kati Lassila-Perini.
In the award ceremony, Research Director Krister Lindén gave a presentation that is now available on YouTube with English subtitles. Read more about the award on the website of the University of Helsinki.