Amerikansuomalaisten siirtolaisten puhuttu suomen ja englannin kieli

Spoken Finnish and English of Finnish-American Immigrants


INCEpTION is a certified open-source web annotation service that has been developed by the Faculty of Computer Science of Technische Universität Darmstadt and is available to all registered users of the CLARIN:EL Research Infrastructure.

INCEpTION offers a generic multi-user annotation environment aiming

  1. to cover three essential aspects of text annotation in a single tool: corpus building, knowledge modelling and annotation and
  2. to combine them with machine-learning-based assistive mechanisms (so-called recommenders) to improve the annotation efficiency and quality.

INCEpTION service is hosted at Kielipankki’s CLARIN partners at CLARIN:EL in Greece. (Click here to view their Privacy Policy.)

To start using the INCEpTION service Click ”Use Service” > ”Log in to access” > ”CLARIN Service Provider Federation login” and select your home organization.

For more information  see the INCEpTION User Documentation.

The Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version


This corpus contains newspapers and magazines from Finland starting from 1770, compiled by the National Library of Finland.

NB: The Finnish acronym for the corpora The Newspaper and Periodical OCR Corpus of the National Library of Finland used to be ”Digilib”. Currently, however, the acronym ”klk” and the short names klk-fi-1874-dl and klk-fi-1920-dl are recommended instead.

The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (1771-1874), VRT
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, VRT
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp
The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version
The Swedish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland, Kielipankki Version
The Newspaper and Periodical OCR Corpus of the National Library of Finland (1771-1874)
The Newspaper and Periodical OCR Corpus of the National Library of Finland (1875-1920)
The Newspaper and Periodical Corpus of the National Library of Finland, Swedish sub-corpus, 1771–1879, VRT
The Newspaper and Periodical Corpus of the National Library of Finland, Swedish sub-corpus, 1880–1948, scrambled, VRT
Of this language corpus different versions/subcorpora are published in the Language Bank of Finland. The versions are available through the Language Bank Download Service and/or through the Korp concordance tool. The links to the different versions can be found from the list above.

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.


Based on the KLK data, word-level collections of uni-, bi- and trigrams have been created and are available for download. These are their own data sets:

The N-grams of the Newspaper and Periodical Corpus of the National Library of Finland


Concordance view of any form of the word 'sosialismi' in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp
Concordance view of any form of the word ’sosialismi’ in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp


Word picture of the word 'sosialismi' in klk-fi-v2-korp
Word picture of the word ’sosialismi’ in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp


Trend diagram of all forms of the word 'sosialismi' occurring in klk-fi-v2-korp
Trend diagram of all forms of the word ’sosialismi’ occurring in the Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2, Korp

OCR quality

The corpora consist mainly of digitized versions of texts originally printed on paper. These physical papers have been scanned, and optical character recognition (OCR) was performed on the resulting images. The digitized material spans a long period and contains different kinds of texts, writing styles and fonts. Scanning some parts of the material is more complex than scanning other parts, and the physical condition of the original texts also varies. The OCR techniques used have also varied, and there is the possibility that some of the texts have gone through manual post-correction. This results in some parts of the corpora being of terrible quality while others are of good quality. We have collected a list of publications related to OCR quality and collection processing:


Corpus of Finnish Sign Language


Corpus of Finnish Sign Language: elicited narratives, Download version
Corpus of Finnish Sign Language: conversations, Download version
Tekstin uudelleenkäyttöklusterit ruotsinkielisessä lehdistössä 1645-1918

Tekstin uudelleenkäyttöklusterit ruotsinkielisessä lehdistössä 1645-1918
Aineiston sisältö

Resurssi perustuu Suomen ja Ruotsin kansalliskirjastojen digitoiman ruotsinkielisen sanoma- ja aikakauslehtiaineiston päällekkäisyyksien ja toistojen tutkimukseen. Tarkoituksena oli löytää kaikki yli 300 merkkiä pitkät tekstit tai tekstinpätkät, jotka olivat toistuneet tai kopioitu vähintään kerran. Näitä samankaltaisuuksia tai päällekkäisyyksiä löytyi yli 101 miljoonaa. Kun samoja tekstejä klusteroitiin, klustereita löytyi lähes 22 miljoonaa. Tutkimus kattoi vuodet 1645-1918 alkaen ensimmäisestä Ruotsissa painetusta sanomalehdestä. Tutkimuksessa oli mukana yhteensä 7,5 miljoonaa sivua digitoitua sanomalehtiaineistoa. Edellä mainittujen Suomessa ja Ruotsissa painettujen sanomalehtien lisäksi tietokanta sisältää Pohjois-Amerikassa julkaistuja ruotsinkielisiä maahanmuuttajien sanomalehtiä.

Materiaali on tuotettu hankkeessa ”Informationsflöden över Östersjön: Svenskspråkig press som kulturförmedlare”, jota rahoittaa Suomen ruotsalaisen kirjallisuuden seura (Svenska Litteratursällskapet i Finland). Digitoitu aineisto koottiin marraskuussa 2022.

Kokeile hakukonetta, joka on suunniteltu näiden tekstikokonaisuuksien etsimiseen ja analysointiin.

Lisätietoja sisällöstä ja eri korpusversioita koskevista ehdoista ja edellytyksistä on saatavilla vastaavissa metatietueissa.

Text reuse clusters in the Swedish-language press 1645-1918


Text reuse clusters in the Swedish-language press 1645-1918
Corpus contents

The resource is based on a study of overlaps and repetitions of texts in the Swedish-language newspaper and magazine material that has been digitised by the national libraries of Finland and Sweden. The idea was to locate all texts or text fragments longer than 300 characters that had been repeated or copied at least once. More than 101 million of these similarities or overlaps were found. When the same texts were clustered together, there were almost 22 million clusters. The study covered the years 1645-1918, starting with the first newspaper printed in Sweden. In total, 7.5 million pages of digitised newspaper material were included in the study. In addition to the aforementioned newspapers printed in Finland and Sweden, the database includes Swedish-language immigrant newspapers published in North America.

The resource was produced by the project ”Informationsflöden över Östersjön: Svenskspråkig press som kulturförmedlare”, funded by Society of Swedish Literature in Finland (Svenska Litteratursällskapet i Finland). The digitised material was compiled in November 2022.

Try out the Search engine designed for searching and analysing these clusters of text reuse.

Further details about the content and the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology.

The GiellaLT website contains the technical documentation of the GiellaLT infrastructure, developed and used by Divvun and Giellatekno.

It is an open source website providing analysers and tools for a wide range of languages, as well as a ready-made setup for adding more languages.


Testing and enhancement of language models (transducers) from GiellaLT

The Language Bank of Finland is currently in the process of evaluating the state of development of GiellaLT’s analysers for individual languages in relation to text data being annotated for the Korp search engine.

Read more about the details and findings of the evaluation performed by Jack Rueter.


Testing and enhancement of language models (transducers) from GiellaLT

GiellaLT provides an infrastructure for rule-based language technology aimed at minority and indigenous languages, and streamlines building anything from keyboards to speech technology. The web site of GiellaLT offers language models (transducers) for a wide range of languages. Writing documentation for each language repository is an ongoing effort, and part of the development process.

Analyser enhancement

The GiellaLT infrastructure, with its implementation of finite-state tools, allows people working with different languages to make use of technological solutions that, otherwise, might require several years of individual development. It is here that descriptions for many of the Uralic languages have been initialized and developed as both financed projects and the work of language technology enthusiasts.
The GiellaLT infrastructure makes it possible to reuse finite-state descriptions and even encourages it. Thus, contributing to the enhancement of the finite-state tools at GiellaLT, when extending the annotation of corpora on the Language Bank of Finland’s Korp server, is beneficial to the search engine users as well.

On this page, we will evaluate the state of development of analysers for individual languages in relation to text data being annotated for the Korp search engine. This evaluation will therefore be aligned with the annotation of upcoming corpora, such as a new extended version of PaBiVUS (Parallel Biblical Verses for Uralic Studies). The objective is to increase the lemmatization, morphological and syntactic annotation coverage not previously offered for non-majority languages in the parallel corpus. So, here we will provide an illustrative depiction of each individual finite-state description and what steps have been made for improvement. This might be seen as enhanced but not complete coverage of various genre as we go.

The evaluations will tend to illustrate the capacities of the analysers, which do have equivalent generators, but the possible overproductivity of these generators is presently not the focus of these evaluations. In time, attention will be also drawn towards the description of the disambiguation of morphological analyses, which is made possible in the open-source GiellaLT infrastructure. The enhanced descriptions, housed in GiellaLT, will serve as a contribution by the Language Bank of Finland in the shared responsibilities towards improved coverage of lesser described languages and NLP addressing them. Thus, the resulting analysers will available for building within the GiellaLT infrastructure or the UralicNLP python, java and .net libraries available through Github or the Language Bank of Finland.

For more details see the complete description on the analyser enhancement by Jack Rueter.

Evaluations of analysers for individual languages:


Nordic Tweet Stream (NTS) haku- ja visualisointikäyttöliittymä

NTS on monikielinen monitorikorpus, joka sisältää maantieteellisesti paikannettuja twiittejä ja niihin liittyviä metatietoja Pohjoismaista. Kaikkiaan se sisältää lähes 74 miljoonaa viestiä sadoilta tuhansilta käyttäjätileiltä Tanskasta, Suomesta, Islannista, Norjasta ja Ruotsista. NTS-tiedot kattavat ajanjakson tammikuun 2013 ja toukokuun 2023 välillä, ja ne kerättiin Twitter Academic API:n avulla, joka on nyt suljettu.

NTS:n tarkoituksena on helpottaa SSH:n perustutkimusta. NTS:ssä on helppokäyttöinen graafinen käyttöliittymä, joka tukee nopeaa tiedonsaantia, jotta tutkijat voivat keskittyä tietojen analysointiin. Tietoaineisto mahdollistaa erityyppiset tutkimukset. Esimerkiksi on mahdollista tutkia julkista keskustelua ja tunteita lähihistorian tapahtumista (esim. COVID-19-pandemia, Nato-jäsenyysprosessi jne.). Tietokokonaisuus on myös resurssi sosiolingvistiselle tutkimukselle ja monikielisyyden tutkijoille.

Tutustu verkkosivustoon.

Lisää tietoa NTS:stä

Jos käytät NTS-käyttöliittymää ja hyödynnät tuloksia julkaisuissasi, mainitse hiljattain julkaistu artikkeli, joka on saatavilla verkossa:
[1] Laitinen, Mikko, Jonas Lundberg, Magnus Levin & Rafael Martins. 2018. The Nordic Tweet Stream: A Dynamic Real-Time Monitor Corpus of Big and Rich Language Data, Proc. of Digital Humanities in the Nordic Countries 3rd Conference, Helsinki, Finland, March 7-9, 2018,, online

Nordic Tweet Stream (NTS) search & visualization interface


The NTS is a multilingual monitor corpus of geolocated tweets and associated metadata from the Nordic region. Altogether, it contains nearly 74 million messages from hundreds of thousands of user accounts from Denmark, Finland, Iceland, Norway, and Sweden. The NTS data cover the period between January 2013 and May 2023 and were collected using the Twitter Academic API, which is now closed.

The purpose of the NTS is to facilitate fundamental research in SSH. The NTS comes with an easy-to-use graphic interface that supports quick data access so that researchers can focus on data analysis. The dataset enables various types of research. For instance, it is possible to study public discourses and sentiment concerning events in recent history (e.g., the COVID-19 pandemic, the NATO membership process, etc.). The dataset is also a resource for sociolinguistic research and for scholars of multilingualism.

Please visit the website.

About NTS

If you use the NTS interface and use the findings in your publications, please cite the recent paper, which is available online:
[1] Laitinen, Mikko, Jonas Lundberg, Magnus Levin & Rafael Martins. 2018. The Nordic Tweet Stream: A Dynamic Real-Time Monitor Corpus of Big and Rich Language Data, Proc. of Digital Humanities in the Nordic Countries 3rd Conference, Helsinki, Finland, March 7-9, 2018,, online

Uralic UD

Uralic UD v2.13, Kielipankin Korp-versio (beta)
Tämän korpuksen uusin versio on annotoitu Universal Dependencies -järjestelmän version 2.13 mukaisesti seuraavien uralilaisten kielten osalta: Erzya, Estonian, Finnish, Hungarian, Karelian, Komi-Permyak, Komi-Zyrian, Livvi, Moksha, North Sami, Skolt Sami, Veps.

Puupankit ja niiden lisenssit:

Erzya (JR); CC BY-SA 4.0
Estonian (EDT, EWT); CC BY-NC-SA 4.0
Finnish (FTB, OOD, PUD, TDT); FTB: CC BY 4.0, other: CC BY-SA 4.0
Hungarian (Szeged); CC BY-NC-SA 3.0
Karelian (KKPP); CC BY-SA 4.0
Komi-Permyak (UH); CC BY-SA 4.0
Komi-Zyrian (IKDP, Lattice); CC BY-SA 4.0
Livvi (KKPP); CC BY-SA 4.0
Moksha (JR); CC BY-SA 4.0
North Sami (Giella); CC BY-SA 4.0
Skolt Sami (Giellagas); CC BY-SA 4.0
Veps (VWT); CC BY-SA 4.0

Universal Dependencies v2.13 License Agreement



Uralic UD-hankkeet aakkosjärjestyksessä kielen ja osahankkeen mukaan jaoteltuina:

Osallistujat: Rueter, Jack; Tyers, Francis; Klementieva, Elena; Erina, Olga; Riabov, Ivan

Osallistujat: Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina; Rääbis, Andriela; Torga, Liisi

Osallistujat: Muischnek, Kadri; Müürisep, Kaili; Puolakainen, Tiina; Särg, Dage; Eiche, Sandra; Rääbis, Andriela

Osallistujat: Piitulainen, Jussi; Nurmi, Hanna

Osallistujat: Kanerva, Jenna

Osallistujat: Kanerva, Jenna; Ginter, Filip; Ojala, Stina; Missilä, Anna

Osallistujat: Ginter, Filip; Kanerva, Jenna; Laippala, Veronika; Miekka, Niko; Missilä, Anna; Ojala, Stina; Pyysalo, Sampo

Osallistujat: Farkas, Richárd; Simkó, Katalin; Szántó, Zsolt; Varga, Viktor; Vincze, Veronika

Osallistujat: Pirinen, Flammie

Osallistujat: Ponomareva, Larisa; Partanen, Niko; Rueter, Jack; Tyers, Francis

Osallistujat: Partanen, Niko; Blokland, Rogier; Rießler, Michael; Rueter, Jack

Osallistujat: Partanen, Niko; Lim, KyungTae; Poibeau, Thierry; Rueter, Jack

Osallistujat: Pirinen, Flammie

Osallistujat: Rueter, Jack; Levina, Maria; Kabaeva, Nadezhda; Molnár, Judit; Alnajjar, Khalid

Osallistujat: Trosterud, Trond; Antonsen, Lene; Tyers, Francis

Osallistujat: Rueter, Jack; Juutinen, Markus; Tyers, Francis; Pirinen, Tommi A; Hämäläinen, Mika

Osallistujat: Laan, Käbi


DigiTala (2019–2023)

DigiTala: lukioissa ja yliopistossa kerätty S2-aineisto, syksy 2021
DigiTala: lukioissa kerätty S2-aineisto, kevät 2021
DigiTala: aikuisoppijoilta kerätty ruotsi toisena kielenä -aineisto, kevät 2023
DigiTalan YKI-aineisto
Aineiston sisältö

Tämä resurssi sisältää näytteitä L2-suomea ja L2-ruotsia puhuvilta henkilöiltä, transkriptioita, ihmisten antamia arvioita, oppijoiden vastauksia testin jälkeisiin kyselyihin ja arvioijien vastauksia arvioinnin jälkeisiin kyselyihin. Aineisto on kerätty DigiTala-tutkimushankkeessa (2019-2023) suomea tai ruotsia toisena kielenä oppivilta aikuisopiskelijoilta.

DigiTala-tutkimushankkeen (2019-2023) päätavoitteena on kehittää digitaalinen työkalu, joka käyttää automaattista puheentunnistusta ja automaattista pisteytystä suomen- ja ruotsinkielisten oppijoiden suullisen kielitaidon arviointiin. Työkalu antaa myös automaattista palautetta oppijoiden puhesuorituksista. Hankkeessa kehitetyn digitaalisen työkalun tarkoituksena on mahdollistaa suullisen kielitaidon arviointi korkean tason kielikokeissa. Lisäksi oppilaat voivat harjoitella ääntämistä ja puheen tuottamista vierailla kielillä itsenäisesti koulun ulkopuolella tai ilman opettajan ohjausta kielitunneilla.

Hankkeen aikana kerättiin aineistoa suomea tai ruotsia toisena kielenä opiskelevilta lukiolaisilta ja yliopisto-opiskelijoilta. Lisäksi hankkeessa hyödynnettiin suomen ja ruotsin yleisten kielitutkintojen (Yleiset kielitutkinnot, YKI) puheaineistoa.

Hanke on Suomen Akatemian rahoittama 2019-2023, ja siinä yhdistyvät Helsingin yliopiston (apurahanumero 322619), Aalto-yliopiston (apurahanumero 322625) ja Jyväskylän yliopiston (apurahanumero 322965) asiantuntemus puheen ja kielen prosessoinnissa, kielikasvatuksessa ja fonetiikassa. Nykyinen hanke perustuu pilottihankkeen aikana saatuihin kokemuksiin, ks. DigiTala (2015-2017).

Lisätietoja sisällöstä ja eri korpusversioita koskevista ehdoista ja edellytyksistä löytyy kunkin aineistoversion kuvailutiedoista.


DigiTala-hankkeen (2019-2023) verkkosivusto

DigiTala-hankkeen materiaaleja: Tehtävät, kyselylomakkeet ja arviointikriteerit

UDPipe is a trainable pipeline for tokenization, tagging, lemmatization and dependency parsing of CoNLL-U files. UDPipe is language-agnostic and can be trained given annotated data in CoNLL-U format. Trained models are provided for nearly all UD treebanks. UDPipe is available as a binary for Linux/Windows/OS X, as a library for C++, Python, Perl, Java, C#, and as a web service. Third-party R CRAN package also exists.

UDPipe is a free software distributed under the Mozilla Public License 2.0 and the linguistic models are free for non-commercial use and distributed under the CC BY-NC-SA license, although for some models the original data used to create the model may impose additional licensing conditions. UDPipe is versioned using Semantic Versioning.

Copyright 2017 by the Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, Czech Republic.

UDPipe Kielipankki version
For more information on this tool have a look at the UDPipe User’s manual


More information on the Kielipankki version:

Using UDPipe on CSC’s servers requires a CSC user account:

UDPipe is installed in CSC’s computing environment (invoke with: module load udpipe) in the following configuration:
Software: UDPipe 1.2.0
Models: 2.3-181115

UDPipe was compiled and installed from Source without local modifications. Please refer to the user’s manual.

The tool was installed using Ansible scripts that can be found here:

Finnish Dependency Parsing Pipeline

Turku Dependency Parser Pipeline, Kielipankki version (TDPP-LBF)
Finnish dependency parser developed by TurkuNLP (TDPP)
The Turku Dependency Parser Pipeline, Kielipankki version (TDPP-LBF) is a version of the open source dependency parsing pipeline developed by the University of Turku NLP group for analyzing Finnish text, adapted by Kielipankki – the Language Bank of Finland.

For further information on the source version please visit the project’s website.


On Kielipankki’s GitHub repository you can find VRT tools adapted from the original pipeline (vrt-tdp-…):

  • vrt-tdp-alpha-fillup
  • vrt-tdp-alpha-lookup
  • vrt-tdp-alpha-marmot
  • vrt-tdp-alpha-parse


DigiTala L2 (2019–2023)

DigiTala: lukioissa ja yliopistossa kerätty S2-aineisto, syksy 2021
DigiTala: lukioissa kerätty S2-aineisto, kevät 2021
DigiTala: aikuisoppijoilta kerätty ruotsi toisena kielenä -aineisto, kevät 2023
Lisätiedot löytyvät DigiTalan aineistoryhmäsivulta.

DigiTala L2 (2019–2023)


DigiTala: L2 Finnish data from upper secondary schools and university, autumn 2021
DigiTala: L2 Finnish data from upper secondary schools, spring 2021
DigiTala: L2 Swedish data from adult language learners, spring 2023
For further information please see the DigiTala resource group page

DigiTala (2019–2023)

DigiTala: lukioissa ja yliopistossa kerätty S2-aineisto, syksy 2021
DigiTala: lukioissa kerätty S2-aineisto, kevät 2021
DigiTala: aikuisoppijoilta kerätty ruotsi toisena kielenä -aineisto, kevät 2023
DigiTalan YKI-aineisto
Aineiston sisältö

Tämä resurssi sisältää näytteitä L2-suomea ja L2-ruotsia puhuvilta henkilöiltä, transkriptioita, ihmisten antamia arvioita, oppijoiden vastauksia testin jälkeisiin kyselyihin ja arvioijien vastauksia arvioinnin jälkeisiin kyselyihin. Aineisto on kerätty DigiTala-tutkimushankkeessa (2019-2023) suomea tai ruotsia toisena kielenä oppivilta aikuisopiskelijoilta.

DigiTala-tutkimushankkeen (2019-2023) päätavoitteena on kehittää digitaalinen työkalu, joka käyttää automaattista puheentunnistusta ja automaattista pisteytystä suomen- ja ruotsinkielisten oppijoiden suullisen kielitaidon arviointiin. Työkalu antaa myös automaattista palautetta oppijoiden puhesuorituksista. Hankkeessa kehitetyn digitaalisen työkalun tarkoituksena on mahdollistaa suullisen kielitaidon arviointi korkean tason kielikokeissa. Lisäksi oppilaat voivat harjoitella ääntämistä ja puheen tuottamista vierailla kielillä itsenäisesti koulun ulkopuolella tai ilman opettajan ohjausta kielitunneilla.

Hankkeen aikana kerättiin aineistoa suomea tai ruotsia toisena kielenä opiskelevilta lukiolaisilta ja yliopisto-opiskelijoilta. Lisäksi hankkeessa hyödynnettiin suomen ja ruotsin yleisten kielitutkintojen (Yleiset kielitutkinnot, YKI) puheaineistoa.

Hanke on Suomen Akatemian rahoittama 2019-2023, ja siinä yhdistyvät Helsingin yliopiston (apurahanumero 322619), Aalto-yliopiston (apurahanumero 322625) ja Jyväskylän yliopiston (apurahanumero 322965) asiantuntemus puheen ja kielen prosessoinnissa, kielikasvatuksessa ja fonetiikassa. Nykyinen hanke perustuu pilottihankkeen aikana saatuihin kokemuksiin, ks. DigiTala (2015-2017).

Lisätietoja sisällöstä ja eri korpusversioita koskevista ehdoista ja edellytyksistä löytyy kunkin aineistoversion kuvailutiedoista.


DigiTala-hankkeen (2019-2023) verkkosivusto

DigiTala-hankkeen materiaaleja: Tehtävät, kyselylomakkeet ja arviointikriteerit

DigiTala (2019–2023)


DigiTala: L2 Finnish data from upper secondary schools and university, autumn 2021
DigiTala: L2 Finnish data from upper secondary schools, spring 2021
DigiTala: L2 Swedish data from adult language learners, spring 2023
DigiTala’s YKI data
Corpus contents

This resource includes speech samples from L2 Finnish speakers and L2 Finland Swedish speakers, transcripts, human ratings, the learners’ responses to post-test surveys and the raters’ responses to post-rating surveys. The data was collected by the DigiTala research project (2019–2023) from adult learners of Finnish or Swedish as a second language.

The main goal for DigiTala (2019–2023) research project is to develop a digital tool that uses automatic speech recognition and automatic scoring to assess L2 Finnish and Swedish learners’ oral skills. The tool also provides automated feedback on learners’ speaking performances. The purpose of the digital tool developed in the project is to make assessment of oral language skills possible in high-stakes language tests. Furthermore, students can practice their pronunciation and speech production in foreign languages independently outside the school or without the teacher’s guidance at language classes.

During the project, material was collected from upper secondary school students and university students learning Finnish or Swedish as a second language. In addition, the project made use of the speech material from Finnish and Swedish general language tests (Yleiset kielitutkinnot, YKI).

The project is funded by the Academy of Finland 2019–2023, and combines expertise in speech and language processing, language education and phonetics at the University of Helsinki (grant number 322619), Aalto University (grant number 322625) and the University of Jyväskylä (grant number 322965). The current project builds on lessons learned during a pilot project, see DigiTala (2015–2017).

Further details about the content and the terms and conditions regarding the different corpus versions are available in the corresponding metadata records.

Further information

Website of the DigiTala research project (2019–2023)

DigiTala project resources: Tasks, surveys and rating criteria

T-Bone Slim -korpus

T-Bone Slim -korpus, lähdemateriaali
T-Bone Slim -korpus, Westmoreland-aineisto
Aineiston sisältö

T-Bone Slim -korpus käsittää amerikansuomalaisen IWW-kirjailijan T-Bone Slimin (Matti V. Huhta, 1882–1942) sanomalehdissä sekä muissa vasemmistojulkaisuissa julkaistut kolumnit, laulutekstit, runot ja käsikirjoitukset. Suurin osa aineistosta sisältyy avoimesti saatavilla olevaan versioon (T-Bone Slim -korpus, lähdemateriaali), mutta osa käsikirjoituksista ja valokuvista tulee saataville luvanvaraisena (T-Bone Slim -korpus, Westmoreland-aineisto).

T-Bone Slim julkaisi tekstinsä pääasiassa IWW (Industrial Workers of the World)-työväenliikkeen lehdissä ja muissa julkaisuissa. Alkuperäisiä englanninkielisiä tekstejä julkaistiin seuraavissa julkaisuissa:

  • General Construction Workers Bulletin 1922; 1923
  • Industrial Solidarity 1921–1931  
  • Industrial Pioneer 1921; 1923; 1925
  • Industrial Worker 1921–1942
  • Junior Recruit 1934
  • Little Red Songbook 1921/1922
  • Lumber Workers Bulletin Port Arthur 1935
  • Lumber Workers Industrial Union 1923
  • One Big Union Monthly 1938 (1920?)
  • Truth 1921–1923

Lisäksi T-Bone Slimin kirjoittamia yksittäisiä tekstejä tai lehti-ilmoituksia on julkaistu seuraavissa julkaisuissa:

  • Aberdeen American 1919 (nimellä Matt Arnold)
  • Erie Times News 1904; 1925; 1926 (nimellä Mathew Huhta)
  • Evening World-Herald Omaha 1932
  • New Yorker Volkszeitung 1921
  • Producers News 1931

Suomenkielisiä käännöksiä tai alun perin suomeksi kirjoitettuja tekstejä julkaistiin seuraavissa lehdissä:

  • Amerikan Sanomat 1903 (nimellä Mathew Houghton)
  • Industrialisti 1922–1923; 1926; 1930; 1941–1942
  • Tie Vapauteen 1923

Aineisto on peräisin seuraavista kirjastoista ja arkistoista: Columbia University, Rare Book & Manuscript Library; Erie County Public Library; Genealogy Bank, Newspaper Archives; Janet Guinnane’s family photo collection; Library of Congress, Chronicling America; Kansalliskirjasto; Lakehead University Archives; Minnesota Historical Society, Minnesota Digital Newspaper Hub; Newberry Library; State Library of New South Wales; University of Michigan, Labadie Collection; Walter Reuther Library, Wayne State University; Westmorelandin perhearkisto.

Aineistokokonaisuus liittyy Koneen Säätiön rahoittamaan hankkeeseen ”T-Bone Slim and the transnational poetics of the migrant left in North America” (2022–2023).

Hankkeen kotisivut:

Tarkemmat aineistokohtaiset käyttöehdot löytyvät kunkin aineistoversion kuvailutiedoista.

