<< List of all deliverables

D1.1.2: Ingesting new unstructured resources

Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months

WP 1.1: Report on ingesting new unstructured resources
Date of reporting: 30-11-2023

Report authors: Mietta Lennes, Jussi Piitulainen (University of Helsinki)
Contributors: Ute Dieckmann, Erik Axelson, Jyrki Niemi, Jack Rueter, Tommi Jauhiainen, Krister Lindén (University of Helsinki)
Deliverable location: Corpora and tools available via the Language Bank of Finland

Keywords for the deliverable page: corpus, data set, automatic language identification

Description

The Newspaper and Periodical Corpus of the National Library of Finland was extended with a significant amount of new material from the National Library. The new version was organized according to the automatically identified language of each sentence. The Finnish Sub-corpus of the Newspaper and Periodical Corpus of the National Library of Finland version 2 (klk-fi-v2), consisting of more than 22 billion word tokens, was published in Korp in summer 2023. It consists of the text elements that contain at least one ”fin” sentence (from the new material, from the previous version of klk-fi, and from the previous klk-sv). Moreover, the summary attributes indicate the frequency distribution of languages within each text and each paragraph. An extended version of the Swedish sub-corpus (klk-sv-v2) has been compiled in a similar way (any ”swe” in a text), but the Swedish data is currently still waiting for the rest of the annotations to be completed. For details of the reorganization process of the National Library data according to language, see Jauhiainen et al. 2022.

The HeLI-OTS language identification tool was adapted for the format used in the Language Bank of Finland, together with a post-processor written to correct the identification of each sentence within its context. Another new tool was written to partition the corpus, first by the main identified languages, then by the year of publication.

As a demonstration of ingesting resources including parallel spoken material in multiple languages, the corpus Christmas Gospel text-to-speech in four Uralic languages was prepared and made available for searching and playback via Korp (for details on this effort, see D2.3.2).

Other corpora published in Korp during the years 2022-23 include, e.g., the Finnish News Agency Archive 1992-2018, Kielipankki Korp Version; Corpus of Contemporary American English (COCA) – Kielipankki Korp version 2020 and Erzya and Moksha Extended Corpora (ERME) version 2, Korp.

In addition, various downloadable resources were published, e.g., Corpus of Contemporary American English – Kielipankki VRT version 2020; FinnTreeBank 1, 2 and 3; Word embeddings trained with word2vec from the Finnish Text Collection; The Coronavirus Corpus (Mark Davies, english-corpora.org) – Kielipankki version 2021-05; and The Finnish Dark Web Marketplace Corpus.

During the project, the resource publication pipeline of the Language Bank of Finland has been refined and documented. The structure of the pipeline was first presented at the CLARIN Annual Conference in 2022 and described in the conference proceedings (Dieckmann & al., 2023, see below).

Publications

  • Jauhiainen, T., Piitulainen, J., Axelson, E., Lindén, K. (2022) Language diversity in the newspaper and periodical corpus of the National Library of Finland. Poster presented at Digital Research Data and Human Sciences (DRDHum), 1.-3.12.2022, Jyväskylä, Suomi. Download the poster
  • Dieckmann, U., Lennes, M., Piitulainen, J., Niemi, J., Axelson, E., Jauhiainen, T., Lindén, K. (2023) The Pipeline for Publishing Resources in the Language Bank of Finland. Erjavec, T., Eskevich, M. (editors), Selected Papers from the CLARIN Annual Conference 2022, pp. 33-43. Linköping University Electronic Press.

Tutkijat selvittivät Lahjoita puhetta -aineiston avulla tyypillisen sävelkorkeuden yli 8000 suomenpuhujan puheesta

Kansainvälinen INTERSPEECH 2023 -konferenssi järjestettiin 20.-24. elokuuta Dublinissa, Irlannissa. Mietta Lennes piti konferenssissa posteriesitelmän, joka perustui seuraavaan englanninkieliseen konferenssiartikkeliin:

Lennes, M., Toivola, M. (2023). Pitch distributions in a very large corpus of spontaneous Finnish speech. Proceedings of INTERSPEECH 2023, 4778-4782, doi: 10.21437/Interspeech.2023-1822.

Tutustu englanninkieliseen posteriin

The Donate Speech Corpus enabled researchers to analyze the typical voice pitch of more than 8000 speakers of Finnish

The 24th INTERSPEECH Conference was held on 20-24 August 2023 in Dublin, Ireland. At the conference, Mietta Lennes from the Language Bank of Finland presented a poster, based on the following conference article:

Lennes, M., Toivola, M. (2023). Pitch distributions in a very large corpus of spontaneous Finnish speech. Proceedings of INTERSPEECH 2023, 4778-4782, doi: 10.21437/Interspeech.2023-1822.

Take a look at the poster

 

Instructions: Publishing a privacy notice of research purposes

When you obtain a resource containing personal data from the Language Bank of Finland (Kielipankki) and start processing it for a new purpose, you must prepare a privacy notice regarding the purpose of processing, publish the notice openly in electronic format, and provide a link to the notice to the Language Bank. The purpose of a privacy notice is to help data subjects understand the purposes for which their data is used.

The Language Bank now offers some guidelines to help you collect the pieces of information that are usually required for a privacy notice regarding research purposes. Please note, however, that you should always primarily follow the data protection guidelines of your own organisation.

Privacy notice – Instructions for researchers

Learn to process language resources in a computational environment – register for a two-day remote course in June

Are you interested in using the computational environment at CSC for processing language resources? Do you want to know more about our resources and how to use them in your research?

CSC – IT Center for Science is organizing a remote course on 20.-21.6.2023 on these topics.

If you do research or teach in a Finnish institute of higher education or research institute, you may use CSC’s resources and take this course free of charge.

The two-day course includes:

  • The basics of computational research using language resources.
  • What language resources are available, and what is their technical layout.
  • How to get access, and what are you allowed to do.
  • What solutions are available for handling sensitive data.
  • How to run jobs on CSC hardware, both from the point of view of setting up your environment and running computationally intensive jobs.

Read more and register for the course on CSC’s course page: https://ssl.eventilla.com/kielipankki

Harjoittele kielivarojen käsittelyä kaksipäiväisellä etäkurssilla – CSC järjestää koulutuksen kesäkuussa

Kiinnostaako sinua oppia käyttämään CSC:n laskennallista ympäristöä kielivarojen käsittelyyn? Haluatko tietää lisää kielivaroista ja mahdollisuuksista käyttää niitä tutkimuksessasi?

CSC – Tieteen tietotekniikan keskus järjestää 20.–21.6.2023 etäkurssin näistä aiheista.

Jos teet tutkimusta tai opetat suomalaisessa korkeakoulussa tai tutkimuslaitoksessa, saat käyttöoikeuden CSC:n resursseihin maksutta ja myös tämä kurssi on sinulle maksuton.

Kaksipäiväisen koulutuksen aikana opitaan

  • mitä laskennallinen tutkimus kielivarannoilla ylipäätään on
  • mitä kielivarantoja Kielipankilla on, ja millainen niiden tekninen muoto on
  • miten varantoja saadaan tutkimuskäyttöön, ja millaiset lisenssiehdot rajoittavat niiden käyttöä
  • millaisia ratkaisuja on käytettävissä sensitiivisen datan käyttämiseen
  • miten CSC:n ympäristössä käytetään ohjelmistoja ja ohjelmointiympäristöjä, asennetaan ohjelmistoja ja tarvittaessa hyödynnetään suurteholaskentaa.

Lue lisää ja ilmoittaudu mukaan CSC:n kurssisivulla: https://ssl.eventilla.com/kielipankki

Testattavana uusi puheentunnistuspalvelu – Tekstiks

Uusi automaattinen puheentunnistuspalvelu Tekstiks on testikäytössä. Järjestelmä pystyy tunnistamaan puhuttua viroa ja suomea sekä tuottamaan äänitteestä tekstimuotoisen litteraatin. Palveluun kuuluu myös käyttöliittymä, jossa litteroitua tekstiä voi muokata ja kuunnella samalla äänitettä.

Tekstiks-palvelua voi jo alustavasti kokeilla yksittäisillä omilla puhenäytteillä. Huomaa kuitenkin, että palvelu on vielä kehitteillä. Tietosuojasyistä järjestelmä ei tässä vaiheessa vielä sovellu luottamuksellisen puheaineiston käsittelyyn.

Tekstiks-palvelu on syntynyt Tallinnan teknillisen korkeakoulun, Kielipankin ja Aalto-yliopiston välisenä yhteistyönä.

Katso lisätiedot ja kokeile!

Available for test use: Tekstiks – an automatic speech transcription service

Tekstiks, a new automatic speech transription service, is now up and running for test users. The automated system can recognise spoken Estonian and Finnish and produce a transcript of the recording. The service also includes an interface for editing the transcribed text while listening to the recording.

The Tekstiks service may already be tested on individual speech samples. Please note, however, that the service is still under development and the level of security at this stage is not sufficient for processing confidential speech data.

The Tekstiks service is jointly offered by the Tallinn University of Technology, the Language Bank of Finland and Aalto University.

Read more about Tekstiks and try it out!

Kielipankki – The Language Bank of Finland and FIN-CLARIN are now on Mastodon

Welcome to follow us! @kielipankki@toot.community

 

 

Kielipankki ja FIN-CLARIN Mastodonissa

Kielipankki on liittynyt Mastodoniin. Tervetuloa seuraamaan meitä! @kielipankki@toot.community

 

Donate Speech Corpus (Puhelahjat) available for research use and very soon for commercial use

(Updated on 29.10.2022: Added information about the license for commercial use)

The Donate Speech Corpus (Puhelahjat) is a collection of speech recordings that accumulated during the Donate Speech campaign between 16.6.2020 and 14.9.2021. The resource is now available via the download service of the Language Bank of Finland under restricted terms and conditions.

The Donate Speech Corpus contains a total of about 3200 hours of speech recordings, out of which about 1600 hours have been transcribed. The resource also includes information about the elicitation tasks for which each of the speech samples was donated in the original campaign, and the background details that were voluntarily provided by speech donors.

License agreement determines the use of the Puhelahjat resource

Access to the Puhelahjat resource may be granted for purposes related to language research or to the research and development of AI (artificial intelligence). Academic researchers can now apply for access to the dataset. In parallel to the license for research use, a license agreement is offered for companies who wish to use the data. The details regarding commercial use will soon be available online. Interested companies may request further information at lahjoita-puhetta@helsinki.fi.

For academic research use, the license terms and conditions (including the data protection terms and conditions) can be found at http://urn.fi/urn:nbn:fi:lb-2022020223.

Applying for rights to access the Puhelahjat resource

Researchers can now apply for access via the Language Bank Rights system. The researcher must present a research plan before the license can be granted. As the Puhelahjat resource contains personal data, the researcher must also submit to Kielipankki a notification that contains the public information about the processing of the personal data.

More information

Donate Speech (Puhelahjat) datasets for research use (corresponding information for commercial use will soon be available)
Donate Speech (Puhelahjat) Corpus Metadata
Donate Speech (Lahjoita puhetta) campaign information in Kielipankki

Lahjoita puhetta -aineisto saatavilla tutkimuskäyttöön

(Uutiseen tehty päivitys 29.10.2022: Lisätty maininta myös yrityksille tarkoitetusta lisenssistä Lahjoita puhetta -aineistoon.)

Lahjoita puhetta -aineisto (Puhelahjat) versio 1.0 on kokoelma puhenäytteitä, jotka kertyivät Lahjoita puhetta -kampanjassa aikavälillä 16.6.2020-14.9.2021. Aineisto on nyt rajoitetusti saatavilla Kielipankin latauspalvelussa.

Lahjoita puhetta -aineisto sisältää noin 3200 tuntia puheäänitteitä, joista noin 1600 tuntia on litteroitu. Aineistossa on mukana myös tiedot kampanjasovelluksessa kuhunkin puhenäytteeseen liittyneistä tehtävistä sekä puhettaan lahjoittaneiden ihmisten vapaaehtoisesti ilmoittamat taustatiedot.

Lisenssisopimus rajaa Puhelahjat-aineiston käyttöä

Puhelahjat-aineistoa voidaan luovuttaa Kielipankista tarkoituksiin, jotka liittyvät kielentutkimukseen tai tekoälyn tutkimukseen ja kehittämiseen. Tutkijat voivat nyt hakea pääsyä aineistoon. Tutkijalisenssin rinnalla yrityksille tarjotaan omaa lisenssisopimusta, josta tulee pian lisätietoa Kielipankin sivuille. Kiinnostuneet yritykset voivat ottaa yhteyttä osoitteeseen lahjoita-puhetta@helsinki.fi.

Akateemisen tutkimuskäytön osalta aineiston käyttöehdot ja tietosuojaehdot löytyvät osoitteesta http://urn.fi/urn:nbn:fi:lb-2022020221.

Käyttöoikeuden hakeminen tutkijoille

Tutkijat voivat hakea lisenssin mukaisilla ehdoilla pääsyä aineistoon Kielipankin oikeudet -palvelun kautta. Ennen lisenssin myöntämistä tutkijan on esitettävä tutkimussuunnitelma. Koska Puhelahjat-aineisto sisältää henkilötietoja, on tutkijan toimitettava Kielipankkiin julkinen ilmoitus henkilötietojen käsittelystä.

 

Lisätietoa

Lahjoita puhetta (Puhelahjat) -aineistot tutkimuskäyttöön (vastaava sivu yrityskäyttöä varten on tulossa)
Lahjoita puhetta (Puhelahjat) -aineiston kuvailutiedot
Lahjoita puhetta -hankkeen kuvaus Kielipankissa

 

 

The campaign ”Anneta kõnet” invites Estonian speakers to donate their speech

This autumn, a campaign to collect Estonian speech has launched in Estonia. The goal of the ”Anneta kõnet” campaign is to develop language technologies and to help to preserve the Estonian language.

All adult Estonian speakers, including those who speak Estonian as a foreign language, are invited to participate in the project and donate their speech through the ”Anneta kõnet” campaign website. With the help of a large number of participants it would be possible to compile a corpus with contemporary and diverse speech, including examples from different Estonian dialects.

The ”Anneta kõnet” campaign was launched by Estonia’s Ministry of Economic Affairs and Communications (MKM) and the State Information System Authority (RIA). The project has received funding from the EU NextGenerationEU recovery plan.

”Anneta kõnet” campaign has similar goals as its predecessor ”Lahjoita puhetta” campaign, which was launched in 2020 to collect spoken Finnish. After it proved successful, a similar campaign for collecting Finland Swedish, ”Donera prat”, was launched in the end of 2021. All these ”Donate your speech” campaigns aim to compile language-specific and open speech corpora, which would in the near future benefit researchers as well as developers of speech technology, applications and language-centric Artificial Intelligence (AI).

More information

Anneta kõnet – About the project

Websites for donating your speech (Estonian, Finland Swedish and Finnish)

Puheenkeräyskampanja ”Anneta kõnet” kutsuu viron puhujia lahjoittamaan puhettaan

Virossa on tänä syksynä käynnistynyt puheenkeräyskampanja ”Anneta kõnet”, jonka päämääränä on kehittää kieliteknologisia ratkaisuja sekä edistää viron kielen säilymistä. Kaikkia täysi-ikäisiä viron puhujia, myös vieraana kielenä viroa puhuvia, kutsutaan osallistumaan hankkeeseen ja lahjoittamaan puhettaan Anneta kõnet -kampanjan verkkosivujen kautta. Laajan osallistujajoukon puhelahjoitusten avulla on mahdollista koota monipuolinen korpus, joka sisältäisi spontaanin vironkielisen puheen lisäksi myös tietoa eri murrealueiden ääntämyksestä.

Kampanjan on käynnistänyt Viron talous- ja viestintäministeriö (MKM) ja Viron kansallinen tietojärjestelmäviranomainen (RIA). Rahoitusta hanke on saanut EU:n NextGenerationEU-elpymisvaroista.

Anneta kõnet -kampanjalla on samankaltaisia tavoitteita kuin sen esikuvana toimineella suomen kieltä keränneellä Lahjoita puhetta -kampanjalla sekä siitä noin vuosi sitten versonneella suomenruotsin keruuseen keskittyvällä Donera prat -kampanjalla. Erilaisten puheenkeräyskampanjoiden yleisenä tavoitteena on koota kielikohtaisia avoimia puheaineistoja, joista on tulevaisuudessa hyötyä niin tutkijoille kuin puheteknologioiden, sovellusten ja kielikeskeisen tekoälyn kehittäjille.

Lisätietoa

Anneta kõnet -kampanjan projektikuvaus

Puheenkeräyskampanjoiden lahjoitussivuja (viro, suomenruotsi ja suomi)

<< List of all deliverables

DX.Y.Z: Title of Deliverable

Project: FIN-CLARIAH
Grant agreement: Academy of Finland no. 345610
Start date: 01-01-2022
Duration: 24 months

WP x.y: Report on <topic of the deliverable>
Date of reporting: dd-mm-2023

Report authors: Firstname Lastname (Organization)
Contributors: Firstname Lastname (Organization)
Deliverable location: <link to, e.g., a GitHub repository, or other external location that includes further information or relevant content>

Keywords for the deliverable page: (any relevant keywords separated with semicolons; for search engines etc.)

Description

The description text (max. 3000 characters) may include the following, if applicable:

  • Links to external resources
  • Publications, if any (including DOI)
  • Events, if any (including links)

The publication-ready deliverable should be emailed as a MS Word document (or similar) to wilhelmina.dyster (ATT) helsinki.fi, Cc:krister.linden (ATT) helsinki.fi.

Deadline for deliverables due 2023-12: Send the content for your deliverable page by 22.11.2023.

FIN-CLARIAH Deliverables

<< FIN-CLARIAH Overview

This page will showcase the project deliverables in 2022-2023 (see template and instructions for reporting).

Module 1: Natural Language Processing (NLP)

W1.1 Text processing and annotation environments

D1.1.1 Updating LBF resource selection 2022-09
D1.1.2 Ingesting new unstructured resources 2023-12

W1.2 Speech processing and annotation

D1.2.1 Forced-Alignment Service 2022-09
D1.2.2 Transcription Service for Finnish Interviews 2023-09

W1.3 Noise-tolerant NLP

D1.3.1 Corpora of non-standard language 2022-09
D1.3.2 System for detecting toxic language 2023-06
D1.3.3 Models for retrieving QA pairs from the web 2023-09
D1.3.4 QA pair corpora 2023-12

Module 2: Language Research Infrastructure

W2.1 Social Data Science

D2.1.1 Licensing agreements for personal data 2022-09
D2.1.2 Licensing agreements for special categories 2023-06

W2.2 Learners’ Assessment Environments

D2.2.1 Speech recognition for L2 2022-12
D2.2.2 Speech recognition for L2 update 2023-12

W2.3 Translation and Interpretation

D2.3.1 Licensing interpretation sessions 2022-12
D2.3.2 Aligning and retrieving 2023-12

W2.4 Terminology

D2.4.1 Term discovery procedures 2022-09
D2.4.2 Terminology application 2023-06
D2.4.3.1 Initializing terminology collections 2022-09
D2.4.3.2 Initializing terminology collections 2023-06
D2.4.3.3 Initializing terminology collections 2023-12

W2.5 Solutions for better use of language learner performances in research

D2.5.1 Test performances storage 2022-12
D2.5.2 Analysis and annotation tools for learner performances 2023-12

Module 3: Structuring Data

W3.1 Increasingly automated ingestion of material

D3.1.1 Initial NLF data 2022-09
D3.1.2 Ingestion framework 2022-12
D3.1.3 Versioning support 2023-06
D3.1.4 Incremental update process 2023-12

W3.2 AI solutions to better use of National Archives mass digitisation services

D3.2.1 Pipeline for transferring archival data 2022-12 2023-06
D3.2.2 Annotation & analysis tools for NARC data 2023-12

W3.3 AI solutions to better use of textual qualitative survey data

D3.3.1 Qualitative survey data concept network 2022-09
D3.3.2 R package for data concept network 2023-09 2023-12

W3.4 Developing analysis methods for real-time chats in gameplay streams

D3.4.1 Livestream data collector 2022-12

W3.5 Developing analysis methods for text network analysis of political texts

D3.5.1 Text network analysis of political texts 2022-12 2023-06
D3.5.2 Text network analysis of political texts 2023-09 2023-12

Module 4: Analyzing Structured Data

W4.1 Metadata harmonization and analysis

D4.1.1 Harmonized FNB 2022-09
D4.1.2 Harmonization code 2022-12
D4.1.3 Visualisation workflow 2023-06
D4.1.4 R/Python module 2023-12

W4.2 Linked Open Data Services

D4.2.1 LDF knowledge extraction tools 2022-12
D4.2.2 Parliament of Finland Ontology 2023-12

W4.3 Subsetting data

D4.3.1 Subsetting tool 2022-09
D4.3.2 Statistical overviews and bias detection 2023-06
D4.3.3 Representative Twitter dataset 2023-12

Module 5: Information Interaction

W5.1 Evidence-based RI development

D5.1.1 User experience questionnaire 2022-09
D5.1.2 Log data collection and analysis 2023-06
D5.1.3 Protocol for collecting workshop data 2023-12

W5.2 Education and dissemination

D5.2.1 Actor network 2022-12
D5.2.2 Educational material 2023-12

Top of page

<< FIN-CLARIAH Overview

Repackaging of the downloadable version of the Corpus of Finnish Sign Language: elicited narratives (CFinSL-elicit-dl)

The Corpus of Finnish Sign Language (CFinSL) has been available via the download service of the Language Bank of Finland after the former LAT platform was discontinued. The original downloadable packages turned out to be too large in order to be frequently downloaded and used during courses, for example. To alleviate the situation, the subcorpus of elicited narratives (CFinSL-elicit) was reorganized into smaller packages. Each package now includes the files of a given session, i.e., the video recordings and annotation files of a specific narration task performed by a specific signer.

For the time being, the download packages of the related conversation subcorpus (CFinSL-conv) were not modified. The access locations and content of both subcorpora remain the same.

More information about the currently available versions of the corpus can be found on the resource group page.

Suomalaisen viittomakielen korpuksen kerronta-aineiston ladattava versio (CFinSL-elicit-dl) paketoitiin uudelleen

Suomalaisen viittomakielen korpuksen (CFinSL) sisältö on ollut ladattavissa Kielipankin latauspalvelun kautta sen jälkeen, kun LAT-alusta poistui käytöstä. Alkuperäiset latauspaketit ovat kuitenkin osoittautuneet opetuskäytössä liian suuriksi, koska tiettyjä aineiston osia on välttämätöntä ladata usein kurssien yhteydessä. Tilanteen helpottamiseksi korpuksen kerronta-aineisto (CFinSL-elicit) on nyt paketoitu uudelleen hieman pienempiin osiin siten, että yksittäinen latauspaketti sisältää vain yhden istunnon tiedostot (ts. yhden viittojan tiettyyn kerrontatehtävään liittyvät videotallenteet ja annotaatiotiedostot).

Samaan korpuskokonaisuuteen kuuluvan keskusteluaineiston (CFinSL-conv) latauspaketit ovat toistaiseksi ennallaan. Kummankaan osa-aineiston sijainti tai sisältö ei ole muuttunut.

Lisätietoa Suomalaisen viittomakielen korpuksen saatavilla olevista versioista löytyy CFinSLaineistoryhmän sivulta.

Stay tuned for the long-awaited Korp update in December 2021!

Korp – our favourite corpus query service – will finally be upgraded to a new version before Christmas! You may already test the new Korp at https://korp.csc.fi/korplab/#?lang=en.

In the corpus menu of the new Korp version, the existing corpora have been rearranged under thematic sections. The same content is still available. In case you have links to corpus queries performed in the previous Korp version, they should continue to work in the new Korp version after the upgrade.

In addition, the new Korp version includes some features that have not been previously available, such as an improved way of filtering the content where the search is to be performed, and a better map feature for corpora that include information on geographic locations. All features will not be immediately available in the new Korp version, but they will be added little by little.

Please report any deficiencies either via the feedback form that you can find under the wheel menu in Korp, or by email to fin-clarin (at) helsinki.fi. For the time being, the current Korp version will remain available even after the upgrade at https://korp.csc.fi/korp-old/#?lang=en.

Korp instructions

Ennakkotietoa Korp-palvelun päivityksestä joulukuussa 2021

Suosikkihakupalvelumme Korp päivittyy uuteen versioon vielä ennen joulua! Uutta Korp-versiota voi jo kokeilla osoitteessa

https://korp.csc.fi/korplab/

Uutta Korp-versiota varten Korpin korpusvalikossa näkyvät aineistot on järjestetty uudelleen aihepiirin mukaan. Korpusten sisällöt ovat kuitenkin samoja, ja aiemmalla Korp-versiolla tehtyjen hakulinkkien pitäisi toimia suoraan myös uudella Korpilla.

Uusi Korp mahdollistaa joitakin sellaisia ominaisuuksia, joita aikaisemmassa versiossa ei ole ollut käytettävissä, esimerkiksi mahdollisuuden suodattaa hakujen kohteena olevaa aineistoa sekä paremman karttanäkymän niille korpuksille, joihin on liitetty sijaintitietoja. Kaikki ominaisuudet eivät välttämättä ole heti käytettävissä uudessa Korp-versiossa, mutta niitä lisätään ajan myötä.

Toivomme palautetta uuden Korpin puutteista joko Korpin ratasvalikosta löytyvän palautelomakkeen kautta tai sähköpostitse osoitteella fin-clarin (ät) helsinki.fi. Päivityksen jälkeen myös nykyinen Korp-versio jää toistaiseksi käyttöön osoitteessa https://korp.csc.fi/korp-old/.

Korp-palvelun käyttöohjeet

Search the Language Bank Portal:
Aleksi Sahala
Researcher of the Month: Aleksi Sahala

 

Upcoming events


Contact

The Language Bank's technical support:
kielipankki (at) csc.fi
tel. +358 9 4572001

Requests related to language resources:
fin-clarin (at) helsinki.fi
tel. +358 29 4129317

More contact information