Nordic Tweet Stream (NTS) haku- ja visualisointikäyttöliittymä

In English

NTS on monikielinen monitorikorpus, joka sisältää maantieteellisesti paikannettuja twiittejä ja niihin liittyviä metatietoja Pohjoismaista. Kaikkiaan se sisältää lähes 74 miljoonaa viestiä sadoilta tuhansilta käyttäjätileiltä Tanskasta, Suomesta, Islannista, Norjasta ja Ruotsista. NTS-tiedot kattavat ajanjakson tammikuun 2013 ja toukokuun 2023 välillä, ja ne kerättiin Twitter Academic API:n avulla, joka on nyt suljettu.

NTS:n tarkoituksena on helpottaa SSH:n perustutkimusta. NTS:ssä on helppokäyttöinen graafinen käyttöliittymä, joka tukee nopeaa tiedonsaantia, jotta tutkijat voivat keskittyä tietojen analysointiin. Tietoaineisto mahdollistaa erityyppiset tutkimukset. Esimerkiksi on mahdollista tutkia julkista keskustelua ja tunteita lähihistorian tapahtumista (esim. COVID-19-pandemia, Nato-jäsenyysprosessi jne.). Tietokokonaisuus on myös resurssi sosiolingvistiselle tutkimukselle ja monikielisyyden tutkijoille.

Tutustu verkkosivustoon.

Lisää tietoa NTS:stä

Jos käytät NTS-käyttöliittymää ja hyödynnät tuloksia julkaisuissasi, mainitse hiljattain julkaistu artikkeli, joka on saatavilla verkossa:
[1] Laitinen, Mikko, Jonas Lundberg, Magnus Levin & Rafael Martins. 2018. The Nordic Tweet Stream: A Dynamic Real-Time Monitor Corpus of Big and Rich Language Data, Proc. of Digital Humanities in the Nordic Countries 3rd Conference, Helsinki, Finland, March 7-9, 2018, CEUR-WS.org, online CEUR-WS.org/Vol-2084/short10.pdf.

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024041502

Nordic Tweet Stream (NTS) search & visualization interface

Suomeksi

The NTS is a multilingual monitor corpus of geolocated tweets and associated metadata from the Nordic region. Altogether, it contains nearly 74 million messages from hundreds of thousands of user accounts from Denmark, Finland, Iceland, Norway, and Sweden. The NTS data cover the period between January 2013 and May 2023 and were collected using the Twitter Academic API, which is now closed.

The purpose of the NTS is to facilitate fundamental research in SSH. The NTS comes with an easy-to-use graphic interface that supports quick data access so that researchers can focus on data analysis. The dataset enables various types of research. For instance, it is possible to study public discourses and sentiment concerning events in recent history (e.g., the COVID-19 pandemic, the NATO membership process, etc.). The dataset is also a resource for sociolinguistic research and for scholars of multilingualism.

Please visit the website.

About NTS

If you use the NTS interface and use the findings in your publications, please cite the recent paper, which is available online:
[1] Laitinen, Mikko, Jonas Lundberg, Magnus Levin & Rafael Martins. 2018. The Nordic Tweet Stream: A Dynamic Real-Time Monitor Corpus of Big and Rich Language Data, Proc. of Digital Humanities in the Nordic Countries 3rd Conference, Helsinki, Finland, March 7-9, 2018, CEUR-WS.org, online CEUR-WS.org/Vol-2084/short10.pdf.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024041501

HeLI-OTS 1.5 – an off-the-shelf language identifier for 200 languages

Have you been looking for a tool that can identify the language of individual sentences in text?
Take a look at HeLI-OTS version 1.5: https://www.kielipankki.fi/tools/heli-ots/

New tool: finnsurveytext

Finnsurveytext is an R package for social science researchers to analyse and understand the answers to open-ended questions in their surveys. Finnsurveytext is available in GitHub.

R is a programming language for statistical computing and data visualization. To install and use an R package, you first need to have an R installation (or, e.g., the RStudio application). If you like to use the CSC computing environment, please see https://docs.csc.fi/apps/r-env/ for further documentation and instructions.

More information can be found on the resource group page.

finnsurveytext

In English

Tämän R-paketin tarkoituksena on tarjota yhteiskuntatieteiden tutkijoille hyödyllisiä ja käyttäjäystävällisiä työkaluja, joiden avulla he voivat analysoida ja ymmärtää kyselytutkimuksissaan avoimiin kysymyksiin annettuja vastauksia. 

R on tilastolaskentaan ja datan kuvantamiseen kehitetty ohjelmointikieli. R-pakettien asentaminen ja käyttö edellyttää, että R-ympäristö (tai esimerkiksi RStudio-sovellus) on asennettuna. Jos käytät CSC:n laskentaympäristöä, dokumentaatio ja ohjeita löytyy esim. https://docs.csc.fi/apps/r-env/.

Paketti on saatavilla MIT-lisenssillä. Katso lisenssin englanninkielinen teksti kokonaisuudessaan täältä.

Lisätietoja löytyy paketin kotisivulta.

Viimeisin versio:  
finnsurveytext
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Tämän version viittausohje
Lataa työkalu
Etsi muita tämän työkalun versioita META-SHAREsta  

Yksityiskohtaiset tiedot kunkin version sisällöstä, käyttöoikeuksista ja lisensseistä löytyvät META-SHAREn metatietueesta.  

Tämän sivun pysyvä tunniste: http://urn.fi/urn:nbn:fi:lb-2024011203

finnsurveytext

Suomeksi

This R package aims to provide a useful and user friendly set of tools for social science researchers to be able to analyse and understand responses to open-ended questions within their surveys.  

R is a programming language for statistical computing and data visualization. To install and use an R package, you first need to have an R installation (or, e.g., the RStudio application). If you like to use CSC computing environment, please see https://docs.csc.fi/apps/r-env/ for further documentation and instructions.

The package is available under the MIT license. Please see the full license text here.

For further information please visit the package’s website.

Latest versions/subcorpora:  
finnsurveytext
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Download the tool
Look for all versions in META-SHARE  

Detailed information on the content of each version, user rights and licenses can be found from it’s specific metadata record in META-SHARE.  

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2024011202

Tieteen termipankki

In English

Tieteen termipankki (The Helsinki Term Bank for the Arts and Sciences, HTB) on monitieteinen hanke, jonka tavoitteena on koota kaikkien Suomessa harjoitettavien tieteenalojen pysyvä termitietokanta. Termipankille on luotu Semantic MediaWiki -alusta, joka toimii yhteistyöympäristönä. Kuka tahansa voi vapaasti hyödyntää alustaa ja osallistua termejä koskevaan keskusteluun.

Tieteen termipankki
icon-info-circle Kuvailutiedot ja lisenssi
icon-quote-right Viittausohjeet
Avaa verkkopalvelu

Kuvailutiedoissa on lisätietoa termipankin sisällöstä ja käyttöehdoista.

 


Tämän sivun pysyvä tunniste: urn:nbn:fi:lb-2024010821

Dockeroitujen työkalujen asennus ja käyttöönotto (finnish-postag, finnish-nertag, …)

Osa työkaluista on tarjolla Docker-paketteina. Näin niitä voi käyttää ilman tarvetta asentaa mitään muuta (paitsi Dockerin). Tällä hetkellä paketit ovat komentorivityökalujen korvikkeita, eli niitä käytetään stdin ja stdout -mekanismien kautta, mutta näitä työkaluja voi käyttää myös sovelluspalvelimen avulla verkkopalveluna.

Toistaiseksi tarjolla ovat finnish-nertag, finnish-postag ja finnish-tokenize.

Asennus

Työkalut löytyvät kielipankin Dockerhub-tililtä, joten ne voi asentaa seuraavasti:

sudo docker pull kielipankki/finnish-nertag:latest

(Tai finnish-postag, ja niin edelleen.)

Käyttäminen

Docker-paketit kommunikoivat stdinin ja stdoutin välityksellä, joten niitä voi testata esimerkiksi näin:

$ sudo docker run --rm -i kielipankki/finnish-nertag <<< 'Pekingin olympialaiset 2008'
Pekingin <EnamexEvtXxx>
olympialaiset
2008 </EnamexEvtXxx>

Niille voi antaa samoja komentoriviargumentteja kuin normaalistikin:

$ sudo docker run --rm -i kielipankki/finnish-nertag --bio <<< 'Pekingin olympialaiset 2008'
Pekingin B-MISC
olympialaiset I-MISC
2008 I-MISC

$ sudo docker run –rm -i kielipankki/finnish-nertag –show-analyses <<< ’Pekingin olympialaiset 2008’
Pekingin peking [POS=NOUN][PROPER=PROPER][NUM=SG][CASE=GEN] [PROP=GEO] <EnamexEvtXxx>
olympialaiset olympialaiset [POS=NOUN][NUM=PL][CASE=NOM] _
2008 2008 [POS=NUMERAL][SUBCAT=CARD] _ </EnamexEvtXxx>

ELG-yhteensopiva HeLI-OTS-kielentunnistin julkaistu hub.docker.com -palvelussa Lingsoftin ja Helsingin yliopiston yhteistyönä

HeLI-OTS on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan tekstin kielen. HeLI-OTS valitsee sopivimman vaihtoehdon 200 kielen joukosta. Nyt julkaistu docker-versio perustuu aikaisemmin viime kuussa julkaistuun HeLI-OTS versioon 1.3, joka on saatavilla Zenodosta.

Uusina ominaisuuksina ensimmäiseen viime vuoden kesäkuussa julkaistuun 1.0 versioon verrattuna ovat uusimmassa versiossa:
– Kielen tunnistuksen luotettavuudelle voi tulostaa arvon.
– Mahdollisuus tulostaa lista todennäköisimmin tunnistetuista kielistä vain yhden todennäköisimmän sijaan.
– Mahdollisuus käyttää osana tekstinkäsittelyprosessia: tunnistettavaa tekstiä ei tarvitse aina lukea tiedostosta.
– Tunnistuksen kielivalikoimaa voi rajoittaa sekä tunnistinta käynnistettäessä että myöhemmin.
– Käytössä on useita kielimalleja murteelliselle suomelle.

Docker-julkaisu tapahtui Lingsoftin toimesta osana Microservices at your service -projektia.

Projekti järjestää kaksi NLP-työkalujen kehittäjille ja käyttäjille ELG:tä ja sen mahdollisuuksia esittelevää työpajaa 22.3. ja 25.3. otsikolla ”ELG, a bridge for NLP development”.

HeLI-OTS on kehitetty osana Vaikuttavuussäätiön rahoittamaa HY:n ja Lingsoftin tekstin ja puheen kielentunnistukseen keskittyvää yhteistyöprojektia.

Jutussa esiintyviä linkkejä kootusti:
HeLI-OTS-kielentunnistin hub.docker.com -palvelussa
HeLI-OTS versio 1.3
HeLI-OTS versio 1.0
Lingsoft
Microservices at your service -projekti
European Language Grid (ELG)
Vaikuttavuussäätiö

ELG-compatible HeLI-OTS language identifier released on hub.docker.com in collaboration with Lingsoft and the University of Helsinki

HeLI-OTS is a general-purpose language identifier that can automatically detect the language used in a text. HeLI-OTS selects the most suitable option from a list of 200 languages. The current docker version is based on HeLI-OTS version 1.3, which was released earlier last month and is available on Zenodo.

New features compared to the first version 1.0 (released in June last year) are included in the latest version:
– A value can be printed for the confidence score of language identification.
– The possibility to print a list of the most likely identified languages instead of only the most likely one.
– The possibility to use as part of a text processing process: the text to be identified does not always have to be read from a file.
– The repertoire of languages used for identification can be limited both at start-up and later.
– Several language models for dialectal Finnish are used.

The Docker release was done by Lingsoft as part of the Microservices at your service project.

The project will organize two workshops for NLP tool developers and users to introduce ELG and its potential on 22 and 25 March under the title ”ELG, a bridge for NLP development”.

HeLI-OTS has been developed as part of a collaborative project between University of Helsinki and Lingsoft on text and speech recognition, funded by the Finnish Research Impact Foundation.

Links:
HeLI-OTS language identifier on hub.docker.com
HeLI-OTS version 1.3
HeLI-OTS version 1.0
Lingsoft
”Microservices at your service” project
European Language Grid (ELG)
Finnish Research Impact Foundation

Aalto-ASR – Aalto University Automatic Speech Recognition System

Suomeksi

Aalto-ASR includes two main functionalities: automatic speech recognition and automatic forced alignment. The speech recognizer allows you to obtain a transcript of an audio file that contains Finnish speech. The result of the recognition process is returned either as an annotation file (such as Praat TextGrid) or as a plain text file. In case a transcript of the audio file already exists, the words included in the text can be automatically aligned with the corresponding parts of the audio signal. The automatic forced aligner also works in several other languages in addition to Finnish.

Aalto University Automatic Speech Recognition System, version 2.1
Metadata, license and citation instructions
Instructions (in Finnish only; English instructions forthcoming!)

Recent updates

The new, upgraded version 2.1 was installed in Kielipankki in September 2021. The tools can be used in the Puhti environment. If required, Aalto-ASR can now also be installed on other environments as a Docker container.

Some features of version 1 were previously available via the Mylly service as well. However, the old Aalto-ASR version was removed in 2020 and the new version has not yet been plugged in to Mylly, but this may happen at a later stage.

 

Persistent identifier of this resource group page: http://urn.fi/urn:nbn:fi:lb-2021082325

 

Aalto-ASR – Aalto University Automatic Speech Recognition System v2.1 is available

The upgraded version 2.1 of the Aalto University Automatic Speech Recognition System (Aalto-ASR) is now available for use on the CSC Puhti server. Instructions for using the toolkit are currently available in Finnish only (English translation forthcoming).

There are currently two main functionalities in Aalto-ASR:

  • Speech recognition (kaldi-rec): creating a preliminary transcript from Finnish speech recordings in WAV format to plaintext files and/or annotation files.
  • Forced alignment (kaldi-align): If you already have a plain-text transcript of the audio recording, it is possible to automatically align the text with the corresponding portions of the sound signal. The aligner tool currently works in Finnish, Swedish, Northern Sámi, Estonian, Komi and English.

The brand new version of Aalto-ASR is also available as a Docker container that can be installed on other systems if required.

Metadata and citation instructions for Aalto-ASR 2.1

Aalto-ASR-puheentunnistustyökalujen uusi versio 2.1 on käytettävissä

Aalto-yliopistossa kehitetyn Aalto-ASR -puheentunnistusjärjestelmän uudistettu versio on nyt käytettävissä CSC:n Puhti-palvelimella. Suomenkieliset käyttöohjeet löytyvät Kielipankin sivuilta (englanninkieliset ohjeet ovat vielä tulossa).

Aalto-ASR:ssä on tällä hetkellä kaksi perustoiminnallisuutta:

  • Suomenkielisen, wav-muotoisen puheäänitteen voi alustavasti litteroida tekstitiedostoon tai annotaatiotiedostoon kaldi-rec -työkalulla.
  • Mikäli ääninäytteestä on jo olemassa valmis tekstimuotoinen litteraatti, voit kohdistaa tekstin karkeasti äänen vastaaviin kohtiin kaldi-align-työkalulla. Kohdistaminen onnistuu tällä hetkellä suomen, ruotsin, pohjoissaamen, viron, komin ja englannin kielillä.

Uusi Aalto-ASR on saatavilla myös Docker-säiliönä, jonka voi tarvittaessa asentaa omaan laiteympäristöön.

Aalto-ASR 2.1 -järjestelmän kuvailutiedot ja viittausohjeet

 

The Helsinki Term Bank for the Arts and Sciences

Suomeksi

The Helsinki Term Bank for the Arts and Sciences (HTB) is a multidisciplinary project which aims to gather a permanent terminological database for all fields of research in Finland. The project has created this Semantic MediaWiki platform, which offers a collaborative environment. This means that anyone can freely use it and also participate in the discussion about terms.

The Helsinki Term Bank for the Arts and Sciences
icon-info-circle Metadata and license
icon-quote-right Attribution instructions
Open the website

 

Detailed information on the content, user rights and licenses can be found from the metadata record.

 


This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021092002

 

The language identifier HeLI-OTS 1.0 is now downloadable from Zenodo

The general language identifier HeLI-OTS 1.0 is an automatic tool that is capable of identifying the language of each line of text in the input file. HeLI-OTS 1.0 selects the best match among 200 languages.

The publication of HeLI-OTS 1.0 is one of the results of the co-operation project Language Identification of Speech and Text by the University of Helsinki and Lingsoft Oy, supported by “Tandem Industry Academia 2020” funding from Finnish Research Impact Foundation. The tool is based on the HeLI method, developed by Tommi Jauhiainen and Heidi Jauhiainen in continuation to Tommi’s research for his Master and PhD projects at the Department of Digital Humanities at the University of Helsinki.

The language identifier is available under Apache 2 and CC-BY licenses. The tool is simple to use: it reads the text file specified as a parameter, identifies the language of each line in the input file, and writes the ISO 639-3 language codes in the corresponding lines of the output file. The source code for the entire language identifier can be downloaded from Zenodo, but if you just want to use the language identifier, you will only need the file HeLI.jar (42 MB). When in operation, the language identifier uses about 3 gigabytes of memory and a single computing core. It is capable of identifying the language of about 3,000 sentences per second on a modern laptop.

You can run the tool with the following type of command:

java -jar HeLI.jar <infile> <outfile>

Kielentunnistin HeLI-OTS 1.0 nyt ladattavissa Zenodosta

HeLI-OTS 1.0 on yleiskäyttöinen kielentunnistin, joka pystyy automaattisesti tunnistamaan jokaisen annetussa tekstitiedostossa olevan tekstirivin kielen. HeLI-OTS 1.0 valitsee sopivimman vaihtoehdon 200 kielen joukosta.

HeLI-OTS 1.0 on julkaistu Helsingin yliopiston ja Lingsoft Oy:n yhteistyöprojektissa Language Identification of Speech and Text, joka on saanut rahoitusta VaikuttavuussäätiönTandem Industry Academia 2020” -hausta. Kielentunnistin perustuu HeLI-menetelmään, jonka Tommi Jauhiainen ja Heidi Jauhiainen ovat kehittäneet Tommin pro gradu– ja väitöstutkimusten pohjalta Helsingin yliopiston digitaalisten ihmistieteiden osastolla.

Kielentunnistin on saatavilla avoimilla Apache 2- ja CC-BY-lisensseillä Zenodon kautta. Sitä on myös helppo käyttää: se lukee parametrinä annetun tekstitiedoston, tunnistaa tiedoston jokaisen rivin kielen ja kirjoittaa vastaavat ISO 639-3 järjestelmän mukaiset kielikoodit tulostiedoston riveille. Zenodosta voi ladata koko kielentunnistimen lähdekoodin, mutta mikäli haluaa vain käyttää kielentunnistinta, tarvitaan pelkästään HeLI.jar-niminen tiedosto, joka on kooltaan 42 megatavua. Toiminnassa ollessaan kielentunnistin käyttää noin 3 gigatavua keskusmuistia ja yhden laskentaytimen. Se kykenee nykyaikaisella kannettavalla tietokoneella tunnistamaan sekunnissa noin 3000 virkkeen kielen.

HeLI-OTS-työkalun voi käynnistää seuraavanlaisella komennolla:

java -jar HeLI.jar <infile> <outfile>

META-SHARE

META-SHARE is the Language Bank’s metadata repository. It contains information about each language resource’s type, content, extent, license etc. and offers search and filtering options.

This resource group page has a Persistent Identifier: http://urn.fi/urn:nbn:fi:lb-2021101104

LAT service to be discontinued in November 2020

Suomeksi

For technical reasons, the LAT service (lat.csc.fi) will be discontinued in the Language Bank of Finland as of November 30, 2020.

The LAT platform itself is no longer developed in its present form by MPI, and the media browser component Annex (part of LAT) is based on deprecated Adobe Flash technology that will stop working at the end of this year.

What will happen to the corpora that used to be available in LAT?

A replacement service for LAT has not yet been selected by the Language Bank of Finland. However, all the speech and sign language corpora that were previously available in LAT will be made available by alternative means.

All of the LAT corpora can be offered as downloadable packages that can be used and studied directly on the user’s local computer. In the download service, the corpora can be accessed under the same conditions as via LAT. For some corpora, more advanced solutions might already be available.

Which corpora are affected by LAT shutting down?

The LAT instances of the following corpora will be affected:

  • aku-egg: Speech and EGG (Electroglottography) Simultaneous Recordings
  • cfinsl-conv: Corpus of Finnish Sign Language: conversations
  • cfinsl-elicit: Corpus of Finnish Sign Language: elicited narratives
  • eduskunta-v1-lat: Plenary Sessions of the Parliament of Finland, Kielipankki LAT Version 1
  • elfa-lat: The Helsinki LAT Version of the ELFA Corpus
  • fbc-lat: The Helsinki LAT Version of the Finnish Broadcast Corpus
  • ffe: a single unpublished video file by an unknown creator, access restricted to the owner (this data will be archived temporarily but will be removed quite soon unless the owner turns up!)
  • finka: The Corpus of Border Karelia, Kielipankki LAT version
  • giellagas-north: Samples of Northern Saami
  • helpuhe1: The Longitudinal Corpus of Finnish Spoken in Helsinki (1970s, 1990s and 2010s)
  • kipo: The 2010 Language Policy Program of the Sign Languages of Finland Corpus (versions 1 and 2)
  • la-murre: The Finnish Dialect Corpus of the Syntax Archive, Helsinki LAT Version
  • PeWi-corpus (the original authoritative copy is offered by MPI; the identical version will be removed from the Language Bank of Finland)
  • puheen-analyysi: Learning material for speech analysis
  • reittidemo-lat: The Helsinki LAT Version of the Route to A wing Corpus
  • seuruu: Follow-up Study of Dialects of Finnish
  • skn-lat: The Helsinki LAT Version of Samples of Spoken Finnish
  • snowfrog: ProGram data. The stories Snowman and Frog, where are you?
  • ssdc-2016: Skolt Saami Documentation Corpus (2016)

In order to see where each corpus will be located in the future, please refer to the corresponding metadata page where this information will be updated. The relevant metadata links are provided on the list above.

I came to this page via a PID, how do I know where the file is?

LAT assigned 25000 PIDs to individual files. We have no automatic mapping of these PIDs but we can help you find the file if you need it. We aimed to structure downloadable packages similar to the dataset structure on LAT. To locate a file look into the URL field of this page where you find a ”?path=...” parameter. Example: ?path=demo/TRASH/2017-01/526/v7556__.C_4.4_Viittomakielisten_kielelliset_oikeudet.imdi

This should help you locate your file, please contact us if you have any questions.

Schedule

August-September 2020:

  • The (numerous) persistent identifiers assigned by LAT to individual files will be redirected to stopover/tombstone pages. There will be one tombstone page per dataset.
  • The LAT corpora that are not yet offered in Download will be moved there and their persistent identifiers will be updated to point to their new home.
  • Assuming that too many errors are not detected, this process should be complete by October.

September-October 2020:

  • Decisions are to be taken as to what kind of streaming services the Language Bank can implement for audio and video materials in the year 2021.

30th November 2020:

  • The support for the server where LAT is located will be discontinued and the service will be shut down.
  • All the corpora that were previously offered via LAT will continue to be offered at least for download.

Year 2021 (and later):

  • Given that there are sufficient resources, more functionalities for browsing, searching, and analyzing speech and sign language corpora can be added.

Further details on the schedule of the aforementioned process will be updated on this page. In case you need additional information at this point, please contact FIN-CLARIN directly.

LAT-alusta poistuu käytöstä

In English

Teknisistä syistä Kielipankin käytössä ollut LAT-palvelu (lat.csc.fi) joudutaan sulkemaan marraskuun lopussa 2020.

MPI ei enää kehitä LAT-alustaa nykyisessä muodossaan, ja LATiin kuuluva Annex-mediaselaintyökalu perustuu Adoben vanhentuneeseen Flash-teknologiaan, joka lakkaa toimimasta vuoden lopussa.

Mitä tapahtuu korpuksille, jotka ovat olleet LATin kautta saatavilla?

Kielipankin käyttämälle LAT-palvelulle ei vielä ole valittu täysin korvaavaa palvelua. Kaikki puheaineistot ja viittomakielten aineistot, jotka ovat aiemmin olleet käytettävissä LATin kautta, tuodaan saataville toisella tavalla.

Kaikki LATissa olleet aineistot voidaan tarjota ladattavina paketteina, joita voi käyttää suoraan omalla koneella. Latauspalvelun kautta korpuksiin pääsee samoilla ehdoilla kuin aiemmin LATin kautta. Joillekin aineistoille voidaan jo nyt tarjota edistyneempiäkin ratkaisuja tavanomaisen latauspalvelun lisäksi.

Mihin korpuksiin LAT-palvelun sulkeminen vaikuttaa?

Muutokset koskevat seuraavien korpusten LAT-versioita:

  • aku-egg: Puheen ja EGG:n samanaikaiset tallenteet
  • cfinsl-conv: Suomalaisen viittomakielen korpus: keskusteluaineisto
  • cfinsl-elicit: Suomalaisen viittomakielen korpus: kerronta-aineisto
  • eduskunta-v1-lat: Eduskunnan täysistunnot, Kielipankin LAT-versio 1
  • elfa-lat: ELFA-korpuksen Helsinki-LAT-versio
  • fbc-lat: Suomalaisen radio- ja tv-korpuksen Helsinki-LAT-versio
  • ffe: yksittäinen, virallisesti julkaisematon tiedosto, jonka omistaja ei ole tiedossa ja pääsy on rajoitettu vain omistajalle (sisältö tullaan säilyttämään tilapäisesti mutta poistetaan, ellei omistaja ilmoittaudu!)
  • finka: Raja-Karjalan korpus, Kielipankin LAT-versio
  • giellagas-north: Pohjoissaamen näytekorpus
  • helpuhe1: Helsingin puhekielen pitkittäiskorpus (1970, 1990, 2010)
  • kipo: Kipo-korpus (Suomen viittomakielten kielipoliittinen ohjelma 2010) (versiot 1 ja 2)
  • la-murre: Lauseopin arkiston murrekorpuksen Helsinki-LAT-versio
  • PeWi-corpus: Kyseisen näyteaineiston alkuperäisen virallisen kopion tarjoaa MPI, joten identtinen versio tullaan poistamaan Kielipankista
  • puheen-analyysi: Puheen analyysin oppimateriaali
  • reittidemo-lat: Reitti A-siipeen -korpuksen Helsinki-LAT-versio
  • seuruu: Murteenseuruukorpus
  • skn-lat: Suomen kielen näytteitä -korpuksen Helsinki-LAT-versio
  • snowfrog: ProGram-aineisto, lumiukko- ja sammakkotarinat
  • ssdc-2016: Koltansaamen dokumentaatiokorpus (2016)

Kunkin aineiston kuvailutietosivulta löydät päivitetyt tiedot kyseisen aineistoversion tulevasta sijainnista. Linkit kuvailutietueisiin näkyvät yllä olevasta listasta.

Aikataulu

Elo-syyskuu 2020:

  • LAT-alustan automaattisesti tuottamat (lukuisat) pysyvät tunnisteet, jotka osoittavat aineistojen sisällä oleviin yksittäisiin tiedostoihin, tullaan ohjaamaan uudelleen laskeutumis- tai ”hautakivisivuille”. Jokaiselle korpukselle tehdään yksi tällainen laskeutumissivu.
  • Ne LAT-aineistot, jotka eivät aikaisemmin ole olleet tarjolla ladattavina versioina, tullaan siirtämään latauspalveluun. LAT-versioiden pysyvät tunnisteet päivitetään osoittamaan ko. aineistojen uuteen kotiin.
  • Ellei em. prosesssin aikana ilmene odottamattomia virhetilanteita, kaikkien aineistojen pitäisi olla siirrettyinä ja tunnisteiden päivitettyinä lokakuun loppuun mennessä.

Syys-lokakuu 2020:

  • Kielipankki tekee tarvittavat selvitykset ja päätökset siitä, millaisia striimaus- ja muita lisäpalveluita Kielipankissa on mahdollista toteuttaa ääni- ja videoaineistoille vuoden 2021 aikana.

30. marraskuuta 2020:

  • LAT-palvelimen tuki päättyy ja palvelu ajetaan alas.
  • Kaikki LATissa aiemmin tarjolla olleet aineistot tullaan jatkossakin tarjoamaan vähintään ladattavina versioina.

Vuosi 2021 (ja myöhemmin):

  • Resurssien puitteissa Kielipankkiin voidaan lisätä uusia palveluita ja toiminnallisuuksia puheaineistojen ja viittomakielten aineistojen selailuun, hakujen tekemiseen ja analysointiin.

Edellä mainitun prosessin tarkemmat yksityiskohdat päivitetään tälle sivulle. Mikäli tarvitset tässä vaiheessa lisätietoja, ole hyvä ja ota suoraan yhteyttä FIN-CLARINiin.

Learn to process your own data in the Corpus Clinic

The registration deadline of the online course Corpus Clinic has been extended to 23rd November, until when it is possible to join the course area on Moodle. Students from the University of Helsinki as well as from other universities can enrol.  Please note, however, that a limited number of participants can be accepted. See further instructions on the course page.

In the Corpus Clinic, you will learn about the various methods and tools that are available for managing, processing and analyzing your data. You will also learn to write a data management plan. If required, it is possible to complete the course fully online.

This year, the course is jointly organized by FIN-CLARIN and HELDIG. During the spring term – after passing the initial stage of the course – each participant will have the opportunity to meet with a member of the supporting group of digital humanities experts who can help you with more specific questions about your data analysis. More information about this will be provided during the course.

 

Hae Kielipankki-portaalista:
Harri Uusitalo
Kuukauden tutkija: Harri Uusitalo

 

Tulevat tapahtumat


Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4129317

Tarkemmat yhteystiedot