Tero Aalto: DeepFin luonnollisen kielen käsittelyn aallonharjalla (blogi)

DeepFin-projektissa laskettiin miljardien sanojen tekstimassan ja CSC:n supertietokoneiden avulla uusi FinBERT-niminen malli suomenkielisen tekstin käsittelyyn. Malli hyödyntää Googlen kehittämää BERT-menetelmää.

Lue blogi

Tero Aalto: DeepFin: State-of-the-art natural language processing for Finnish (blog)

By utilizing billions of words of text and supercomputer capabilities at CSC, a new model called FinBERT was trained in the DeepFin project for processing Finnish text. The model is based on the BERT technology developed by Google.

Read the blog post

Tero Aalto: The Language Bank of Finland serves digital humanities and social sciences (blog)

It makes sense to deposit text and speech corpora with the Language Bank of Finland, since the data can be utilized widely in the humanities and social sciences. The Language Bank of Finland helps researchers distribute their data and makes it easy for them to cite corpora in a uniform and persistent way.

Read the blog post

Tero Aalto: Kielipankki palvelee ihmistieteitä (blogi)

Tekstiä tai puhetta sisältäviä aineistoja kannattaa sijoittaa Kielipankkiin, sillä niitä voidaan hyödyntää laajasti ihmistieteellisessä tutkimuksessa. Kielipankki auttaa tutkijoita välittämään aineistoja ja viittaamaan niihin yhtenäisellä ja pysyvällä tavalla.

Lue blogi

Blogi: Mitä tutkijan kannattaa tietää pysyvistä tunnisteista (Tero Aalto)

Kaikkein hyödyllisimmälläkään tiedolla ei ole merkitystä, jollei kukaan löydä sitä. Tieteelliselle tiedolle pysyvyys on erityisen tärkeää. Tero Aalto kertoo CSC:n blogissa pysyvistä tunnisteista, joiden avulla aineistot, julkaisut ja tutkijat löytyvät vuosienkin jälkeen ja saavat ansaitsemansa huomion ja kunnian.

Lue blogi

Blog: What a researcher should know about persistent identifiers

Even the most useful information has no practical value if nobody can access it. Persistence is especially important for scientific knowledge. Tero Aalto (CSC) writes about persistent identifiers that can benefit all parties when used properly. Data, publications and people will still be found years from now and can receive the attention and appreciation they deserve.

Read more…

Blog: Language technology paving the way for digital humanities

On his blog posting, Tero Aalto (CSC) notes that computational methods are nothing new in digital humanities and social sciences. In fact, language research has a special tool that puts it ahead of the pack: language technology, a field that combines linguistics and computer science.

Read more…

Blogi: Kieliteknologia digitaalisten ihmistieteiden edelläkävijänä (Tero Aalto)

Tero Aalto kertoo CSC:n blogissa, että teknologian hyödyntäminen ihmistieteissä ei ole uusi asia, mutta kielentutkimuksella on tällä saralla erityinen etulyöntiase: kieliteknologia, tiede, joka yhdistää kielitieteen ja tietojenkäsittelyn.

Lue blogi

Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317