DeepFin-projektissa laskettiin miljardien sanojen tekstimassan ja CSC:n supertietokoneiden avulla uusi FinBERT-niminen malli suomenkielisen tekstin käsittelyyn. Malli hyödyntää Googlen kehittämää BERT-menetelmää.
By utilizing billions of words of text and supercomputer capabilities at CSC, a new model called FinBERT was trained in the DeepFin project for processing Finnish text. The model is based on the BERT technology developed by Google.
It makes sense to deposit text and speech corpora with the Language Bank of Finland, since the data can be utilized widely in the humanities and social sciences. The Language Bank of Finland helps researchers distribute their data and makes it easy for them to cite corpora in a uniform and persistent way.
Tekstiä tai puhetta sisältäviä aineistoja kannattaa sijoittaa Kielipankkiin, sillä niitä voidaan hyödyntää laajasti ihmistieteellisessä tutkimuksessa. Kielipankki auttaa tutkijoita välittämään aineistoja ja viittaamaan niihin yhtenäisellä ja pysyvällä tavalla.
Kaikkein hyödyllisimmälläkään tiedolla ei ole merkitystä, jollei kukaan löydä sitä. Tieteelliselle tiedolle pysyvyys on erityisen tärkeää. Tero Aalto kertoo CSC:n blogissa pysyvistä tunnisteista, joiden avulla aineistot, julkaisut ja tutkijat löytyvät vuosienkin jälkeen ja saavat ansaitsemansa huomion ja kunnian.
Even the most useful information has no practical value if nobody can access it. Persistence is especially important for scientific knowledge. Tero Aalto (CSC) writes about persistent identifiers that can benefit all parties when used properly. Data, publications and people will still be found years from now and can receive the attention and appreciation they deserve.
On his blog posting, Tero Aalto (CSC) notes that computational methods are nothing new in digital humanities and social sciences. In fact, language research has a special tool that puts it ahead of the pack: language technology, a field that combines linguistics and computer science.
Tero Aalto kertoo CSC:n blogissa, että teknologian hyödyntäminen ihmistieteissä ei ole uusi asia, mutta kielentutkimuksella on tällä saralla erityinen etulyöntiase: kieliteknologia, tiede, joka yhdistää kielitieteen ja tietojenkäsittelyn.