Suomelle teknologinen etulyöntiasema puhepankin avulla? Useat suomalaisyritykset ovat jo mukana ainutlaatuisessa puheenkeruussa

Ylen artikkelissa kerrotaan Lahjoita puhetta -kampanjan merkityksestä Suomelle ja suomen kielelle. Myös Kielipankki on mainittu!

Lue koko juttu

Helsingin yliopiston uutiset: Le­ku­ri on ski­dien gaif­fa­ri – lah­joi­ta si­nä­kin pu­het­ta ja teko­äly ym­mär­tää pian myös mur­tei­ta

Helsingin yliopiston uutispalstalla kerrotaan Lahjoita puhetta -kampanjasta, jossa myös Kielipankki on mukana. Mari Peltosen haastateltavina olivat Krister Lindén ja Mietta Lennes.

Lue juttu

 

How to cite a corpus that is available in the Language Bank of Finland

Did you know that the Language Bank of Finland offers reference instructions, including a persistent identifier, for each and every corpus version? You should include the reference in all publications where the corpus in question has been used.

Systematic citation practices make your study easier to replicate, and the corpus compilers can be recognized for their work.

Read more

 

How to locate reference instructions on the list of corpora

Näin viittaat Kielipankissa olevaan aineistoon

Tiesitkö, että Kielipankki tarjoaa jokaiselle aineistolle ja sen eri versioille valmiin viittausohjeen, joihin sisältyy aineiston pysyvä tunniste? Tiedot kannattaa lisätä lähdeluetteloon kaikissa julkaisuissa, joissa kyseistä aineistoa on hyödynnetty.

Yhtenäinen viittaustapa helpottaa tutkimuksen toistamista. Samalla aineistojen koostajat saavat tunnustuksen työstään.

Lue lisää

 

Viittausmuodon löytäminen aineistolistalta

Search Google Scholar for publications related to individual corpora

The Language Bank of Finland provides citation instructions for all corpus versions. The reference instructions are accessible from the Corpora list of the Language Bank of Finland (click on the double quotes ) and from the metadata of each corpus. On the reference instruction page, you can now also find a link to a Google Scholar query for publications related to the corpus in question.

The links to Google Scholar are generated automatically by the Language Bank of Finland. In the links, the persistent identifier (PID) and the title of the corpus are used as optional search criteria.

Persistent identifiers have been used by the Language Bank since the year 2014. A unique persistent identifier is included in the reference instructions for each corpus distributed via the Language Bank of Finland. The identifiers will allow for specific corpus versions (or at least information about their status) to be retrieved even if their access locations, tools and methods change in the future.

References to research data sets are equally relevant as references to other scientific sources. Accurate references will help other researchers replicate your study. In addition, both your publications and the data sets you used will gain more visibility.

Check out the citation instructions of your favourite corpus in the Language Bank of Finland and try searching for publications about it!

Etsi Kielipankin aineistoihin liittyviä julkaisuja helposti Google Scholar -palvelusta

Kielipankin kautta välitettävien aineistojen jokaisella eri versiolla on oma viittausohje. Aineistokohtaiset ohjeet löytyvät Kielipankin aineistoluettelosta lainausmerkkikuvakkeiden kohdalta sekä jokaisen aineistoversion kuvailutiedoista. Viittausmuodon yhteydessä tarjotaan nyt myös Google Scholar -hakulinkki, joilla voi etsiä kyseiseen aineistoon liittyviä julkaisuja.

Scholar-hakulinkit tuotetaan Kielipankissa automaattisesti. Linkissä käytetään vaihtoehtoisina hakukriteereinä aineiston pysyvää tunnistetta (persistent identifier, PID) sekä kuvailutietojen mukaista otsikkoa.

Kielipankki on käyttänyt pysyviä tunnisteita vuodesta 2014 alkaen. Pysyvä tunniste sisältyy jokaisen Kielipankin aineiston viittausohjeeseen. Tunnisteen avulla tietyn aineistoversion tiedot löytyvät myös jatkossa, vaikka aineiston sijainti ja välitystapa muuttuisivat.

Viittaaminen tutkimusaineistoihin on yhtä tärkeää kuin viittaaminen muihin tieteellisiin lähteisiin. Täsmällisten aineistoviitteiden avulla tutkimuksesi on varmemmin toistettavissa. Sekä tuottamasi julkaisut että niissä käyttämäsi aineistot saavat lisää näkyvyyttä.

Tarkista suosikkiaineistosi viittausohje Kielipankin aineistolistalta ja katso, mitä julkaisuja siitä jo löytyy!

Kuinka Kielipankin aineistoihin viitataan?

Tutkimusaineistoihin viittaaminen on yhtä tärkeää kuin tieteellisiin julkaisuihin viittaaminen. Joko sinä osaat? Katso uudet ohjeet: https://www.kielipankki.fi/tuki/viittaa-kielipankkiin-ja-fin-clariniin/

Viittaa Kielipankin kielivaroihin 

Kielivaroihin on tärkeää viitata yhtenäisellä tavalla, jotta tutkimus olisi myöhemmin toistettavissa ja jotta aineistojen koostajat tai työkalujen kehittäjät saisivat tunnustuksen työstään.

Kun käytät Kielipankissa olevaa kielivaraa (aineistoa tai työkalua), noudata Kielipankin viittausohjeita. Näin käyttämäsi kielivaran tarkka versio tulee täsmällisesti mainituksi. Kielipankissa jokaisella kielivaraversiolla on yksilöllinen pysyvä tunniste, joka sisältyy aina viittausohjeeseen. Tunniste auttaa varmistamaan, että kielivara löytyy ja tutkimuksen toistaminen onnistuu myös tulevaisuudessa, vaikka aineiston tai työkalun sijainti muuttuisi. 

Monien aineistojen tai työkalujen lisenssiehdoissa edellytetään käyttäjiltä viittaamista kyseiseen kielivaraan. Tällöin lisenssissä mainitaan lisäehto BY (Nimeä/Attribution). Asianmukainen viittaus vaaditaan kaikkien sellaisten kielivarojen osalta, jotka on lisensoitu joko akateemiseen käyttöön (CLARIN ACA) tai luvanvaraiseen käyttöön (CLARIN RES). Myös avoimesti lisensoidut kielivarat saattavat edellyttää viittaamista (esim. Creative Commons Nimeä tai muut avoimet lisenssit).

Viittaamalla Kielipankkiin ja sen tarjoamiin kielivaroihin autat FIN-CLARINia seuraamaan aineistojen ja palveluiden käyttöastetta ja tuet Kielipankin jatkuvuutta.

Viittaaminen Kielipankissa olevaan aineistoon

Yksittäisten aineistoversioiden viittausohjeet löytyvät helposti Kielipankin aineistotaulukosta lainausmerkkikuvakkeen icon-quote-right kohdalta.

Viittausohje mainitaan myös kielivaran kuvailutiedoissa. Kaikkien Kielipankin kielivarojen kuvailutietueet tallennetaan META-SHARE-hakemistopalveluun. Tietyn kielivaran kuvailutietueeseen pääsee aina viittausohjeessa mainitulla pysyväistunnisteella tai Kielipankin aineistotaulukosta aineiston nimen kohdalta. Kuvailutietueessa linkki viittausohjeeseen löytyy yleensä osiosta Documentation. Joissakin tapauksissa viittausohje näkyy suoraan kuvailutietueen kentästä Attribution Details. Kuvailutiedoista löytyvät myös aineistokohtaisen lisenssin tiedot.

Korp-konkordanssipalvelun kautta tarjottavissa kieliaineistojen versioissa linkki viittausohjeeseen löytyy sekä korpusvalikossa näkyvästä aineiston tietoruudusta että konkordanssivälilehden oikeasta reunasta yksittäisten hakuosumien kohdalta. Tietoruudun saa näkyviin ohjaamalla osoittimen  korpusvalikossa aineiston nimen kohdalle.

Jokaiseen Kielivaran latauspalvelun kautta tarjottavaan aineistoversioon sisältyy aina README-niminen tiedosto, jossa mainitaan ko. aineistoversion pysyvä tunniste.

Viittausmuoto

Esimerkkinä kielivaran 1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 2 viittausohje:

Helsingin yliopisto (2017). 1990- ja 2000-luvun suomalaisia aikakaus- ja sanomalehtiä -korpus, versio 2 [tekstikorpus]. Kielipankki. Saatavilla http://urn.fi/urn:nbn:fi:lb-2017091901

Aineistoviittauksia ja niiden muotoilua koskevat käytännöt saattavat vaihdella julkaisukohtaisesti. On hyvä joka tapauksessa pyrkiä mainitsemaan Kielipankin viittausohjeessa olevat tiedot. Kun kirjoitat artikkelia tai muuta tutkimusjulkaisua, tarkista julkaisun ohjeistuksesta, onko aineistolähteet tapana mainita kirjallisuusluettelon osana vai erillisessä listassa.

Viittaaminen Kielipankkiin, FIN-CLARINiin tai CLARINiin

Kielipankin osoite

Jos haluat mainita Kielipankin palvelukokonaisuutena, käytä verkko-osoitetta www.kielipankki.fi.

Viittaa FIN-CLARIN-konsortioon

FIN-CLARIN-konsortion esittely Kielipankin sivustolla: http://urn.fi/urn:nbn:fi:lb-2014120212

Viittaa CLARIN ERICiin

CLARIN ERICin ja CLARIN-palveluiden yleiset viittausohjeet löytyvät CLARINin usein esitettyjen kysymysten sivulta.

Lisätietoa tutkimusaineistoihin viittaamisesta

Ensimmäinen Korp-palvelun esittelyvideo

on nyt nähtävillä YouTubessa. Videossa esitellään Korpin perusnäkymä, yksinkertainen haku, tilastonäkymä ja sanakuva. Tutustu ja kokeile!

Videoon lisätään piakkoin suomen- ja englanninkielinen tekstitys ja lisää Korp-ohjevideoita on tulossa.

Mylly-palvelun esittely

on nyt nähtävillä YouTubessa. Videossa neuvotaan mm. kuinka voit jäsentää suomenkielisen tekstin automaattisesti tai tunnistaa puhetta suomenkielisestä äänitiedostosta.

Tutustu ja kokeile!


Videoon on saatavilla suomenkielinen tekstitys.

Kielipankki esillä Tietoarkisto-lehdessä 1/2018

Yhteiskuntatieteellisen tietoarkiston (FSD) julkaiseman Tietoarkisto-lehden tuoreimman numeron 1/2018 teemana ovat tutkimuksen infrastruktuurit. Mukana on myös Kielipankki-aiheinen artikkeli (s. 22-23). Lehden verkkoversiota pääsee lukemaan Yhteiskuntatieteellisen tietoarkiston sivuilta.

Kielipankki in a nutshell

Mietta Lennes (FIN-CLARIN) presents Kielipankki: https://www.youtube.com/watch?v=H_KBOKqUX3o

Kielipankin esittely

Mietta Lennes (FIN-CLARIN) esittelee Kielipankkia: https://www.youtube.com/watch?v=H_KBOKqUX3o

Do you already have an ORCID identifier?

Did you ever run into problems when there was another researcher who had (almost) the same name as you? Did you change your first or last name and wonder how to inform your readers about the change? Do you often need to copy your publication details from one system to another?

ORCID (Open Researcher and Contributor ID) is an international researcher identifier that will help you maintain your publication record. You remain the owner of your details and you can control their visibility. On the other hand, you may provide a trusted organization, e.g., a university, a library, or a publisher, with the rights to append new information to your record. Your publications and other works will not be confused with those of another researcher, and your information will be preserved even if you change jobs.

ORCID is a not-for-profit organization registered in the United States of America. There are already more than two million ORCID identifiers in the world. Many Finnish universities and research organizations have already agreed on the use of ORCID identifiers.

Read more and create your very own ORCID identifier: http://orcid.org/

Onko sinulla jo ORCID-tutkijatunniste?

Oletko törmännyt ongelmaan, että samalla tai jollakin toisella tieteenalalla työskentelee (ainakin melkein) samanniminen tutkija? Oletko vaihtanut etu- tai sukunimeäsi ja miettinyt, kuinka kertoisit tästä entisten ja tulevien julkaisujesi lukijoille? Joudutko jatkuvasti kopioimaan julkaisutietojasi järjestelmästä toiseen?

ORCID (Open Researcher and Contributor ID) on kansainvälinen tutkijatunniste, jonka avulla julkaisutietojesi hallinta helpottuu. Omistat tietosi itse ja määräät, kuka voi ne nähdä. Voit toisaalta antaa luotetulle organisaatiolle – kuten yliopistolle, kirjastolle tai kustantajalle – oikeuden täydentää tietojasi. Julkaisusi ja muut tuotoksesi eivät pääse vahingossa sekaantumaan kenenkään muun aikaansaannoksiin, ja tiedot säilyvät kätevästi, vaikka vaihtaisit työpaikkaa.

ORCID on voittoa tavoittelematon Yhdysvaltoihin rekisteröity säätiö. ORCID-tunnisteita on luotu maailmassa jo yli kaksi miljoonaa. Myös monet suomalaiset yliopistot ja tutkimusorganisaatiot ovat jo sopineet ORCID-tunnisteiden käyttöönotosta.

Lue lisää ja tee ikioma ORCID-tunnisteesi: https://tutkijatunniste.fi/

 

Kielivarojen elinkaari- ja kuvailumalli

Kielivaran osat

Kielivarassa on vähintään kolme osaa:

Lisäksi kielivaralla voi olla oma lisenssisivu ja tarvittaessa ohjesivu esimerkkeineen. Mikäli usealla saman kielivaraperheen osalla on yhteiset lisenssiehdot, niille tehdään vain yksi yhteinen lisenssidokumentti. Kielivarakohtaisilla ohjesivuilla kuvataan vain sellaisia kyseisen varan käyttöön liittyviä erityispiirteitä, joita ei ole kuvattu esimerkiksi hakutyökalun tai muun sovelluksen yleisohjeissa.

Pysyvät tunnisteet

Kielivaran kaikkiin osiin viitataan pysyvin tunnistein. Kielipankki käyttää sekä URN- että Handle-järjestelmää. Näistä kahdesta URN on Pohjoismaissa yleisempi mutta Handle kansainvälisesti suositumpi.

Pysyvä tunniste tarkoittaa Kielipankissa, että käyttäjä voi olla varma, että tunnisteen takana oleva tieto on aina saatavissa, vaikka kielivaran sijainti muuttuisi. Uusi sijainti on saatavilla joko suoraan, jolloin tunniste vie suoraan uuteen sijaintiin, tai epäsuorasti, jolloin tunniste vie sivulle, jolla kerrotaan esimerkiksi missä kielivaran vanhaa versiota säilytetään, miten sen voi saada uudelleen käyttöön ja missä uusin versio on saatavilla.

Pysyvillä tunnisteilla on kaksi pääfunktiota:

  • Pitää tiedot saatavilla, jos sijainti muuttuu (esimerkiksi, jos korp.csc.fi:n alla olevat aineistot ovat jatkossa toisessa osoittessa).
  • Pitää vanhojen kielivarojen tiedot saatavilla, jos vanhan version julkinen tarjoaminen ei ole tarkoituksenmukaista, esimerkiksi kustannussyistä.

Kielivaraversiot

Kielivaralla voi olla monta eri varianttia (jatkossa versio), jotka muodostavat kielivaraperheen.

Esimerkkejä kielivaraperheistä:

  • Sama aineisto on analysoitu eri morfologisin jäsentimin.
  • Tekstiversio audio- tai videoaineistosta (käsin luotu tai tunnistimin generoitu).
  • Karttuva aineisto: aineiston sisältö on melkein sama, mutta yhdessä versioista on enemmän tai uudempaa sisältöä.
  • Korjattu aineisto: aineistossa on havaittu puutteita, ja niitä on korjattu käsin tai automaattisesti.

Kaikissa tapauksissa halutaan varmistaa, että kielivaran käyttäjä voi yksiselitteisesti viitata käyttämäänsä varaan nyt ja tulevaisuudessa. Tämän takia jokaisella versiolla on aina oma lyhenne, kuvailutietosivu ja sijainti. Toisaalta lisenssisivu tai ohjesivu voi hyvin olla koko kielivaraperheelle sama.

Milloin syntyy uusi versio?

Aineistosta syntyy uusi versio, kun aineiston sisältö muuttuu merkittävästi. Merkittävä muutos määritellään aineistokohtaisesti. Jollei aineiston kohdalla ole toisin mainittu, merkittäviä ovat sellaiset muutokset, joiden on katsottu voivan olennaisesti vaikuttaa tutkimustuloksiin ja joita ei ole helposti mahdollista perua. Kaikki ei-merkittävät muutokset kirjataan aineiston kuvailutiedoissa olevaan muutoslokiin.

Esimerkkejä ei-merkittävistä muutoksista:

  • Isosta keskusteluaineistosta pitää poistaa yksittäinen artikkeli asianosaisen pyynnöstä. Tällöin ei olisi muutenkaan mahdollista enää jatkossa tarjota vanhaa versiota.
  • Isossa aineistossa on havaittu, että muutamat käsin kirjoitetut tagit sisältävät kirjoitusvirheen.
  • Aineisto on automaattisesti konvertoitu Latin-1:stä UTF-8-merkistökoodaukseen. Vanha merkistökoodaus on arkiston kautta saatavilla.

Miten uusi versio syntyy?

Jos aineistosta syntyy uusi versio, suhde vanhoihin versioihin merkitään META-SHAREen. Uusi versio saa uuden pysyvän tunnisteen ja uuden META-SHARE-tietueen. META-SHARE-tietueessa uusi versio on merkitty IsNewVersionOf-relaatiolla, ks. alla. Jollei vanha aineisto ole edelleen tutkimuksen kannalta merkittävä, uusi aineisto korvaa vanhan Kielipankin aineistotaulukossa. Myös kielipankki.fi/<lyhenne> vie aina uusimpaan versioon. Vanhojen versioiden tunnisteet kuitenkin säilytetään. Ne vievät joko suoraan vanhaan aineistoon tai aihetta koskevalle selityssivulle (”hautakivisivulle”), jolla kerrotaan, mistä aineiston vielä saa tai miten vanhan aineiston kautta tehdyt haut voidaan toistaa uudessa versiossa.

Karttuvat aineistot

Suomi24: Aineisto päivittyy kahdesti vuodessa. Aineiston lyhenne on Suomi24-<vuosi><vuoden puolisko>, esim. Suomi24-2016H1. Uudemmat versiot sisältävät aina vanhemman version, ja haut voi toistaa rajaamalla ne sopivaan aikaväliin.

Muut aineistot

Uudet aineistot saavat uuden versionumeron, esim. helpuhe-v2. META-SHAREssa on kuvaus uuden version erosta vanhaan. Vanha versio arkistoidaan tarvittaessa, ja tunnisteet vievät ”hautakivisivulle”.

Yleiset kielivarojen väliset suhteet

Kukin alla oleva relaatio on esillä olevan kielivaran suhde linkitettävään.

IsVariantFormOf / IsOriginalFormOf

Kyseessä on saman kielivaran kaksi eri versiota tai muunnosta, esimerkiksi eri tavalla paketoitu aineisto.

IsDerivedFrom / IsSourceOf

Kielivara on toisen johdannainen. Esimerkiksi jos korpuksesta on tehty taajuussanasto tai kielimalli.

IsPartOf / HasPart

Kielivara on toisen (laajemman kielivaran tai kokonaisuuden) osa. Voidaan käyttää esimerkiksi sarjamuotoisen aineiston osista.

IsPreviousVersionOf / IsNewVersionOf

Kielivara on edellinen / seuraava versio viitatulle kielivaralle.

IsContinuedBy / Continues

Aineisto on jatkoa toiselle. Sisältö on eri, mutta koostamistapa on sama.

IsCompiledBy / Compiles

Viittaa työkaluun, jonka avulla aineisto on luotu. Voi olla esimerkiksi jäsennin.

IsMetadataFor / HasMetadata

Kielivaraperheellä on yhteinen metadata, esim. yhteinen lisenssi tai yhteinen kuvaus.

Yhteisestä metadatasta ei ole suoraa linkkiä kielivaran sisältöön.

Muut relaatiot

Jollei mikään yllä kuvatuista relaatioista sovi, muita mahdollisia relaatioita löytyy DataCitelta ([1]). Muita kun DataCiten suhdetermejä ei saa käyttää.

Lähteet

[1] DataCite Metadata Working Group. (2016, alkaen sivulta 37). DataCite Metadata Schema Documentation for the Publication and Citation of Research Data. Version 4.0. DataCite e.V. http://doi.org/10.5438/0012

Hae Kielipankki-portaalista:
Tommi Kurki
Kuukauden tutkija: Tommi Kurki

 

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4144036 / 029 4129317