Muokattu viimeksi: 2020-10-01 15.31
Kielipankin vanhan käytännön mukaan Kielipankki voi tehdä myös katselmointia vaativaa hakemusta koskevan päätöksen varsinaisen hyväksyjän puolesta, mikäli tämä ei vastaa kolmen päivän sisällä hyväksymispyynnön vastaanottamisesta. Kyseinen käytäntö ei kuitenkaan päde kaikkiin aineistoihin. Kielipankin on joka tapauksessa aina odotettava esimerkiksi Ylioppilastutkintolautakunnan ratkaisua. (Muidenkin aineistojen osalta periaatteet olisi hyvä päivittää ja tarkentaa seuraavan kerran, kun hakemuksia tulee.)
lyhenne | Aineiston nimi | URN | hyväksyjä(t)/ yhteyshenkilö(t) | sähköposti | Kielipankki hyväksyy | +PRIV | Muuta |
---|---|---|---|---|---|---|---|
AVOID | Muunnellun puheen korpus | http://urn.fi/urn:nbn:fi:lb-2018060621 | Tomi Kinnunen, Rosa Gonzalez-Hautamäki | tkinnu@uef.fi, rosa.gonzalezhautamaki@uef.fi | ei | PRIV | |
cfinsl-elicit | Suomalaisen viittomakielen korpus: kerronta-aineisto | http://urn.fi/urn:nbn:fi:lb-2019012322 | Juhana Salonen (hyväksyjä), Tommi Jantunen (omistaja) | juhana.salonen@jyu.fi, tommi.j.jantunen@jyu.fi | ei | PRIV | Kielipankki hyväksyy yleensä, rajatapauksissa otetaan yhteyttä Juhanaan. LATissa loppupvm pitää merkata AMS:iin. https://rt.csc.fi/rt/Ticket/Display.html?id=361803 |
COCA | Corpus of Contemporary American English | http://urn.fi/urn:nbn:fi:lb-2017061921 | ? | ? | kyllä | ||
COHA | Corpus of Historical American English | http://urn.fi/urn:nbn:fi:lb-2017061924 | ? | ? | kyllä | ||
dmp-wn | Digitaalisen muoto-opin arkiston sanaliput | http://urn.fi/urn:nbn:fi:lb-2016032101 | Mari Siiroinen | mari.siiroinen@helsinki.fi | kyllä | PRIV | |
ELFA | ELFA Corpus | http://urn.fi/urn:nbn:fi:lb-201403262 | Anna Mauranen | anna.mauranen@helsinki.fi | kyllä | PRIV | https://rt.csc.fi/rt/Ticket/Display.html?id=304347 |
english-uhlcs | Englannin korpus | http://urn.fi/urn:nbn:fi:lb-2014032610 | Kristiina Jokinen | kristiina.jokinen@helsinki.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=142317 | |
erzya-moksha-komi-uhlcs | Ersän ja mokšan kirjallisuutta ja julkaisuja ja komisyrjäänin kirjallisuutta | http://urn.fi/urn:nbn:fi:lb-2014032612 | Jack Rueter | rueter.jack@gmail.com | ei | ||
erzya-moksha-uhlcs | Ersän ja mokšan sanaluettelokorpus | http://urn.fi/urn:nbn:fi:lb-2014032611 | Dennis Estill | dennis.estill@gmail.com | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=223087 | |
estonian2-uhlcs | Viron korpus 2 | http://urn.fi/urn:nbn:fi:lb-2014032629 | Maria Vilkuna | maria.vilkuna@kotus.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=172787 | |
finnish-bibles-uhlcs | Suomen korpus (raamatut) | http://urn.fi/urn:nbn:fi:lb-2014032623 | Anssi Yli-Jyrä | aylijyra@ling.helsinki.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=142317#txn-2458798 | |
finnish-literature-uhlcs | Suomen korpus (kirjallisuutta) | http://urn.fi/urn:nbn:fi:lb-2014032622 | Kristiina Jokinen | kristiina.jokinen@helsinki.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=142317 | |
FinSveStud 79–80 | Studentsvenska 79–80 | http://urn.fi/urn:nbn:fi:lb-20140730119 | Ylioppilastutkintolautakunta | lautakunta@ylioppilastutkinto.fi | ei | PRIV? | https://www.ylioppilastutkinto.fi/tietopalvelut/tutkimusluvat |
FISC-taito | Suomenruotsin tekstikokoelma | http://urn.fi/urn:nbn:fi:lb-2014032621 | Jan K. Lindström | jan.k.lindstrom@helsinki.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=172790 | |
FSTC-taito | Suomenruotsin tekstikokoelma | http://urn.fi/urn:nbn:fi:lb-2014032621 | Jan K. Lindström | jan.k.lindstrom@helsinki.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=172790 | |
giellagas-north | Pohjoissaamen näytekorpus | http://urn.fi/urn:nbn:fi:lb-201407302 | Marko Jouste | marko.jouste@oulu.fi | ei | PRIV | |
GloWbE | Corpus of Global Web-Based Englis | http://urn.fi/urn:nbn:fi:lb-2017061927 | ? | ? | kyllä | ||
HCS 2.0 | Helsinki Corpus of Swahili 2.0 | http://urn.fi/urn:nbn:fi:lb-2014032624 | Arvi Hurskainen | arvi.hurskainen@helsinki.fi | kyllä | HCS2 on ACA. | |
helpuhe1 | Helsingin puhekielen pitkittäiskorpus | http://urn.fi/urn:nbn:fi:lb-2014073041 | Hanna Lappalainen | hanna.lappalainen@helsinki.fi | ei | PRIV | |
ICLFI | Kansainvälinen oppijansuomen korpus | http://urn.fi/urn:nbn:fi:lb-20140730163 | Sisko Brunni | sisko.brunni@oulu.fi | kyllä | PRIV | https://rt.csc.fi/rt/Ticket/Display.html?id=146508 |
khanty-uhlcs | Hantin korpus (pohjoishantin aineistot ja käännökset) | http://urn.fi/urn:nbn:fi:lb-2014032613 | Merja Salo | mesalo@mappi.helsinki.fi | ei | ||
komi-uhlcs | Komisyrjäänin korpus | http://urn.fi/urn:nbn:fi:lb-2014032615 | Paula Kokkonen | paula.kokkonen99@gmail.com | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=223092 | |
kra | Keskiranskan korpus | http://urn.fi/urn:nbn:fi:lb-201403264 | Terho Joutsen | Terho.Joutsen@jyu.fi | kyllä | ||
LAS2 | Edistyneiden suomenoppijoiden korpus | http://urn.fi/urn:nbn:fi:lb-201407167 | Nobufumi Inaba | nobufumi.inaba@utu.fi | ei | PRIV? | Kielipankki voi hyväksyä, mutta pdf:ään tulostettu kopio hyväksytystä LBR-hakemuksesta lähetetään oikeudenhaltijoille. https://rt.csc.fi/rt/Ticket/Display.html?id=155903 |
latin-uhlcs | Latinan korpus | http://urn.fi/urn:nbn:fi:lb-2014032616 | Martti A. Nyman | martti.nyman@utu.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=191395 | |
lude-uhlcs | Lyydin korpus | http://urn.fi/urn:nbn:fi:lb-2014032617 | Miikul Pahomov | miikul.pahomov@helsinki.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=174098 | |
north-saami-literature-uhlcs | Pohjoissaamen korpus (kirjallisuutta) | http://urn.fi/urn:nbn:fi:lb-2014032620 | Kerttu Vuolab | kerttu.vuolab@pp.sonera.net | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=146518 | |
north-saami-report-uhlcs | Pohjoissaame (Sámikultuvradoaibmagotti smiehttamush) | http://urn.fi/urn:nbn:fi:lb-2014032619 | Irja Seurujärvi-Kari | irja.seurujarvi-kari@helsinki.fi | ei | Ei toimi. | |
ParFin2016 | Suomi–venäjä kaunokirjallisten tekstien rinnakkaiskorpus | http://urn.fi/urn:nbn:fi:lb-2014052710 | Mikhail Mikhailov | mikhail.mikhailov@uta.fi | ei | ||
ParRus2016 | Venäjä-suomi kaunokirjallisten tekstien rinnakkaiskorpus | http://urn.fi/urn:nbn:fi:lb-2014052710 | Mikhail Mikhailov | mikhail.mikhailov@uta.fi | ei | ||
seuruu | Murteenseuruukorpus | http://urn.fi/urn:nbn:fi:lb-2014073043 | Ulriikka Puura | ulriikka.puura@kotus.fi | ei | PRIV | Puuran viesti 2.12. (fin-clarin/Kielipankin oikeudet - LBR ja REMS) |
somali-uhlcs | Somali | ? | Silja Huttunen | sihuttun@cs.helsinki.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=189612 | |
ssdc-2016 | Koltansaamen dokumentaatiokorpus | http://urn.fi/urn:nbn:fi:lb-2014073037 | Matti Miestamo | matti.miestamo@helsinki.fi | ei | PRIV | |
stt-fi-1992-2018-src | STT:n uutisarkisto 1992-2018, lähdemateriaali | http://urn.fi/urn:nbn:fi:lb-2019041501 | STT | mediapalvelut@stt.fi | ei | ||
topling | Topling - Toisen kielen oppimisen polut | http://urn.fi/urn:nbn:fi:lb-20140730168 | Ari Huhta | ari.huhta@jyu.fi | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=218396 | |
uralic-uhlcs | Uralilaisia, turkkilaisia, indo-iranilaisia ja mongolikieliä sekä Siperian ja Kaukasian kieliä | http://urn.fi/urn:nbn:fi:lb-2014032626 | Pirkko Suihkonen | suihkonen.pirkko@gmail.com | kyllä | https://rt.csc.fi/rt/Ticket/Display.html?id=142317#txn-2458798 | |
ylioppilasaineet | 1994, 1999 ja 2004 äidinkielen ylioppilaskokeiden esseitä sisältävä korpus | http://urn.fi/urn:nbn:fi:lb-2017030301 | Ylioppilastutkintolautakunta | lautakunta@ylioppilastutkinto.fi | ei | PRIV | https://www.ylioppilastutkinto.fi/tietopalvelut/tutkimusluvat |
Siihen saakka, kun PRIV-aineistojen käsittelyä koskevat ohjeet eivät ole LBR:ssä oletuksena muiden lisenssien ohella, lähetetään hakemuksen hyväksymisen yhteydessä seuraava kommentti:
Huomaa, että tämä aineisto sisältää henkilötietoja, joiden käsittelyssä sinun on noudatettava Kielipankin ohjeita, ks. http://urn.fi/urn:nbn:fi:lb-2020081521.
Please note that this resource contains personal data. You are required to follow the guidelines for processing corpora containing personal data in the Language Bank of Finland, see http://urn.fi/urn:nbn:fi:lb-2020081522.
Kun aineistoa käytetään opiskelutarkoitukseen, tarvitaan hakemuksen tueksi opinnäytetyösi ohjaajan (tai hakemuksessa mainittua kurssisuoritustasi valvovan opettajan) puolto.
Varmista aluksi ohjaajaltasi, että hän hyväksyy esittämäsi suunnitelman. Jos ohjaajasi ei ole aikaisemmin käyttänyt Kielipankin oikeudet -palvelua, pyydä häntä kirjautumaan sinne kertaalleen (https://lbr.csc.fi), jolloin hänen tunnuksensa näkyy järjestelmässä. Täydennä sitten tarvittaessa tutkimussuunnitelmaasi ja ilmoita siinä myös ohjaajasi nimi.
Kielipankki välittää hakemuksen ohjaajasi katselmoitavaksi, minkä jälkeen se voidaan käsitellä loppuun.
Kiitos!
Jos hakijan status ei ole selvä (ts. onko opiskelija vai henkilökuntaa), ja hän hakee PRIV-aineiston käyttöoikeutta, palautetaan hakemus seuraavan tyylisellä saatteella:
Dear applicant,
since this resource contains personal data, we would first need to confirm your academic status, and we were not able to determine whether you are a student or part of the academic faculty at the University of XXX.
If you are a member of staff, please resubmit the application and include, e.g., a link to the university website that can confirm your role.
In case you are a student, we kindly ask you to resubmit the application and include the name of your teacher or supervisor. The supervisor will then be requested by the Language Bank to review your application. In order for the review process to be completed, the supervisor should have logged in to the Language Bank Rights system (https://lbr.csc.fi) at least once.
Some instructions can be found on the Language Bank website, https://www.kielipankki.fi/support/access/.
Thank you!
Hei, tarkistaisitko opiskelijasi N.N.:n hakemuksen, joka koskee Kielipankissa olevan XXX-aineiston opiskelukäyttöä? Kiitos!
Kun aineistoa käytetään opiskelutarkoitukseen, tarvitaan hakemuksen tueksi opinnäytetyösi ohjaajan (tai hakemuksessa mainittua kurssisuoritustasi valvovan opettajan) puolto.
Varmista aluksi ohjaajaltasi, että hän hyväksyy esittämäsi suunnitelman. Jos ohjaajasi ei ole aikaisemmin käyttänyt Kielipankin oikeudet -palvelua, pyydä häntä kirjautumaan sinne kertaalleen (https://lbr.csc.fi), jolloin hänen tunnuksensa näkyy järjestelmässä. Täydennä sitten tarvittaessa tutkimussuunnitelmaasi ja ilmoita siinä myös ohjaajasi nimi.
Kielipankki välittää hakemuksen ohjaajasi katselmoitavaksi, minkä jälkeen se voidaan käsitellä loppuun.
Kiitos!
When the material is used for study purposes, the support of the supervisor of your thesis (or the teacher supervising your course mentioned in the application) is required to support the application.
First, make sure your instructor approves the plan you present. If your instructor has not previously used the Language Bank Rights service, ask him or her to log in there once (https://lbr.csc.fi), in which case his / her ID will appear in the system. Then, if necessary, complete your research plan and include the name of your supervisor.
The language bank will forward the application to your supervisor for review, after which it can be processed.
Thank you!
Jos hakijan status ei ole selvä (ts. onko opiskelija vai henkilökuntaa), ja hän hakee PRIV-aineiston käyttöoikeutta, palautetaan hakemus seuraavan tyylisellä saatteella:
Dear applicant,
since this resource contains personal data, we would first need to confirm your academic status, and we were not able to determine whether you are a student or part of the academic faculty at the University of XXX.
If you are a member of staff, please resubmit the application and include, e.g., a link to the university website that can confirm your role.
In case you are a student, we kindly ask you to resubmit the application and include the name of your teacher or supervisor. The supervisor will then be requested by the Language Bank to review your application. In order for the review process to be completed, the supervisor should have logged in to the Language Bank Rights system (https://lbr.csc.fi) at least once.
Some instructions can be found on the Language Bank website, https://www.kielipankki.fi/support/access/.
Thank you!
Hei, tarkistaisitko opiskelijasi N.N.:n hakemuksen, joka koskee Kielipankissa olevan XXX-aineiston opiskelukäyttöä? Kiitos!
Jos hakija on opiskelija, joka tekee gradua tai sitä edeltävän vaiheen opintosuoritusta, lähetetään hakijalle seuraava viesti:
Notes on what has been agreed concerning various tasks in the Language Bank.
What? | Who? | What else? |
---|---|---|
AAI | Martin | |
Agreements | U Hel | Hanna |
CLARIN reference licenses | U Hel | |
Corpora | U Hel | Hanna |
DevOps Pouta | Martin | portal-dev, mylly-tools-compilevm |
DevOps Rahti | Martin | metahshare-rahti pilot |
Download | Martin/Tero | |
Jira | Martin | |
Korp | U Hel | Application: Jyrki |
LAT | Martin | together with Mietta |
META-SHARE | Martin | |
Nimiarkisto | Kotus | |
PID | Tero | |
Portal | Tero | |
RT | Martin | Delegates as appropriate. |
SAFMORIL | U Hel | Erik, CLARIN K Centre |
Sanat | ||
Signbank | U Jyväskylä | |
Software stack / HPC | Martin | |
Webanno | Martin | (Sam) |
Status 27.1.2020: DRAFT
This guideline is intended as a short guide to define the minimal steps necessary to prepare a corpus data publication for download at the Language Bank of Finland.
The corpus needs
If an older version of the same corpus exists, a decision needs to be made whether to update metadata in an existing description or to create new metadata. See our Lifecycle Model for details. The name of the corpus will be visible in the column ”Description” of page korp.csc.fi/download/ and the text should link to the metadata page at metashare.csc.fi. The name is essentially the same as the metadata long name of the corpus, possibly shortened a bit if the long name is too long. It the directory does not have a metadata page, just create a descriptive name for it (e.g. the semfinlex corpus has subcorpora that are grouped under a common directory).
The package has to have a license to inform the user what he or she can and cannot do with the software. Less restrictive licenses are preferred, the license should be stated in the README.txt or a LICENSE.txt file.
The README.txt should at least contain the Name of the corpus and the META-SHARE decscription and a PID to the META-SHARE article describing this resource. Licence can be given in README.txt or in a separate LICENSE.txt. README.txt should also contain a short description of corpus, including directory and filename scheme if there are several of them.
The descriptive metadata describes a specific instance of the corpus. It is not a manual, but helps a user searching for corpora to determine whether the corpora is worth downloading. The PID pointing to the metadata is the persistent identifier of the corpus version in question. The metadata in turn points to the download location of the corpus and explains where the manual can be found (e.g. inside the package or on a separate web page). Every update gets a new version number. The PID of the metadata needs to be mentioned in the README.txt of the downloadable packages.
A quick reminder of the topics above.
A case example: The semfinlex corpus was first published in korp with beta status and it was advertised in korp. After it had been available for testing for two weeks, the beta status was removed and no backward incompatible changes to the corpus were allowed from that on. The download packages were created at this point. The corpus (including the freshly generated download packages) was then advertised to a wider audience in the portal.
Most of the corpora have the name, README, metadata etc. in English but some are in Finnish.
Status 12.11.2018: DRAFT
Publishing software is different from getting it to work on the programmer’s machine or on the machines of a small research group. This guideline is intended as a short guide to define the minimal steps necessary to prepare a software publication at the Language Bank of Finland.
The software needs
If an older version of the same software exists, a decision needs to be made whether to update metadata in an existing description or to create new metadata. An update is recommended if the new version fixes bugs (a ”patch”), a separate metadata page is recommended if the new version offers new or concurrent functionality, i.e. if there is reason to keep the old version online.
The package has to have a license to inform the user what he or she can and cannot do with the software. Less restrictive licenses are preferred, the license should be stated in the README.txt or a LICENSE.txt file.
Software without a manual and a description cannot be published. Both can be short, but they have to be present. The manual describes how to install and use the software. The manual can be a set of files in the package, like README.txt, INSTALL.txt, MANUAL.txt depending on the complexity of the software.
It should contain:
The descriptive metadata describes a specific instance of the software. It is not a manual, but helps a user searching for software to determine whether the software is worth downloading. The PID pointing to the metadata is the persistent identifiert of the software version in question. The metadata in turn points to the download location of the software and explains where the manual can be found (e.g. inside the package or on a separate web page). Every update gets a new version number. We follow ”Sematic Versioning”: Major.Minor.Patch. New patches can be updated without changing the PID of the metadata, Major and Minor update usually require a new metashare page and the retirement of the now obsolete version. The metadata should also contain the license information. The PID of the metadata needs to be mentioned in the README.txt of the downloadable file.
To update the major or minor version a new metashare page needs to be created describing the new version and a change log relative to the present version. 2 new PIDs need to be created, one pointing to the metadata and one to the new download location. The related versions need to be linked using Metashare’s relations feature, see the Language Bank’s Language Resource Life Cycle Model An example from our corpora: http://urn.fi/urn:nbn:fi:lb-2016050401. The older version should be kept for at 5 years, either online for download or offline in IDA. Software older than 10 years can be deleted, unless it has historical value.
If the new version has no new functionality and is only a patch (eg. 1.1.1), no PIDs need to be updated, the publication of the new version needs to be marked in the Change Log of the metadata. The non-patched version should be kept in IDA for 5 years just in case.
Consider finnish-tagtools version 1.1: http://urn.fi/urn:nbn:fi:lb-2018062101. The metadata describes the software, the license and where more information about using the software and technical support can be found. A rough update shedule is also given. The update to Version 1.2 should happen as described in ”Significant updates” above: A new metashare page needs to be written, with a Change Log section in the description descibing the main new features/bug fixes. If the old version should not be kept online, the access location PID needs to be changed to a tombstone page describing that the software can be obtained from IDA.
A quick reminder of the topics above.
Portaalin sisäistä sisältöhakua hoitaa lisäosa nimeltä Relevanssi, joka korvaa WordPressin oletushakutyökalun.
Haku on oletusarvoisesti JA-tyyppinen, ts. se etsii kaikkien annettujen hakusanojen yhteisesiintymiä. Olen kuitenkin määritellyt lisäosan asetuksissa, että mikäli kaikkia hakusanoja ei löydy samasta dokumentista, seuraavaksi kokeillaan TAI-hakua. Lisäksi olen kytkenyt päälle asetuksen, jonka avulla haku osaa etsiä myös osittaisia sanoja silloin kun kokonaiset eivät tuota osumia.
Relevanssi kertoo tallentavansa käyttäjien haut tietokantaan ja että niitä voisi tarkastella ylläpitoalueen Ohjausnäkymätse, mutta itse niitä en ole sieltä löytänyt. Voidaan harkita, onko hakujen tallentaminen ylipäänsä tarkoituksenmukaista.
Vaikka yleisesti ottaen pyrimmekin dokumentaatiomme suurimpaan mahdolliseen (järkevään) avoimuuteen, osa Portaalin sisällöstä on loppukäyttäjille hyödytöntä ja mahdollisesti hämmentävää (esimerkiksi tämä ohje itse). Relevanssi tarjoaa mahdollisuuden sulkea kokonaisia kategorioita haun ulkopuolelle. Koska WordPressin kategoriat eivät oletusarvoisesti koske sivuja (vaan ainoastaan artikkeleita), olen asentanut myös lisäosan nimeltä Post Tags and Categories for Pages, joka lisää toivotun ominaisuuden. Olen säätänyt haun jättämään järjestelmällisesti huomiotta sivut, jotka ovat luokassa Sisäinen, eli valitsemalla sivulle tämän kategorian voi varmistua, ettei edes sen otsikko näy haussa.
luonnos 28.7.2018 (sivun https://www.kielipankki.fi/intra/corpus-production-process/ linkit osoittavat tähän tiedostoon)
[Project leader, Planning officer]
[Project leader, Planning officer]
[Planning officer, CSC]
[Project leader, Planning officer]
Phase 4: Retrieving corpus data
[Planning officer]
KP-1307, [FIN-CLARIN speech/text corpora teams]
Martin’s instructions: https://www.kielipankki.fi/development/corpus-data-publication-for-download-at-the-language-bank/
KP-1309 12. [FIN-CLARIN text corpora team]
korp-make
on the (parsed and NER-tagged) VRT data to make a corpus package. For parallel corpora, run korp-make
for each aligned language but do not package them; add alignment information; and package all the languages to a single package (korp-make-package.sh
)config.js
, modes/modename_mode.js
); Add translations of corpus attribute names and values to translation files (translations/corpora-{fi,en,sv}.js
); Commit the changes to the configuration to the korp-frontend repository in GutHubkorp-install-corpora.sh
). Install the changes to the Korp configuration from the GitHub repository (korp-install.sh
). Again, you may need the help of someone with the appropriate rights.Ute’s description of preprosessing: https://www.kielipankki.fi/howto_pipeline_textcorpora/
KP-1308, [FIN-CLARIN speech corpora team]
[FIN-CLARIN speech/text corpora teams]
[FIN-CLARIN speech/text corpora teams]
[CSC, Planning officer]
[Planning officer, FIN- CLARIN speech/text corpora teams]
[Planning officer, FIN-CLARIN speech/text corpora teams, CSC]
![]() |
Korp on selainpohjainen konkordanssityökalu, jolla voi tehdä hakuja tekstiaineistoista morfosyntaktisen jäsennyksen perusteella. |
![]() |
LAT (Language Archive Tools) on annotoitujen ääni- ja videoaineistojen selailun, hakujen ja jakamisen työkalupakki. |
![]() |
Mylly – aineistojen käsittelyalusta |
Latauspalvelusta voit ladata aineistoja omalle koneellesi. | |
![]() |
WebAnno-annotaatiotyökalu |
![]() |
Signbank – suomalaisen viittomakielen leksikkotietokanta |
![]() |
OPUS, avoin rinnakkaisaineisto |
![]() |
Tieteen kansallinen termipankki (TTP) rakentaa kaikkien Suomessa harjoitettavien tieteenalojen yhteisen, avoimen ja jatkuvasti päivitettävän termitietokannan tiedeyhteisön ja kansalaisten käyttöön. |
![]() |
Lääketutka |
![]() |
Proto-Indo-European Lexicon |
TDT | Turku Dependency Treebank |
FiNER Demo | FiNER Demo (beta) |
Aalto-ASR | Aalto University Automatic Speech Recognition System (lataus, taito-shell) |
![]() |
Hae keskitetysti kaikkien CLARIN-keskusten aineistoista CLARIN Federated Content Searchin avulla. |
finnish-parse | Yleiskäyttöinen suomen kielen jäsennin (taito-shell) |
saxon | Saxon-XSLT-prosessori (taito-shell) |
HFST | Helsinki Finite-State Transducer Technology (lataus, taito-shell) |
Aineistokäyttöliittymät
|
Aineistojen käsittely
|
This page contains internal documentation that might be useful for collaborators and can be public.
Information on how we use tools to keep track of tasks and workflows.
Jira can help you keep track of all your work in one place. With organized boards, lists and other views, it is easier to decide what you should be working on next. Jira is also helpful when you need to collaborate and share your workload efficiently.
As a rule of thumb, whenever you run into a task that you are not able to complete right away, you should probably create a Jira issue of it. This can prevent you from forgetting things, even though it may sometimes feel a bit silly.
You can create a new JIRA ticket or issue by clicking on the Create button on top of the window after logging in. (You may also create an issue from this link: https://jira.csc.fi/secure/CreateIssue!default.jspa, but this is generally not recommended).
There are more fields than the ones shown below, but these are the ones that are recommended for our purposes. In case you don’t see all of the fields, you may select them by clicking on Configure Fields in the top right corner of the dialog box.
Project: Kielipankki (KP) is one of the ”Projects” in Jira (although, unlike normal projects, it does not have an end date).
Issue Type: In our Jira setup (our ”Kanban implementation”), several ticket types are included. The purpose of the types is to give an idea of the nature of the issue, e.g., whether it is
Summary: A concise gist of the work to be completed. The purpose of the summary is to make it possible for the reader to quickly see what the goal of the issue is, i.e., ”who needs what and why”.
Priority should be set if known. See JIRA Practices for details.
Reporter: usually you.
Labels are tags or keywords that you may use in order to be able to efficiently search and filter your issues. You might include the work package a task or story belongs to, e.g., ”UPGRADE-WP1”, the type of work, e.g., ”documentation”, or the type of corpus, e.g., ”text” or ”speech”. Please invent labels that you are likely to use again in other issues.
Assignee is the person responsible for completing the work. Can be assigned if known, otherwise the default person of the component will be assigned. In case different people will be completing parts of the work, you should additionally create subtasks or linked tasks for them, so as to keep the present issue visible to the current Assignee.
Attachments are files attached to the issue. Please note that depending on the security settings of the issue, the attachments may be publicly visible.
Security Level: Access permissions to see the issue and its content. None or All allows general access for logged in users, Administrators only to admins (CSC, National Co-ordinator). Devel allows access to the members of the Kielipankki project team (at University of Helsinki / CSC), and Suppl (Suppliers) gives additional access to affiliated developers, like the ones for Signbank or Sanat. The default is ”Devel”. Comments are only visible according to the Security Level of the issue, they can be further restricted.
Components: The main parts or sections of the project, i.e., in our case, Kielipankki. Components have owners, e.g., Krister owns Dissemination and Coordination, Tero owns Portal, Mietta owns Teaching. Ideally, you should have an idea about the category. But if you don’t, you can leave it blank. You may also include several Components when you see fit. Note that typically, the owner of the Component will get automatic emails about all or most changes in the issues within that Component.
Description: The free text field specifying the goals or requirements of the issue in more detail. The Description should be concise enough so as to know when the Assignee (or a person reviewing the issue) may consider the issue as Done. When writing the Description, you should consider situations where the original Reporter and/or Assignee are no longer available and someone else needs to take up the issue. Can the reader understand what needs to be done or where the necessary information is? Respect user’s privacy, do not unnecessarily disclose personal information in issues and never disclose it in issues open to all Jira users (Security Level: All or None).
Due date: You should set a due date whenever possible, since it helps the Assignee to keep track of issues. Combined with the Priority setting, the due date will make it easier for you and the rest of the team to determine what should be done next. In search filters, on Kanban boards and elsewhere in Jira, issues can be selected or sorted according to their due dates.
Tip: You can make JIRA send you reminders of issues, for instance of those with due dates that are closing up. First, select or find the desired search filter (Issues > Filters) or create and save your own filter (select Issues: Search…) and then subscribe to it (select Issues > Filters > more…). Further instructions on this:
Epic Link: In case you are creating a Task or a Story that is part of an Epic, for instance if the new issue is included in the publication process of a specific corpus, you can add a link to that Epic here. Just begin typing the name of the Epic and you will see a list of the existing options. An issue can have only one Epic Link at a time. (If the corresponding Epic does not yet exist, you may edit the issue and add the link later.)
Tutkijan käyttöliittymä eli SUI (Scientist’s User Interface) on poistettu käytöstä.
Korvaavat palvelut:
x