Korpin korpusannotaatio: TDT

Seuraavassa kuvataan Turku Dependency Treebank (TDT) -dependenssijäsentimellä jäsennettyjen korpusten saneiden piirteet sekä sanaluokka- ja dependenssirelaatiokoodien merkitykset. Useimmat Kielipankin automaattisesti jäsennetyistä korpuksista noudattavat tätä koodaustapaa.

Saneiden piirteet (attribuutit)

nimi merkitys
word sananmuoto (pintamuoto)
lemma sanan perusmuoto
lemmacomp sanan perusmuoto, johon on merkitty yhdyssanaraja (#)
pos sanaluokka
msd morfologinen analyysi (morfosyntaktinen kuvaus)
ref sanan järjestysnumero virkkeen sisällä
dephead pääsanan järjestysnumero virkkeen sisällä
deprel dependenssirelaatio suhteessa pääsanaan

Lisäksi KLK-korpuksessa on piirre ocr, joka kuvaa tekstintunnistuksen arvioitua luotettavuutta (todennäköisyyttä) kyseisen sanan kohdalla.

Sanaluokkakoodit

koodi merkitys (Korpissa näkyvä nimitys)
A adjektiivi
Adp adpositio
Adv adverbi
C konjunktio
Foreign vierassana
Interj interjektio
N substantiivi
Num numeraali
Pron pronomini
Punct välimerkki
Symb symboli
V verbi

Dependenssirelaatiokoodit

koodi merkitys (Korpissa näkyvä nimitys)
_ muu
acomp adjektiivikomplementti
adpos adpositio
advcl adverbiaalinen lauseenmääre
advmod adverbimääre
amod adjektiivimääre
appos appositio
arg argumentti
aux apuverbi
auxpass passiivin apuberbi
cc rinnastuskonjunktio
ccomp lausekomplementti
comp komplementti
compar komparatiivi
comparator vertailukonjunktio
complm komplementoija
conj rinnastus
cop kopula
csubj lausesubjekti
csubj-cop kopulan lausesubjekti
dep dependentti
det determineri
dobj suora objekti
ellipsis pääsanan ellipsi
gobj genetiiviobjekti (substantiivin)
gsubj genetiivisubjekti (substantiivin)
iccomp infiniittinen lausekomplementti
infmod infinitiivimääre
intj interjektio
mark merkitsin
mod määre
name monisanainen nimi
neg kieltosana
nn yhdyssubstantiivimääre
nommod moninaalimääre
nommod-own nominaalimääre: omistaja
nsubj nominaalisubjekti
nsubj-cop kopulan nominaalisubjekti
num numeraalimääre
number numeroilmaus
parataxis parataksi
partmod partisiippimääre
poss genetiivimääre
preconj prekonjunktio
prt fraasipartikkeli
punct välimerkki
quantmod kvanttorimääre
rcmod relatiivilausemääre
rel relatiivisana
ROOT pää
subj subjekti
voc vokatiivi
xcomp avoin lausekomplementti
xsubj ulkoinen subjekti
xsubj-cop kopulan ulkoinen subjekti

Morfologisen analyysin koodit

Morfologisessa analyysissa eri piirteet on erotettu pystyviivoilla. Yksittäiset piirteet ovat muotoa PIIRRE_Arvo.

Merkkitason vaihto
CASECHANGE_Up
Sijamuoto
CASE_Abe
CASE_Abl
CASE_Acc
CASE_Ade
CASE_All
CASE_Com
CASE_Dis
CASE_Ela
CASE_Ess
CASE_Gen
CASE_Ill
CASE_Ine
CASE_Ins
CASE_Lat
CASE_Nom
CASE_Par
CASE_Prl
CASE_Tra
Liitepartikkeli
CLIT_Foc_han
CLIT_Foc_han+Foc_kaan
CLIT_Foc_han+Foc_pa
CLIT_Foc_han+Qst
CLIT_Foc_ka
CLIT_Foc_ka+Foc_han
CLIT_Foc_ka+Foc_han+Foc_kaan
CLIT_Foc_ka+Foc_kaan
CLIT_Foc_ka+Foc_kin
CLIT_Foc_ka+Foc_pa
CLIT_Foc_ka+Foc_pa+Foc_han
CLIT_Foc_ka+Foc_pa+Foc_s
CLIT_Foc_ka+Qst
CLIT_Foc_ka+Qst+Foc_s
CLIT_Foc_kaan
CLIT_Foc_kaan+Foc_han
CLIT_Foc_kaan+Foc_kin
CLIT_Foc_kaan+Foc_pa
CLIT_Foc_kaan+Qst
CLIT_Foc_kin
CLIT_Foc_kin+Foc_han
CLIT_Foc_kin+Foc_kaan
CLIT_Foc_kin+Foc_pa
CLIT_Foc_kin+Qst
CLIT_Foc_pa
CLIT_Foc_pa+Foc_han
CLIT_Foc_pa+Foc_kaan
CLIT_Foc_pa+Foc_kin
CLIT_Foc_pa+Foc_s
CLIT_Foc_pa+Qst
CLIT_Foc_s
CLIT_Foc_s+Foc_han
CLIT_Foc_s+Foc_kaan
CLIT_Foc_s+Foc_kin
CLIT_Foc_s+Foc_kin+Foc_pa
CLIT_Foc_s+Foc_pa
CLIT_Foc_s+Foc_pa+Foc_s
CLIT_Foc_s+Qst
CLIT_Foc_s+Qst+Foc_han
CLIT_Foc_s+Qst+Foc_pa
CLIT_Foc_s+Qst+Foc_s
CLIT_Qst
CLIT_Qst+Foc_han
CLIT_Qst+Foc_kaan
CLIT_Qst+Foc_kin
CLIT_Qst+Foc_pa
CLIT_Qst+Foc_s
Adjektiivin vertailuaste
CMP_Comp
CMP_Pos
CMP_Superl
DRV_Der_inen
DRV_Der_ja
DRV_Der_lainen
DRV_Der_llinen
DRV_Der_minen
DRV_Der_sti
DRV_Der_tar
DRV_Der_tattaa
DRV_Der_tatuttaa
DRV_Der_ton
DRV_Der_tse
DRV_Der_ttaa
DRV_Der_ttain
DRV_Der_u
DRV_Der_vs
Infinitiiviluokka
INF_Inf1
INF_Inf2
INF_Inf3
Tapaluokka
MOOD_Cond
MOOD_Eve
MOOD_Imprt
MOOD_Ind
MOOD_Opt
MOOD_Pot
Kielto
NEG_ConNeg
Luku
NUM_Pl
NUM_Sg
Muu
OTHER_UNK
Partisiippi
PCP_AgPcp
PCP_Pcp
PCP_PrfPrc
PCP_PrsPrc
Possessiivisuffiksi
POSS_Px3
POSS_PxPl1
POSS_PxPl2
POSS_PxSg1
POSS_PxSg2
Persoona
PRS_Pe4
PRS_Pl1
PRS_Pl2
PRS_Pl3
PRS_Sg1
PRS_Sg2
PRS_Sg3
Välimerkki
Punct
Alakategoria
SUBCAT_Abbr
SUBCAT_Acro
SUBCAT_CC
SUBCAT_CS
SUBCAT_Card
SUBCAT_Dem
SUBCAT_Indef
SUBCAT_Interr
SUBCAT_Neg
SUBCAT_Ord
SUBCAT_Pers
SUBCAT_Pfx
SUBCAT_Po
SUBCAT_Pr
SUBCAT_Prop
SUBCAT_Qnt
SUBCAT_Real
SUBCAT_Recipr
SUBCAT_Refl
SUBCAT_Rel
Aikamuoto
TENSE_Prs
TENSE_Prt
Verbin pääluokka
VOICE_Act
VOICE_Pass
Hae Kielipankki-portaalista:
Kuukauden tutkija: Maija Saviniemi

 

Tulevat tapahtumat

  1. Kurssi: Puheen analyysin perusteet

    28.10.201913.12.2019
  2. Course: Data Clinic 2019-20

    1.11.201917.4.2020

Yhteystiedot

Kielipankin tekninen ylläpito:
kielipankki (ät) csc.fi
p. 09 4572001

Aineistoihin ja muuhun sisältöön liittyvät asiat:
fin-clarin (ät) helsinki.fi
p. 029 4140599 / 029 4129317