Filologija, No. 68, 2017.
Izvorni znanstveni članak
https://doi.org/10.21857/ygjwrcj56y
Obilježavanje crkvenoslavenskih i staroruskih tekstova — problemi lematizacije
Анна Пичхадзе
orcid.org/0000-0003-0034-5546
; Институт русского языка им. В. В. Виноградова
Sažetak
Članak opisuje probleme lematizacije koji nastaju prilikom računalnoga obilježavanja tekstova na staroruskom jeziku i načine sređivanja problematičnih lema kao što su unos dodatnih polja, alternativno prepoznavanje, ujedinjavanje svih oblika određene leme u istom rječničkom članku. Kako bi se razlikovali semantički homonimi, odnosno parovi glagola ovisno o vidu, dovoljno je uvesti dodatna polja. Ako ne postoje kriteriji na temelju kojih je moguće na jedinstveni način rekonstruirati lemu — zbog pravopisnih, odnosno izgovorno-pravopisnih čimbenika prisutnih u starim pismenim spomenicima —, poželjno je rabiti alternativnu morfološku analizu koja dopušta uspostavljanje nekoliko lema za isti oblik riječi. Kada se varira samo oblik riječi, predlaže se koristiti se posebnim algoritmom lematizacije, a to je unošenje u rječnik leme u njezinu izvornom (najstarijem) obliku ukupno sa svim njezinim mlađim varijantama. Pri tome se svi mlađi oblici navode u posebnom polju i automatski se povezuju s izvornom lemom. Taj algoritam pruža preusmjeravanje prema najstarijem obliku leme, čak i u slučaju odabiranja najmlađe varijante prilikom obilježavanja.
Ključne riječi
računalno obilježavanje; lematizacija; crkvenoslavenski jezik; staroruski jezik
Hrčak ID:
206458
URI
Datum izdavanja:
6.10.2018.
Posjeta: 1.362 *