Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.21857/ygjwrcj56y

Obilježavanje crkvenoslavenskih i staroruskih tekstova — problemi lematizacije

Анна Пичхадзе orcid id orcid.org/0000-0003-0034-5546 ; Институт русского языка им. В. В. Виноградова


Puni tekst: ruski pdf 428 Kb

str. 143-155

preuzimanja: 386

citiraj


Sažetak

Članak opisuje probleme lematizacije koji nastaju prilikom računalnoga obilježavanja tekstova na staroruskom jeziku i načine sređivanja problematičnih lema kao što su unos dodatnih polja, alternativno prepoznavanje, ujedinjavanje svih oblika određene leme u istom rječničkom članku. Kako bi se raz­likovali semantički homonimi, odnosno parovi glagola ovisno o vidu, dovoljno je uvesti dodatna polja. Ako ne postoje kriteriji na temelju kojih je moguće na jedinstveni način rekonstruirati lemu — zbog pravopisnih, odnosno izgovorno-pravopisnih čimbenika prisutnih u starim pismenim spomenicima —, poželjno je rabiti alternativnu morfološku analizu koja dopušta uspostavljanje nekoliko lema za isti oblik riječi. Kada se varira samo oblik riječi, predlaže se koristiti se posebnim algoritmom lematizacije, a to je unošenje u rječnik leme u njezinu izvornom (najstarijem) obliku ukupno sa svim njezinim mlađim varijantama. Pri tome se svi mlađi oblici navode u posebnom polju i automatski se povezuju s izvornom lemom. Taj algoritam pruža preusmjeravanje prema najstarijem obliku leme, čak i u slučaju odabiranja najmlađe varijante prilikom obilježavanja.

Ključne riječi

računalno obilježavanje; lematizacija; crkvenoslavenski jezik; staroruski jezik

Hrčak ID:

206458

URI

https://hrcak.srce.hr/206458

Datum izdavanja:

6.10.2018.

Podaci na drugim jezicima: ruski

Posjeta: 1.362 *