Skip to the main content

Original scientific paper

https://doi.org/10.21857/ygjwrcj56y

Obilježavanje crkvenoslavenskih i staroruskih tekstova — problemi lematizacije

Анна Пичхадзе orcid id orcid.org/0000-0003-0034-5546 ; Институт русского языка им. В. В. Виноградова


Full text: russian pdf 428 Kb

page 143-155

downloads: 295

cite


Abstract

Članak opisuje probleme lematizacije koji nastaju prilikom računalnoga obilježavanja tekstova na staroruskom jeziku i načine sređivanja problematičnih lema kao što su unos dodatnih polja, alternativno prepoznavanje, ujedinjavanje svih oblika određene leme u istom rječničkom članku. Kako bi se raz­likovali semantički homonimi, odnosno parovi glagola ovisno o vidu, dovoljno je uvesti dodatna polja. Ako ne postoje kriteriji na temelju kojih je moguće na jedinstveni način rekonstruirati lemu — zbog pravopisnih, odnosno izgovorno-pravopisnih čimbenika prisutnih u starim pismenim spomenicima —, poželjno je rabiti alternativnu morfološku analizu koja dopušta uspostavljanje nekoliko lema za isti oblik riječi. Kada se varira samo oblik riječi, predlaže se koristiti se posebnim algoritmom lematizacije, a to je unošenje u rječnik leme u njezinu izvornom (najstarijem) obliku ukupno sa svim njezinim mlađim varijantama. Pri tome se svi mlađi oblici navode u posebnom polju i automatski se povezuju s izvornom lemom. Taj algoritam pruža preusmjeravanje prema najstarijem obliku leme, čak i u slučaju odabiranja najmlađe varijante prilikom obilježavanja.

Keywords

računalno obilježavanje; lematizacija; crkvenoslavenski jezik; staroruski jezik

Hrčak ID:

206458

URI

https://hrcak.srce.hr/206458

Publication date:

6.10.2018.

Article data in other languages: russian

Visits: 866 *