Original scientific paper
https://doi.org/10.2478/crdj-2025-0008
Primjena NLP tehnologija na nisko resursna hrvatska narječja
Maja Polanec
; University of Zagreb, Faculty of Electrical Engineering and Computing
Marina Bagić Babac
orcid.org/0000-0003-4979-2216
; University of Zagreb, Faculty of Electrical Engineering and Computing
*
* Corresponding author.
Abstract
U sustavima za obradu prirodnog jezika (NLP) primjećuje se trend smanjenja učinkovitosti kada se primjenjuju na tekstove napisane nisko resursnim narječjem, umjesto standardnim jezikom. Ovisnosno parsiranje je važna komponenta u NLP sustavima, stoga bi njegovo unaprjeđenje moglo za posljedicu imati poboljšanje učinkovitosti tih sustava. Ovaj rad ima za cilj usporediti učinkovitost slovenskog i hrvatskog parsera za ovisnosno parsiranje kajkavskog narječja. Rezultati usporedbe će pružiti uvid u potencijal slovenskog parsera za parsiranje kajkavskog. Stvoren je skup podataka za ovisnosno parsiranje korištenjem paralelnih prijevoda knjige “Mali kraljević”. Na temelju stvorenog skupa podataka je provedeno projiciranje oznaka iz isparsiranog hrvatskog standardnog jezika u kajkavsko narječje s ciljem dobivanja podataka za izračun UAS i LAS metrika za usporedbu hrvatskog i slovenskog parsera koji su implementirani pomoću Spacy knjižnice otvorenog koda. Hrvatski parser postigao je UAS rezultat od 0.47 i LAS rezultat od 0.30, što je manje uspješno od slovenskg parsera koji je ostvario rezultate od 0.52 za UAS i 0.34 za LAS. Dobiveni rezultati pokazuju da slovenski parser preciznije parsira kajkavsko narječje. Međutim, za donošenje općeg zaključka bilo bi potrebno proširiti skup podataka.
Keywords
obrada prirodnog jezika; nisko resursno narječje; hrvatski jezik; ovisnosni parser
Hrčak ID:
341539
URI
Publication date:
20.12.2025.
Visits: 560 *