Izvorni znanstveni članak
https://doi.org/10.2478/crdj-2025-0008
Primjena NLP tehnologija na nisko resursna hrvatska narječja
Maja Polanec
; Sveučilište u Zagrebu, Fakultet elektrotehnike i računarstva
Marina Bagić Babac
orcid.org/0000-0003-4979-2216
; Sveučilište u Zagrebu, Fakultet elektrotehnike i računarstva
*
* Dopisni autor.
Sažetak
U sustavima za obradu prirodnog jezika (NLP) primjećuje se trend smanjenja učinkovitosti kada se primjenjuju na tekstove napisane nisko resursnim narječjem, umjesto standardnim jezikom. Ovisnosno parsiranje je važna komponenta u NLP sustavima, stoga bi njegovo unaprjeđenje moglo za posljedicu imati poboljšanje učinkovitosti tih sustava. Ovaj rad ima za cilj usporediti učinkovitost slovenskog i hrvatskog parsera za ovisnosno parsiranje kajkavskog narječja. Rezultati usporedbe će pružiti uvid u potencijal slovenskog parsera za parsiranje kajkavskog. Stvoren je skup podataka za ovisnosno parsiranje korištenjem paralelnih prijevoda knjige “Mali kraljević”. Na temelju stvorenog skupa podataka je provedeno projiciranje oznaka iz isparsiranog hrvatskog standardnog jezika u kajkavsko narječje s ciljem dobivanja podataka za izračun UAS i LAS metrika za usporedbu hrvatskog i slovenskog parsera koji su implementirani pomoću Spacy knjižnice otvorenog koda. Hrvatski parser postigao je UAS rezultat od 0.47 i LAS rezultat od 0.30, što je manje uspješno od slovenskg parsera koji je ostvario rezultate od 0.52 za UAS i 0.34 za LAS. Dobiveni rezultati pokazuju da slovenski parser preciznije parsira kajkavsko narječje. Međutim, za donošenje općeg zaključka bilo bi potrebno proširiti skup podataka.
Ključne riječi
obrada prirodnog jezika; nisko resursno narječje; hrvatski jezik; ovisnosni parser
Hrčak ID:
341539
URI
Datum izdavanja:
20.12.2025.
Posjeta: 560 *