Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.2478/crdj-2025-0008

Primjena NLP tehnologija na nisko resursna hrvatska narječja

Maja Polanec ; Sveučilište u Zagrebu, Fakultet elektrotehnike i računarstva
Marina Bagić Babac orcid id orcid.org/0000-0003-4979-2216 ; Sveučilište u Zagrebu, Fakultet elektrotehnike i računarstva *

* Dopisni autor.


Puni tekst: engleski pdf 282 Kb

str. 13-23

preuzimanja: 211

citiraj

Puni tekst: hrvatski pdf 289 Kb

str. 13-23

preuzimanja: 100

citiraj


Sažetak

U sustavima za obradu prirodnog jezika (NLP) primjećuje se trend smanjenja učinkovitosti kada se primjenjuju na tekstove napisane nisko resursnim narječjem, umjesto standardnim jezikom. Ovisnosno parsiranje je važna komponenta u NLP sustavima, stoga bi njegovo unaprjeđenje moglo za posljedicu imati poboljšanje učinkovitosti tih sustava. Ovaj rad ima za cilj usporediti učinkovitost slovenskog i hrvatskog parsera za ovisnosno parsiranje kajkavskog narječja. Rezultati usporedbe će pružiti uvid u potencijal slovenskog parsera za parsiranje kajkavskog. Stvoren je skup podataka za ovisnosno parsiranje korištenjem paralelnih prijevoda knjige “Mali kraljević”. Na temelju stvorenog skupa podataka je provedeno projiciranje oznaka iz isparsiranog hrvatskog standardnog jezika u kajkavsko narječje s ciljem dobivanja podataka za izračun UAS i LAS metrika za usporedbu hrvatskog i slovenskog parsera koji su implementirani pomoću Spacy knjižnice otvorenog koda. Hrvatski parser postigao je UAS rezultat od 0.47 i LAS rezultat od 0.30, što je manje uspješno od slovenskg parsera koji je ostvario rezultate od 0.52 za UAS i 0.34 za LAS. Dobiveni rezultati pokazuju da slovenski parser preciznije parsira kajkavsko narječje. Međutim, za donošenje općeg zaključka bilo bi potrebno proširiti skup podataka.

Ključne riječi

obrada prirodnog jezika; nisko resursno narječje; hrvatski jezik; ovisnosni parser

Hrčak ID:

341539

URI

https://hrcak.srce.hr/341539

Datum izdavanja:

20.12.2025.

Podaci na drugim jezicima: engleski

Posjeta: 560 *