Izvorni znanstveni članak
https://doi.org/10.31820/f.37.2.4
CroSloMet: Strukturirani metaforički skup podataka za hrvatski i slovenski jezik
Kristina Štrkalj Despot
orcid.org/0000-0001-9004-5103
; Institute of Croatian Language, Zagreb
Ana Ostroški Anić
orcid.org/0000-0001-9999-0750
; Institute of Croatian Language
Polona Gantar
orcid.org/0000-0001-5822-6414
; University of Ljubljana
Mija Bon
; University of Ljubljana
Matej Klemen
orcid.org/0000-0002-7852-2357
; University of Ljubljana
Marko Robnik Šikonja
orcid.org/0000-0002-1232-3320
; University of Ljubljana
Simon Krek
orcid.org/0000-0001-8965-6863
; University of Ljubljana
Benedikt Perak
; University of Rijeka
Jaka Čibej
orcid.org/0000-0002-3037-6848
; University of Ljubljana
Sažetak
Ubrzan razvoj velikih jezičnih modela otvorio je nove mogućnosti za obradu figurativnoga jezika, no njihovo tumačenje značenja metafora i metaforičkih izraza i dalje zaostaje za razinom ljudskoga razumijevanja. Jedno od ograničenja jezičnih modela proizlazi iz nedostatnosti postojećih skupova podataka o metaforama, koji često nemaju jasno izražene veze s konceptualnim metaforama te su uglavnom jednojezični. U ovom radu predstavljamo CroSloMet, novi skup podataka s više od 1120 metaforičkih i 1120 doslovnih rečenica na hrvatskom i slovenskom jeziku, utemeljen na bazi metafora MetaNet.HR. Svaki je primjer označen pripadajućom konceptualnom metaforom, višerječnim jezičnim izrazom, kanonskim oblicima i doslovnom upotrebom, što omogućuje provedbu zadataka određivanja i objašnjavanja metafora. U radu su prikazane preliminarne evaluacije skupa podataka kroz dva eksperimenta: klasifikaciju metafora s pomoću modela CroSloEngual BERT-a, gdje je postignuta točnost od 88,5 %, te generiranje objašnjenja metafora s pomoću modela LLama 3-8B, pri čemu je stroga evaluacija točnoga podudaranja dala niske rezultate unatoč semantički valjanim rezultatima. Kako bismo to prevladali, predlažemo višerazinsku metodologiju validacije koja kombinira ručno označavanje, zaključivanje prirodnim jezikom, semantičku sličnost i prosudbu temeljenu na velikom jezičnom modelu. Naši rezultati naglašavaju važnost obuhvaćanja razina općenitosti i specifičnosti u metaforičkom preslikavanju te pokazuju na potrebu za nijansiranijim metodama evaluacije. CroSloMet je resurs za unaprjeđenje razumijevanja metafora u velikim jezičnim modelima i doprinosi međujezičnom i kognitivno utemeljenom istraživanju metafora.
Ključne riječi
metafore; metaforički skup podataka; objašnjavanje metafora; razumijevanje metafora; veliki jezični modeli
Hrčak ID:
342892
URI
Datum izdavanja:
31.12.2025.
Posjeta: 687 *