Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.31820/f.37.2.4

CroSloMet: Strukturirani metaforički skup podataka za hrvatski i slovenski jezik

Kristina Štrkalj Despot orcid id orcid.org/0000-0001-9004-5103 ; Institute of Croatian Language, Zagreb
Ana Ostroški Anić orcid id orcid.org/0000-0001-9999-0750 ; Institute of Croatian Language
Polona Gantar orcid id orcid.org/0000-0001-5822-6414 ; University of Ljubljana
Mija Bon ; University of Ljubljana
Matej Klemen orcid id orcid.org/0000-0002-7852-2357 ; University of Ljubljana
Marko Robnik Šikonja orcid id orcid.org/0000-0002-1232-3320 ; University of Ljubljana
Simon Krek orcid id orcid.org/0000-0001-8965-6863 ; University of Ljubljana
Benedikt Perak ; University of Rijeka
Jaka Čibej orcid id orcid.org/0000-0002-3037-6848 ; University of Ljubljana


Puni tekst: engleski pdf 636 Kb

str. 459-482

preuzimanja: 241

citiraj


Sažetak

Ubrzan razvoj velikih jezičnih modela otvorio je nove mogućnosti za obradu figurativnoga jezika, no njihovo tumačenje značenja metafora i metaforičkih izraza i dalje zaostaje za razinom ljudskoga razumijevanja. Jedno od ograničenja jezičnih modela proizlazi iz nedostatnosti postojećih skupova podataka o metaforama, koji često nemaju jasno izražene veze s konceptualnim metaforama te su uglavnom jednojezični. U ovom radu predstavljamo CroSloMet, novi skup podataka s više od 1120 metaforičkih i 1120 doslovnih rečenica na hrvatskom i slovenskom jeziku, utemeljen na bazi metafora MetaNet.HR. Svaki je primjer označen pripadajućom konceptualnom metaforom, višerječnim jezičnim izrazom, kanonskim oblicima i doslovnom upotrebom, što omogućuje provedbu zadataka određivanja i objašnjavanja metafora. U radu su prikazane preliminarne evaluacije skupa podataka kroz dva eksperimenta: klasifikaciju metafora s pomoću modela CroSloEngual BERT-a, gdje je postignuta točnost od 88,5 %, te generiranje objašnjenja metafora s pomoću modela LLama 3-8B, pri čemu je stroga evaluacija točnoga podudaranja dala niske rezultate unatoč semantički valjanim rezultatima. Kako bismo to prevladali, predlažemo višerazinsku metodologiju validacije koja kombinira ručno označavanje, zaključivanje prirodnim jezikom, semantičku sličnost i prosudbu temeljenu na velikom jezičnom modelu. Naši rezultati naglašavaju važnost obuhvaćanja razina općenitosti i specifičnosti u metaforičkom preslikavanju te pokazuju na potrebu za nijansiranijim metodama evaluacije. CroSloMet je resurs za unaprjeđenje razumijevanja metafora u velikim jezičnim modelima i doprinosi međujezičnom i kognitivno utemeljenom istraživanju metafora.

Ključne riječi

metafore; metaforički skup podataka; objašnjavanje metafora; razumijevanje metafora; veliki jezični modeli

Hrčak ID:

342892

URI

https://hrcak.srce.hr/342892

Datum izdavanja:

31.12.2025.

Podaci na drugim jezicima: engleski

Posjeta: 687 *