Izvorni znanstveni članak
https://doi.org/10.31724/rihjj.49.1.8
Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika
Barbara Lewandowska-Tomaszczyk
orcid.org/0000-0002-6836-3321
; University of Applied Sciences in Konin, Poland
*
Slavko Žitnik
; University of Ljubljana, Slovenia
Chaya Liebeskind
; Jerusalem Institute of Technology, Israel
Giedre Valunaite Oleskevicienė
orcid.org/0000-0001-5688-2469
; Mykolas Romeris University, Vilnius, Lithuania
Anna Bączkowska
orcid.org/0000-0002-0147-2718
; University of Gdansk, Poland
Paul A. Wilson
; University of Lodz, Poland
Marcin Trojszczak
; University of Applied Sciences in Konin, Poland
Ivana Brač
orcid.org/0000-0002-3660-5285
; Institute for the Croatian Language, Zagreb
Lobel Filipić
; Institute for the Croatian Language, Zagreb
Ana Ostroški Anić
orcid.org/0000-0001-9999-0750
; Institute for the Croatian Language, Zagreb
Olga Dontcheva-Navratilova
orcid.org/0000-0002-0378-7975
; Masaryk University, Brno, Czech Republic
Agnieszka Borowiak
; University of Humanities and Economics, Lodz, Poland
Kristina Despot
; Institute for the Croatian Language, Zagreb
Jelena Mitrović
; University of Passau, Germany; Institute for AI R&D of Serbia
* Dopisni autor.
Sažetak
U ovome je radu predstavljen proces označavanja uvredljivoga jezika koji uključuje izradu klasifikacije toga jezika, označivačku praksu, vođenje procesa i evaluaciju. Klasifikacijska je shema prvi put predložena u Lewandowska-Tomaszczyk i dr. (2021). Proširena ontologija uvredljivoga jezika sadrži 17 kategorija posloženih u četiri hijerarhijske razine te tako predstavlja shemu uvredljivoga jezika koja je trenirana u okviru nekontekstualiziranih vektorskih prikaza riječi (engl. word embeddings) poput Word2Vec i Fast Text koji su naposljetku supostavljeni podatcima prikupljenima korištenjem analize parova i analize testiranja za postojeće kategorije u modelu HateBERT (Lewandowska-Tomaszczyk i dr., u postupku recenzije). U radu se izvještava o označivačkoj praksi u okviru radne grupe WG 4.1.1. Incivility in media and social media COST-ove akcije CA 18209 European network for Web-centred linguistic data science (Nexus Linguarum). Označavanje je provedeno u alatu INCEpTION (https://github.com/inception-project/inception) – platformi za semantičko označavanje koja ima ugrađene alate za takvu obradu podataka. Dobiveni rezultati podupiru predloženu ontologiju eksplicitnoga i implicitnoga uvredljivog jezika koja omogućuje veću raznovrsnost među već prepoznatim tipovima figurativnoga jezika (primjerice metafora, metonimija, ironija itd.). Upotreba sustava za označavanje i prikazivanje jezičnih podataka također je procijenjena u povratnim komentarima koje su pružili označivači. Komentari označivača prikupljeni su metodom upitnika te otvorenom raspravom. Na kraju je usustavljen niz preporuka za buduće označivačke prakse.
Ključne riječi
označivanje, eksplicitan; implicitan, uvredljivi jezik, upitnik, vektorski prikaz riječi
Hrčak ID:
308021
URI
Datum izdavanja:
18.9.2023.
Posjeta: 1.773 *