Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika

Lewandowska-Tomaszczyk, Barbara; Žitnik, Slavko; Liebeskind, Chaya; Valunaite Oleskevicienė, Giedre; Bączkowska, Anna; Wilson, Paul A.; Trojszczak, Marcin; Brač, Ivana; Filipić, Lobel; Ostroški Anić, Ana; Dontcheva-Navratilova, Olga; Borowiak, Agnieszka; Despot, Kristina; Mitrović, Jelena

doi:10.31724/rihjj.49.1.8

Rasprave Instituta za hrvatski jezik, Vol. 49 No. 1, 2023.

Izvorni znanstveni članak

https://doi.org/10.31724/rihjj.49.1.8

Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika

Barbara Lewandowska-Tomaszczyk orcid.org/0000-0002-6836-3321 ; University of Applied Sciences in Konin, Poland *
Slavko Žitnik ; University of Ljubljana, Slovenia
Chaya Liebeskind ; Jerusalem Institute of Technology, Israel
Giedre Valunaite Oleskevicienė orcid.org/0000-0001-5688-2469 ; Mykolas Romeris University, Vilnius, Lithuania
Anna Bączkowska orcid.org/0000-0002-0147-2718 ; University of Gdansk, Poland
Paul A. Wilson ; University of Lodz, Poland
Marcin Trojszczak ; University of Applied Sciences in Konin, Poland
Ivana Brač orcid.org/0000-0002-3660-5285 ; Institute for the Croatian Language, Zagreb
Lobel Filipić ; Institute for the Croatian Language, Zagreb
Ana Ostroški Anić orcid.org/0000-0001-9999-0750 ; Institute for the Croatian Language, Zagreb
Olga Dontcheva-Navratilova orcid.org/0000-0002-0378-7975 ; Masaryk University, Brno, Czech Republic
Agnieszka Borowiak ; University of Humanities and Economics, Lodz, Poland
Kristina Despot orcid.org/0000-0001-9004-5103 ; Institute for the Croatian Language, Zagreb
Jelena Mitrović ; University of Passau, Germany; Institute for AI R&D of Serbia

* Dopisni autor.

Puni tekst: engleski pdf 1.408 Kb

str. 155-175

preuzimanja: 1.059

citiraj

APA 6th Edition

Lewandowska-Tomaszczyk, B., Žitnik, S., Liebeskind, C., Valunaite Oleskevicienė, G., Bączkowska, A., Wilson, P.A., ... Mitrović, J. (2023). Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika. Rasprave Instituta za hrvatski jezik, 49 (1), 155-175. https://doi.org/10.31724/rihjj.49.1.8

MLA 8th Edition

Lewandowska-Tomaszczyk, Barbara, et al. "Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika." Rasprave Instituta za hrvatski jezik, vol. 49, br. 1, 2023, str. 155-175. https://doi.org/10.31724/rihjj.49.1.8. Citirano 24.07.2026.

Chicago 17th Edition

Lewandowska-Tomaszczyk, Barbara, Slavko Žitnik, Chaya Liebeskind, Giedre Valunaite Oleskevicienė, Anna Bączkowska, Paul A. Wilson, Marcin Trojszczak, et al. "Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika." Rasprave Instituta za hrvatski jezik 49, br. 1 (2023): 155-175. https://doi.org/10.31724/rihjj.49.1.8

Harvard

Lewandowska-Tomaszczyk, B., et al. (2023). 'Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika', Rasprave Instituta za hrvatski jezik, 49(1), str. 155-175. https://doi.org/10.31724/rihjj.49.1.8

Vancouver

Lewandowska-Tomaszczyk B, Žitnik S, Liebeskind C, Valunaite Oleskevicienė G, Bączkowska A, Wilson PA i sur. Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika. Rasprave Instituta za hrvatski jezik [Internet]. 2023 [pristupljeno 24.07.2026.];49(1):155-175. https://doi.org/10.31724/rihjj.49.1.8

IEEE

B. Lewandowska-Tomaszczyk, et al., "Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika", Rasprave Instituta za hrvatski jezik, vol.49, br. 1, str. 155-175, 2023. [Online]. https://doi.org/10.31724/rihjj.49.1.8

Sažetak

U ovome je radu predstavljen proces označavanja uvredljivoga jezika koji uključuje izradu klasifikacije toga jezika, označivačku praksu, vođenje procesa i evaluaciju. Klasifikacijska je shema prvi put predložena u Lewandowska-Tomaszczyk i dr. (2021). Proširena ontologija uvredljivoga jezika sadrži 17 kategorija posloženih u četiri hijerarhijske razine te tako predstavlja shemu uvredljivoga jezika koja je trenirana u okviru nekontekstualiziranih vektorskih prikaza riječi (engl. word embeddings) poput Word2Vec i Fast Text koji su naposljetku supostavljeni podatcima prikupljenima korištenjem analize parova i analize testiranja za postojeće kategorije u modelu HateBERT (Lewandowska-Tomaszczyk i dr., u postupku recenzije). U radu se izvještava o označivačkoj praksi u okviru radne grupe WG 4.1.1. Incivility in media and social media COST-ove akcije CA 18209 European network for Web-centred linguistic data science (Nexus Linguarum). Označavanje je provedeno u alatu INCEpTION (https://github.com/inception-project/inception) – platformi za semantičko označavanje koja ima ugrađene alate za takvu obradu podataka. Dobiveni rezultati podupiru predloženu ontologiju eksplicitnoga i implicitnoga uvredljivog jezika koja omogućuje veću raznovrsnost među već prepoznatim tipovima figurativnoga jezika (primjerice metafora, metonimija, ironija itd.). Upotreba sustava za označavanje i prikazivanje jezičnih podataka također je procijenjena u povratnim komentarima koje su pružili označivači. Komentari označivača prikupljeni su metodom upitnika te otvorenom raspravom. Na kraju je usustavljen niz preporuka za buduće označivačke prakse.