Skip to the main content

Original scientific paper

https://doi.org/10.31724/rihjj.49.1.8

Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika

Barbara Lewandowska-Tomaszczyk orcid id orcid.org/0000-0002-6836-3321 ; University of Applied Sciences in Konin, Poland *
Slavko Žitnik ; University of Ljubljana, Slovenia
Chaya Liebeskind ; Jerusalem Institute of Technology, Israel
Giedre Valunaite Oleskevicienė orcid id orcid.org/0000-0001-5688-2469 ; Mykolas Romeris University, Vilnius, Lithuania
Anna Bączkowska orcid id orcid.org/0000-0002-0147-2718 ; University of Gdansk, Poland
Paul A. Wilson ; University of Lodz, Poland
Marcin Trojszczak ; University of Applied Sciences in Konin, Poland
Ivana Brač orcid id orcid.org/0000-0002-3660-5285 ; Institute for the Croatian Language, Zagreb
Lobel Filipić ; Institute for the Croatian Language, Zagreb
Ana Ostroški Anić orcid id orcid.org/0000-0001-9999-0750 ; Institute for the Croatian Language, Zagreb
Olga Dontcheva-Navratilova orcid id orcid.org/0000-0002-0378-7975 ; Masaryk University, Brno, Czech Republic
Agnieszka Borowiak ; University of Humanities and Economics, Lodz, Poland
Kristina Despot ; Institute for the Croatian Language, Zagreb
Jelena Mitrović ; University of Passau, Germany; Institute for AI R&D of Serbia

* Corresponding author.


Full text: english pdf 1.408 Kb

page 155-175

downloads: 501

cite


Abstract

U ovome je radu predstavljen proces označavanja uvredljivoga jezika koji uključuje izradu klasifikacije toga jezika, označivačku praksu, vođenje procesa i evaluaciju. Klasifikacijska je shema prvi put predložena u Lewandowska-Tomaszczyk i dr. (2021). Proširena ontologija uvredljivoga jezika sadrži 17 kategorija posloženih u četiri hijerarhijske razine te tako predstavlja shemu uvredljivoga jezika koja je trenirana u okviru nekontekstualiziranih vektorskih prikaza riječi (engl. word embeddings) poput Word2Vec i Fast Text koji su naposljetku supostavljeni podatcima prikupljenima korištenjem analize parova i analize testiranja za postojeće kategorije u modelu HateBERT (Lewandowska-Tomaszczyk i dr., u postupku recenzije). U radu se izvještava o označivačkoj praksi u okviru radne grupe WG 4.1.1. Incivility in media and social media COST-ove akcije CA 18209 European network for Web-centred linguistic data science (Nexus Linguarum). Označavanje je provedeno u alatu INCEpTION (https://github.com/inception-project/inception) – platformi za semantičko označavanje koja ima ugrađene alate za takvu obradu podataka. Dobiveni rezultati podupiru predloženu ontologiju eksplicitnoga i implicitnoga uvredljivog jezika koja omogućuje veću raznovrsnost među već prepoznatim tipovima figurativnoga jezika (primjerice metafora, metonimija, ironija itd.). Upotreba sustava za označavanje i prikazivanje jezičnih podataka također je procijenjena u povratnim komentarima koje su pružili označivači. Komentari označivača prikupljeni su metodom upitnika te otvorenom raspravom. Na kraju je usustavljen niz preporuka za buduće označivačke prakse.

Keywords

označivanje, eksplicitan; implicitan, uvredljivi jezik, upitnik, vektorski prikaz riječi

Hrčak ID:

308021

URI

https://hrcak.srce.hr/308021

Publication date:

18.9.2023.

Article data in other languages: english

Visits: 1.850 *