Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.31724/rihjj.49.1.8

Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika

Barbara Lewandowska-Tomaszczyk orcid id orcid.org/0000-0002-6836-3321 ; University of Applied Sciences in Konin, Poland
Slavko Žitnik ; University of Ljubljana, Slovenia
Chaya Liebeskind ; Jerusalem Institute of Technology, Israel
Giedre Valunaite Oleskevicienė orcid id orcid.org/0000-0001-5688-2469 ; Mykolas Romeris University, Vilnius, Lithuania
Anna Bączkowska orcid id orcid.org/0000-0002-0147-2718 ; University of Gdansk, Poland
Paul A. Wilson ; University of Lodz, Poland
Marcin Trojszczak ; University of Applied Sciences in Konin, Poland
Ivana Brač orcid id orcid.org/0000-0002-3660-5285 ; Institute for the Croatian Language, Zagreb
Lobel Filipić ; Institute for the Croatian Language, Zagreb
Ana Ostroški Anić orcid id orcid.org/0000-0001-9999-0750 ; Institute for the Croatian Language, Zagreb
Olga Dontcheva-Navratilova orcid id orcid.org/0000-0002-0378-7975 ; Masaryk University, Brno, Czech Republic
Agnieszka Borowiak ; University of Humanities and Economics, Lodz, Poland
Kristina Despot ; Institute for the Croatian Language, Zagreb
Jelena Mitrović ; University of Passau, Germany; Institute for AI R&D of Serbia


Puni tekst: engleski pdf 1.406 Kb

preuzimanja: 54

citiraj


Sažetak

U ovome je radu predstavljen proces označavanja uvredljivoga jezika koji uključuje izradu klasifikacije toga jezika, označivačku praksu, vođenje procesa i evaluaciju. Klasifikacijska je shema prvi put predložena u Lewandowska-Tomaszczyk i dr. (2021). Proširena ontologija uvredljivoga jezika sadrži 17 kategorija posloženih u četiri hijerarhijske razine te tako predstavlja shemu uvredljivoga jezika koja je trenirana u okviru nekontekstualiziranih vektorskih prikaza riječi (engl. word embeddings) poput Word2Vec i Fast Text koji su naposljetku supostavljeni podatcima prikupljenima korištenjem analize parova i analize testiranja za postojeće kategorije u modelu HateBERT (Lewandowska-Tomaszczyk i dr., u postupku recenzije). U radu se izvještava o označivačkoj praksi u okviru radne grupe WG 4.1.1. Incivility in media and social media COST-ove akcije CA 18209 European network for Web-centred linguistic data science (Nexus Linguarum). Označavanje je provedeno u alatu INCEpTION (https://github.com/inception-project/inception) – platformi za semantičko označavanje koja ima ugrađene alate za takvu obradu podataka. Dobiveni rezultati podupiru predloženu ontologiju eksplicitnoga i implicitnoga uvredljivog jezika koja omogućuje veću raznovrsnost među već prepoznatim tipovima figurativnoga jezika (primjerice metafora, metonimija, ironija itd.). Upotreba sustava za označavanje i prikazivanje jezičnih podataka također je procijenjena u povratnim komentarima koje su pružili označivači. Komentari označivača prikupljeni su metodom upitnika te otvorenom raspravom. Na kraju je usustavljen niz preporuka za buduće označivačke prakse.

Ključne riječi

označivanje, eksplicitan, implicitan, uvredljivi jezik, upitnik, vektorski prikaz riječi

Hrčak ID:

308021

URI

https://hrcak.srce.hr/308021

Podaci na drugim jezicima: engleski

Posjeta: 147 *