Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika

Lewandowska-Tomaszczyk, Barbara; Žitnik, Slavko; Liebeskind, Chaya; Valunaite Oleskevicienė, Giedre; Bączkowska, Anna; Wilson, Paul A.; Trojszczak, Marcin; Brač, Ivana; Filipić, Lobel; Ostroški Anić, Ana; Dontcheva-Navratilova, Olga; Borowiak, Agnieszka; Despot, Kristina; Mitrović, Jelena

doi:10.31724/rihjj.49.1.8

Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, Vol. 49 No. 1, 2023.

Original scientific paper

https://doi.org/10.31724/rihjj.49.1.8

Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika

Barbara Lewandowska-Tomaszczyk orcid.org/0000-0002-6836-3321 ; University of Applied Sciences in Konin, Poland *
Slavko Žitnik ; University of Ljubljana, Slovenia
Chaya Liebeskind ; Jerusalem Institute of Technology, Israel
Giedre Valunaite Oleskevicienė orcid.org/0000-0001-5688-2469 ; Mykolas Romeris University, Vilnius, Lithuania
Anna Bączkowska orcid.org/0000-0002-0147-2718 ; University of Gdansk, Poland
Paul A. Wilson ; University of Lodz, Poland
Marcin Trojszczak ; University of Applied Sciences in Konin, Poland
Ivana Brač orcid.org/0000-0002-3660-5285 ; Institute for the Croatian Language, Zagreb
Lobel Filipić ; Institute for the Croatian Language, Zagreb
Ana Ostroški Anić orcid.org/0000-0001-9999-0750 ; Institute for the Croatian Language, Zagreb
Olga Dontcheva-Navratilova orcid.org/0000-0002-0378-7975 ; Masaryk University, Brno, Czech Republic
Agnieszka Borowiak ; University of Humanities and Economics, Lodz, Poland
Kristina Despot ; Institute for the Croatian Language, Zagreb
Jelena Mitrović ; University of Passau, Germany; Institute for AI R&D of Serbia

* Corresponding author.

Full text: english pdf 1.408 Kb

page 155-175

downloads: 484

cite

APA 6th Edition

Lewandowska-Tomaszczyk, B., Žitnik, S., Liebeskind, C., Valunaite Oleskevicienė, G., Bączkowska, A., Wilson, P.A., ... Mitrović, J. (2023). Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, 49 (1), 155-175. https://doi.org/10.31724/rihjj.49.1.8

MLA 8th Edition

Lewandowska-Tomaszczyk, Barbara, et al. "Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika." Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, vol. 49, no. 1, 2023, pp. 155-175. https://doi.org/10.31724/rihjj.49.1.8. Accessed 18 Nov. 2024.

Chicago 17th Edition

Lewandowska-Tomaszczyk, Barbara, Slavko Žitnik, Chaya Liebeskind, Giedre Valunaite Oleskevicienė, Anna Bączkowska, Paul A. Wilson, Marcin Trojszczak, et al. "Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika." Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje 49, no. 1 (2023): 155-175. https://doi.org/10.31724/rihjj.49.1.8

Harvard

Lewandowska-Tomaszczyk, B., et al. (2023). 'Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika', Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, 49(1), pp. 155-175. https://doi.org/10.31724/rihjj.49.1.8

Vancouver

Lewandowska-Tomaszczyk B, Žitnik S, Liebeskind C, Valunaite Oleskevicienė G, Bączkowska A, Wilson PA, et al. Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje [Internet]. 2023 [cited 2024 November 18];49(1):155-175. https://doi.org/10.31724/rihjj.49.1.8

IEEE

B. Lewandowska-Tomaszczyk, et al., "Anotacijska shema i njezina evaluacija: primjer uvredljivoga jezika", Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, vol.49, no. 1, pp. 155-175, 2023. [Online]. https://doi.org/10.31724/rihjj.49.1.8

Abstract

U ovome je radu predstavljen proces označavanja uvredljivoga jezika koji uključuje izradu klasifikacije toga jezika, označivačku praksu, vođenje procesa i evaluaciju. Klasifikacijska je shema prvi put predložena u Lewandowska-Tomaszczyk i dr. (2021). Proširena ontologija uvredljivoga jezika sadrži 17 kategorija posloženih u četiri hijerarhijske razine te tako predstavlja shemu uvredljivoga jezika koja je trenirana u okviru nekontekstualiziranih vektorskih prikaza riječi (engl. word embeddings) poput Word2Vec i Fast Text koji su naposljetku supostavljeni podatcima prikupljenima korištenjem analize parova i analize testiranja za postojeće kategorije u modelu HateBERT (Lewandowska-Tomaszczyk i dr., u postupku recenzije). U radu se izvještava o označivačkoj praksi u okviru radne grupe WG 4.1.1. Incivility in media and social media COST-ove akcije CA 18209 European network for Web-centred linguistic data science (Nexus Linguarum). Označavanje je provedeno u alatu INCEpTION (https://github.com/inception-project/inception) – platformi za semantičko označavanje koja ima ugrađene alate za takvu obradu podataka. Dobiveni rezultati podupiru predloženu ontologiju eksplicitnoga i implicitnoga uvredljivog jezika koja omogućuje veću raznovrsnost među već prepoznatim tipovima figurativnoga jezika (primjerice metafora, metonimija, ironija itd.). Upotreba sustava za označavanje i prikazivanje jezičnih podataka također je procijenjena u povratnim komentarima koje su pružili označivači. Komentari označivača prikupljeni su metodom upitnika te otvorenom raspravom. Na kraju je usustavljen niz preporuka za buduće označivačke prakse.

Keywords

označivanje, eksplicitan; implicitan, uvredljivi jezik, upitnik, vektorski prikaz riječi

Hrčak ID:

308021

URI

https://hrcak.srce.hr/308021

Publication date:

18.9.2023.

Article data in other languages: english

Visits: 1.773 *

Login and registration

Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje, Vol. 49 No. 1, 2023.

Abstract

Keywords

Hrčak ID:

URI

Publication date: