Polytechnic and design, Vol. 13 No. 1, 2025.
Original scientific paper
https://doi.org/10.19279/TVZ.PD.2024-13-1-01
KLJUČNA OBILJEŽJA OTVORENIH SKUPOVA PODATAKA U ANALIZI SENTIMENTA OBJAVA NA TWITTERU
Gaurish Thakkar
orcid.org/0000-0002-8119-5078
; University of Zagreb, Faculty of Humanities and Social Sciences,Ivana Lučića 3, 10000, Zagreb, Croatia
*
* Corresponding author.
Abstract
Otvoreni skupovi podataka ključni su za usavršavanje modela analize sentimenta, no njihovu praktičnu iskoristivost često otežava nedostatak standardizacije i sveobuhvatne dokumentacije. Ovaj rad pruža kritički pregled otvorenih skupova podataka za analizu sentimenta objava na Twitteru, analizirajući 48 skupova podataka za 30 različitih jezika. Analizirani su ključni elementi, uključujući konvencije o imenovanju, sheme označavanja, metode distribucije podataka i uključivanje bitnih metapodataka poput ID-ova tweetova. Rezultati pokazuju značajne nedosljednosti koje stvaraju izazove za reproducibilnost i komparativnu evaluaciju modela. Identificirana je kritična potreba za standardnim praksama u stvaranju i diseminaciji podatakovnih skupova. Temeljem ove analize ponuđene su konkretne preporuke za unaprjeđenje znanstvene vrijednosti, mogućnosti otkrivanja i dugoročne iskoristivosti otvorenih podatkovnih skupova za znanstvenu zajednicu.
Keywords
analiza sentimenta; obrada prirodnog jezika; skupovi podataka za analizu sentimenta; multijezičan
Hrčak ID:
341614
URI
Publication date:
30.8.2025.
Visits: 245 *