Politehnika i dizajn, Vol. 13 No. 1, 2025.
Izvorni znanstveni članak
https://doi.org/10.19279/TVZ.PD.2024-13-1-01
KLJUČNA OBILJEŽJA OTVORENIH SKUPOVA PODATAKA U ANALIZI SENTIMENTA OBJAVA NA TWITTERU
Gaurish Thakkar
orcid.org/0000-0002-8119-5078
; Filozofski fakultet Sveučilišta u Zagrebu, Ivana Lučića 3, 10000, Zagreb, Hrvatska
*
* Dopisni autor.
Sažetak
Otvoreni skupovi podataka ključni su za usavršavanje modela analize sentimenta, no njihovu praktičnu iskoristivost često otežava nedostatak standardizacije i sveobuhvatne dokumentacije. Ovaj rad pruža kritički pregled otvorenih skupova podataka za analizu sentimenta objava na Twitteru, analizirajući 48 skupova podataka za 30 različitih jezika. Analizirani su ključni elementi, uključujući konvencije o imenovanju, sheme označavanja, metode distribucije podataka i uključivanje bitnih metapodataka poput ID-ova tweetova. Rezultati pokazuju značajne nedosljednosti koje stvaraju izazove za reproducibilnost i komparativnu evaluaciju modela. Identificirana je kritična potreba za standardnim praksama u stvaranju i diseminaciji podatakovnih skupova. Temeljem ove analize ponuđene su konkretne preporuke za unaprjeđenje znanstvene vrijednosti, mogućnosti otkrivanja i dugoročne iskoristivosti otvorenih podatkovnih skupova za znanstvenu zajednicu.
Ključne riječi
analiza sentimenta; obrada prirodnog jezika; skupovi podataka za analizu sentimenta; multijezičan
Hrčak ID:
341614
URI
Datum izdavanja:
30.8.2025.
Posjeta: 0 *