Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.19279/TVZ.PD.2024-13-1-01

KLJUČNA OBILJEŽJA OTVORENIH SKUPOVA PODATAKA U ANALIZI SENTIMENTA OBJAVA NA TWITTERU

Gaurish Thakkar orcid id orcid.org/0000-0002-8119-5078 ; Filozofski fakultet Sveučilišta u Zagrebu, Ivana Lučića 3, 10000, Zagreb, Hrvatska *

* Dopisni autor.


Puni tekst: hrvatski pdf 413 Kb

str. 1-14

preuzimanja: 0

citiraj


Sažetak

Otvoreni skupovi podataka ključni su za usavršavanje modela analize sentimenta, no njihovu praktičnu iskoristivost često otežava nedostatak standardizacije i sveobuhvatne dokumentacije. Ovaj rad pruža kritički pregled otvorenih skupova podataka za analizu sentimenta objava na Twitteru, analizirajući 48 skupova podataka za 30 različitih jezika. Analizirani su ključni elementi, uključujući konvencije o imenovanju, sheme označavanja, metode distribucije podataka i uključivanje bitnih metapodataka poput ID-ova tweetova. Rezultati pokazuju značajne nedosljednosti koje stvaraju izazove za reproducibilnost i komparativnu evaluaciju modela. Identificirana je kritična potreba za standardnim praksama u stvaranju i diseminaciji podatakovnih skupova. Temeljem ove analize ponuđene su konkretne preporuke za unaprjeđenje znanstvene vrijednosti, mogućnosti otkrivanja i dugoročne iskoristivosti otvorenih podatkovnih skupova za znanstvenu zajednicu.

Ključne riječi

analiza sentimenta; obrada prirodnog jezika; skupovi podataka za analizu sentimenta; multijezičan

Hrčak ID:

341614

URI

https://hrcak.srce.hr/341614

Datum izdavanja:

30.8.2025.

Podaci na drugim jezicima: engleski

Posjeta: 0 *