Skoči na glavni sadržaj

Izvorni znanstveni članak

PROBLEMI NEDOSTAJUĆIH PODATAKA U DISTRIBUCIJAMA VJEROJATNOSTI KOJE NISU GAUSSOVE

Lovorka Gotal Dmitrović ; Sveučilište Sjever, Sveučilišni centar Varaždin, Hrvatska
Vesna Dušak ; Sveučilište u Zagrebu, Fakultet organizacije i informatike, Varaždin, Hrvatska
Jasminka Dobša ; Sveučilište u Zagrebu, Fakultet organizacije i informatike, Varaždin, Hrvatska


Puni tekst: engleski pdf 964 Kb

str. 138-152

preuzimanja: 340

citiraj


Sažetak

Sažetak
Ekologija kao znanstvena disciplina brzo se razvija i postaje interdisciplinarna znanost koja se temelji na informacijsko komunikacijskim tehnologijama (IKT). Otkrivanje, integriranje i analiza ogromnih količina heterogenih podataka je ključno u istraživanju složenih ekoloških pitanja. Ekoinformatika nudi alate i pristupe za upravljanje okolišnim pokazateljima i pretvara ih u informacije i znanje. Razvoj informacijskih tehnologija s posebnim naglaskom na metode istraživanja prikupljanja i analizu podataka, njihovu pohranu i pristup podacima znatno poboljšava laboratorijske metode i njihova izvješća. Sve to utječe na kvalitetu podataka, uključujući istraživanja i pruža stabilnu bazu za njihov razvoj i zamjenu podataka koji nedostaju. Nepravilno rukovanje s „nedostajućim podacima“ može dovesti do pogrešnih zaključaka. Dakle, važno je koristiti odgovarajuće metode za upravljanje podacima koji nedostaju. U ovom radu će se usporediti metoda brisanja reda te šest metoda jednostruke metode imputacije: metoda posljednjeg provedenog promatranja, metoda Hot-deck imputacije, metoda imputacije srednje vrijednosti grupe, metoda imputacije procijenjene srednje vrijednosti (regresija), metoda imputacije moda i metoda imputacije medijana. Za potrebe ovog istraživanja, prikupljeni su empirijski podaci tehničkog sustava kod kojih se podaci ne raspoređuju prema Gaussovim distribucijama vjerojatnosti. Uglavnom su to asimetrične distribucije s repom. Skupovi s nedostajućim podacima stvoreni su brisanjem vrijednosti koristeći generator slučajnih brojeva. Eksperiment je ponovljen tri puta za svaku ispitivanu varijablu nad skupovima od: 100%, 95% i 75% prikupljenih podataka. Eksperimenti su pokazali da je najbolje rezultate imputacije podataka dala Hot-deck metoda, naročito kad nedostaje veći broj podataka što su potvrdili i testovi slaganja. Iznenađujuće je to da skoro jednako dobre rezultate, neovisno o veličini skupa, daje metoda brisanja redaka koja je puno jednostavnija.


Ključne riječi

podaci koji nedostaju, metode imputacije, distribucija vjerovatnosti, ekoinformatika

Hrčak ID:

173840

URI

https://hrcak.srce.hr/173840

Podaci na drugim jezicima: engleski

Posjeta: 983 *