Skip to the main content

Original scientific paper

PROBLEMI NEDOSTAJUĆIH PODATAKA U DISTRIBUCIJAMA VJEROJATNOSTI KOJE NISU GAUSSOVE

Lovorka Gotal Dmitrović ; University North, University Centre Varazdin, Croatia
Vesna Dušak ; Faculty of Organization and Informatics, University of Zagreb, Varazdin, Croatia
Jasminka Dobša ; Faculty of Organization and Informatics, University of Zagreb, Varazdin, Croatia


Full text: english pdf 964 Kb

page 138-152

downloads: 469

cite


Abstract

Sažetak
Ekologija kao znanstvena disciplina brzo se razvija i postaje interdisciplinarna znanost koja se temelji na informacijsko komunikacijskim tehnologijama (IKT). Otkrivanje, integriranje i analiza ogromnih količina heterogenih podataka je ključno u istraživanju složenih ekoloških pitanja. Ekoinformatika nudi alate i pristupe za upravljanje okolišnim pokazateljima i pretvara ih u informacije i znanje. Razvoj informacijskih tehnologija s posebnim naglaskom na metode istraživanja prikupljanja i analizu podataka, njihovu pohranu i pristup podacima znatno poboljšava laboratorijske metode i njihova izvješća. Sve to utječe na kvalitetu podataka, uključujući istraživanja i pruža stabilnu bazu za njihov razvoj i zamjenu podataka koji nedostaju. Nepravilno rukovanje s „nedostajućim podacima“ može dovesti do pogrešnih zaključaka. Dakle, važno je koristiti odgovarajuće metode za upravljanje podacima koji nedostaju. U ovom radu će se usporediti metoda brisanja reda te šest metoda jednostruke metode imputacije: metoda posljednjeg provedenog promatranja, metoda Hot-deck imputacije, metoda imputacije srednje vrijednosti grupe, metoda imputacije procijenjene srednje vrijednosti (regresija), metoda imputacije moda i metoda imputacije medijana. Za potrebe ovog istraživanja, prikupljeni su empirijski podaci tehničkog sustava kod kojih se podaci ne raspoređuju prema Gaussovim distribucijama vjerojatnosti. Uglavnom su to asimetrične distribucije s repom. Skupovi s nedostajućim podacima stvoreni su brisanjem vrijednosti koristeći generator slučajnih brojeva. Eksperiment je ponovljen tri puta za svaku ispitivanu varijablu nad skupovima od: 100%, 95% i 75% prikupljenih podataka. Eksperimenti su pokazali da je najbolje rezultate imputacije podataka dala Hot-deck metoda, naročito kad nedostaje veći broj podataka što su potvrdili i testovi slaganja. Iznenađujuće je to da skoro jednako dobre rezultate, neovisno o veličini skupa, daje metoda brisanja redaka koja je puno jednostavnija.


Keywords

podaci koji nedostaju; metode imputacije; distribucija vjerovatnosti; ekoinformatika

Hrčak ID:

173840

URI

https://hrcak.srce.hr/173840

Publication date:

30.12.2016.

Article data in other languages: english

Visits: 1.861 *