Skoči na glavni sadržaj

Izvorni znanstveni članak

https://doi.org/10.17559/TV-20150126121041

Uobičajeni okvir grupiranja utemeljenog na raspodjeli za veliki sustav uzorkovanja podataka i njegova MapReduce implementacija

Ran Jin ; (1) School of Computer Science and Information Technology, Zhejiang Wanli University, No. 8 South QianHu Road, Ningbo, Zhejiang, 315100, China / (2) College of Computer Science and Technology, Zhejiang University, No.38 Zheda Road, Hangzhou, Zhejiang, 310
Chunhai Kou ; School of Science, Donghua University No. 2999 North Renmin Road, Songjiang district, Shanghai, 201620, China
Ruijuan Liu ; School of Information Science and Technology, Donghua University, No. 2999 North Renmin Road, Songjiang district, Shanghai, 201620, China
Tao Guo ; School of Information Science and Technology, Donghua University, No. 2999 North Renmin Road, Songjiang district, Shanghai, 201620, China


Puni tekst: hrvatski pdf 1.713 Kb

str. 25-33

preuzimanja: 460

citiraj

Puni tekst: engleski pdf 1.713 Kb

str. 25-33

preuzimanja: 737

citiraj


Sažetak

Grupiranje (clustering) je jedan od važnih zadataka u rudarenu podataka (data mining), a algoritmi grupiranja utemeljenog na raspodjeli kao što su k-način jedno su od popularnih rješenja. Ipak, sve većim razvojem računarstva u oblaku i ogromne količine podataka, prijenos velikog broja podataka postao je veliki izazov za grupiranje. Na primjer, izvođenje algoritma grupiranja oduzima previše vremena, optimizacija parametara je teška, a kvaliteta grupa (klastera) nije dobra. U tu smo svrhu u ovom radu predložili uobičajeni okvir za algoritme grupiranja utemeljenog na raspodjeli kao što su k-način i dizajnirali njegovu MapReduce implementaciju. Posebice smo, u svrhu predstavljanja prijenosa velikog broja podataka, predložili primjenu tehnike uzorkovanja. Zatim, koristeći k-način algoritam, predlažemo uobičajeni postupak grupiranja i opisujemo primjenu na temelju k-način algoritma. Nadalje, implementiramo predloženi okvir primjenom MapReduce modela programiranja. Eksperimenti pokazuju da je naša metoda učinkovita za prijenos velikog broja podataka.

Ključne riječi

MapReduce; prijenos velikog broja podataka; rupiranja utemeljenog na raspodjeli; uzorkovanje

Hrčak ID:

153152

URI

https://hrcak.srce.hr/153152

Datum izdavanja:

19.2.2016.

Podaci na drugim jezicima: engleski

Posjeta: 2.679 *