A Novel Oversampling Method for Imbalanced Datasets Based on Density Peaks Clustering

Cao*, Jie; Shi, Yong

doi:10.17559/TV-20210608123522

Tehnički vjesnik, Vol. 28 No. 6, 2021.

Izvorni znanstveni članak

https://doi.org/10.17559/TV-20210608123522

A Novel Oversampling Method for Imbalanced Datasets Based on Density Peaks Clustering

Jie Cao* ; Nanjing University of Information Science & Technology, No. 219, Ningliu Road, Nanjing, Jiangsu, China; Xuzhou University of Technology, No. 2 Lishui Road, Xuzhou, Jiangsu, China
Yong Shi ; Nanjing University of Information Science & Technology, School of Mathematics and Statistics, No. 219, Ningliu Road, Nanjing, Jiangsu, China

Puni tekst: engleski pdf 1.199 Kb

str. 1813-1819

preuzimanja: 647

citiraj

APA 6th Edition

Cao*, J. i Shi, Y. (2021). A Novel Oversampling Method for Imbalanced Datasets Based on Density Peaks Clustering. Tehnički vjesnik, 28 (6), 1813-1819. https://doi.org/10.17559/TV-20210608123522

MLA 8th Edition

Cao*, Jie i Yong Shi. "A Novel Oversampling Method for Imbalanced Datasets Based on Density Peaks Clustering." Tehnički vjesnik, vol. 28, br. 6, 2021, str. 1813-1819. https://doi.org/10.17559/TV-20210608123522. Citirano 22.12.2024.

Chicago 17th Edition

Cao*, Jie i Yong Shi. "A Novel Oversampling Method for Imbalanced Datasets Based on Density Peaks Clustering." Tehnički vjesnik 28, br. 6 (2021): 1813-1819. https://doi.org/10.17559/TV-20210608123522

Harvard

Cao*, J., i Shi, Y. (2021). 'A Novel Oversampling Method for Imbalanced Datasets Based on Density Peaks Clustering', Tehnički vjesnik, 28(6), str. 1813-1819. https://doi.org/10.17559/TV-20210608123522

Vancouver

Cao* J, Shi Y. A Novel Oversampling Method for Imbalanced Datasets Based on Density Peaks Clustering. Tehnički vjesnik [Internet]. 2021 [pristupljeno 22.12.2024.];28(6):1813-1819. https://doi.org/10.17559/TV-20210608123522

IEEE

J. Cao* i Y. Shi, "A Novel Oversampling Method for Imbalanced Datasets Based on Density Peaks Clustering", Tehnički vjesnik, vol.28, br. 6, str. 1813-1819, 2021. [Online]. https://doi.org/10.17559/TV-20210608123522

Sažetak

Imbalanced data classification is a major challenge in the field of data mining and machine learning, and oversampling algorithms are a widespread technique for re-sampling imbalanced data. To address the problems that existing oversampling methods tend to introduce noise points and generate overlapping instances, in this paper, we propose a novel oversampling method based on density peaks clustering. Firstly, density peaks clustering algorithm is used to cluster minority instances while screening outlier points. Secondly, sampling weights are assigned according to the size of clustered sub-clusters, and new instances are synthesized by interpolating between cluster cores and other instances of the same sub-cluster. Finally, comparative experiments are conducted on both the artificial data and KEEL datasets. The experiments validate the feasibility and effectiveness of the algorithm and improve the classification accuracy of the imbalanced data.

Ključne riječi

classification; density peaks clustering; imbalanced datasets; over sampling

Hrčak ID:

264036

URI

https://hrcak.srce.hr/264036

Datum izdavanja:

7.11.2021.

Posjeta: 1.469 *

Prijava i registracija

Tehnički vjesnik, Vol. 28 No. 6, 2021.

Sažetak

Ključne riječi

Hrčak ID:

URI

Datum izdavanja: