Reinforcement learning-driven continuous maneuvering decision system for maritime collision prevention using proximal deterministic policy gradient

Yang, Xiao; Wang, Chunlei; Zhou, Lei; Wang, Haiyan; Wang, Fengying

doi:10.21278/brod77316

Brodogradnja : An International Journal of Naval Architecture and Ocean Engineering for Research and Development, Vol. 77 No. 3, 2026.

Izvorni znanstveni članak

Reinforcement learning-driven continuous maneuvering decision system for maritime collision prevention using proximal deterministic policy gradient

Xiao Yang ; School of Information and Engineering, Suqian University, Huanghe Road, 23800, Suqian City, Jiangsu Province, China
Chunlei Wang ; School of Information and Engineering, Suqian University, Huanghe Road, 23800, Suqian City, Jiangsu Province, China *
Lei Zhou ; Jiangsu Province Engineering Research Center of Smart Poultry Farming and Intelligent Equipment, Suqian University, Huanghe Road, 23800, Suqian City, Jiangsu Province, China
Haiyan Wang ; Jiangsu Province Engineering Research Center of Smart Poultry Farming and Intelligent Equipment, Suqian University, Huanghe Road, 23800, Suqian City, Jiangsu Province, China
Fengying Wang ; Jiangsu Province Engineering Research Center of Smart Poultry Farming and Intelligent Equipment, Suqian University, Huanghe Road, 23800, Suqian City, Jiangsu Province, China

* Dopisni autor.

Puni tekst: engleski pdf 893 Kb

str. 1-23

preuzimanja: 282

citiraj

APA 6th Edition

Yang, X., Wang, C., Zhou, L., Wang, H. i Wang, F. (2026). Reinforcement learning-driven continuous maneuvering decision system for maritime collision prevention using proximal deterministic policy gradient. Brodogradnja, 77 (3), 1-23. https://doi.org/10.21278/brod77316

MLA 8th Edition

Yang, Xiao, et al. "Reinforcement learning-driven continuous maneuvering decision system for maritime collision prevention using proximal deterministic policy gradient." Brodogradnja, vol. 77, br. 3, 2026, str. 1-23. https://doi.org/10.21278/brod77316. Citirano 22.07.2026.

Chicago 17th Edition

Yang, Xiao, Chunlei Wang, Lei Zhou, Haiyan Wang i Fengying Wang. "Reinforcement learning-driven continuous maneuvering decision system for maritime collision prevention using proximal deterministic policy gradient." Brodogradnja 77, br. 3 (2026): 1-23. https://doi.org/10.21278/brod77316

Harvard

Yang, X., et al. (2026). 'Reinforcement learning-driven continuous maneuvering decision system for maritime collision prevention using proximal deterministic policy gradient', Brodogradnja, 77(3), str. 1-23. https://doi.org/10.21278/brod77316

Vancouver

Yang X, Wang C, Zhou L, Wang H, Wang F. Reinforcement learning-driven continuous maneuvering decision system for maritime collision prevention using proximal deterministic policy gradient. Brodogradnja [Internet]. 2026 [pristupljeno 22.07.2026.];77(3):1-23. https://doi.org/10.21278/brod77316

IEEE

X. Yang, C. Wang, L. Zhou, H. Wang i F. Wang, "Reinforcement learning-driven continuous maneuvering decision system for maritime collision prevention using proximal deterministic policy gradient", Brodogradnja, vol.77, br. 3, str. 1-23, 2026. [Online]. https://doi.org/10.21278/brod77316

Sažetak

Continuous ship steering control is a highly nonlinear and complex task, as it is subject to wave and wind disturbances. It is also crucial for timely obstacle avoidance and effective vessel maneuvering. Reinforcement learning (RL) combined with deep neural networks (DNNs) has demonstrated significant potential in controlling systems with nonlinear dynamics, making it well-suited for decision-making and planning in such complex scenarios. However, existing research struggles to ensure optimal control performance. To address this limitation, this paper proposes an improved deep reinforcement learning approach based on the Pathwise Derivative Policy Gradient (PDPG) algorithm to enable intelligent collision avoidance for continuous ship steering. The proposed method leverages the MMG model as the foundation for learning a steering control strategy using DNNs, comprehensively considers various control actions, and evaluates steering performance through a dedicated evaluation network. To enhance the policy network’s representational capacity and balance exploration and exploitation, the PDPG algorithm’s policy network structure is optimized. Additionally, an adaptive exploration rate and a dynamic balancing algorithm for random strategies are introduced to fine-tune the exploration-exploitation trade-off. The improved method’s performance is verified through simulations of continuous ship steering control.

Ključne riječi

Continuous ship steering control; deep reinforcement learning; Pathwise Derivative Policy Gradient; MMG model; policy network

Hrčak ID:

345657

URI

https://hrcak.srce.hr/345657

Datum izdavanja:

1.7.2026.

Posjeta: 561 *

Prijava i registracija

Brodogradnja : An International Journal of Naval Architecture and Ocean Engineering for Research and Development, Vol. 77 No. 3, 2026.

Sažetak

Ključne riječi

Hrčak ID:

URI

Datum izdavanja: