Tehnički vjesnik, Vol. 19 No. 3, 2012.
Izvorni znanstveni članak
Q-učenje prema stanju n-tog koraka i dogovaranjem više agenata u nepoznatom okruženju
Josip Job
; Faculty of Electrical Engineering, J. J. Strossmayer University of Osijek, Cara Hadrijana bb, 31000 Osijek, Croatia
Franjo Jović
; Faculty of Electrical Engineering, J. J. Strossmayer University of Osijek, Cara Hadrijana bb, 31000 Osijek, Croatia
Časlav Livada
; Faculty of Electrical Engineering, J. J. Strossmayer University of Osijek, Cara Hadrijana bb, 31000 Osijek, Croatia
Sažetak
U ovom radu je predstavljen novi postupak Q-učenja kod kojega agent odluku o sljedećoj akciji donosi na osnovu korisnosti nekog budućeg stanja, a ne na osnovu trenutno optimalne akcije. Implementirana je komunikacija agenata u okolini koji si međusobno javljaju svoje buduće akcije što doprinosi kvalitetnijem odabiru akcija pojedinog agenta. Nova metoda nazvana je Q-učenje prema stanju n-tog koraka i dogovaranjem više agenata. Uspoređeni su rezultati testiranja ovdje predstavljenog algoritma s osnovnim QL algoritmom što je i grafički prikazano te su navedene prednosti novog algoritma. Postignuto je prosječno smanjenje od 40 % sudara tijekom postupka učenja.
Ključne riječi
agent; pojačano učenje; q-učenje; učenje iz nagrade i kazne
Hrčak ID:
86725
URI
Datum izdavanja:
19.9.2012.
Posjeta: 2.707 *