Persamaan Q-Learning

Persamaan Q-Learning adalah inti dari proses pembelajaran pada algoritma ini. Dengan menggunakan persamaan ini, agen dapat memperbarui estimasi nilai Q setiap kali mendapat pengalaman baru. Persamaan ini dikenal sebagai persamaan pembaruan Q.

Penjelasan Persamaan

Persamaan utama Q-Learning adalah Q(s, a) ← Q(s, a) + α [r + γ max Q(s’, a’) – Q(s, a)], di mana Q(s, a) adalah nilai Q untuk keadaan s dan aksi a, α adalah laju pembelajaran, γ adalah faktor diskonto masa depan, r adalah reward yang diterima, dan max Q(s’, a’) adalah nilai Q maksimal untuk aksi berikutnya di keadaan s’.

Parameter Penting

Setiap parameter dalam persamaan ini memiliki peran penting. Alpha menentukan seberapa besar nilai baru mempengaruhi nilai lama, gamma menentukan pentingnya reward di masa depan, dan reward sendiri merupakan insentif yang diterima agen. Pemilihan parameter yang tepat sangat berpengaruh pada kecepatan dan kualitas pembelajaran.

Implementasi dalam Algoritma

Dalam implementasinya, persamaan ini dievaluasi setiap kali agen melakukan aksi dan menerima reward. Nilai Q yang telah diperbarui kemudian digunakan untuk memilih aksi berikutnya, sehingga agen secara bertahap membangun kebijakan optimal dalam lingkungan tersebut.