Cara Kerja Q-Learning

Q-Learning merupakan algoritma yang berbasis pada pengalaman langsung agen dalam lingkungan. Agen belajar dengan mengeksplorasi berbagai kemungkinan aksi pada setiap keadaan, kemudian memperbarui nilai Q berdasarkan hasil yang didapatkan. Proses ini berlangsung secara iteratif hingga agen memperoleh kebijakan optimal.

Pembaruan Nilai Q

Nilai Q diperbarui dengan persamaan Bellman, yaitu Q(s, a) ← Q(s, a) + α [r + γ max Q(s’, a’) – Q(s, a)]. Di sini, α adalah laju pembelajaran, γ adalah faktor diskonto, r adalah reward, dan max Q(s’, a’) adalah nilai Q tertinggi di keadaan berikutnya. Proses ini memastikan agen mampu belajar dari pengalaman masa lalu.

Eksplorasi vs Eksploitasi

Agen dihadapkan pada dilema antara eksplorasi (mencoba aksi baru) dan eksploitasi (menggunakan aksi terbaik yang telah diketahui). Salah satu strategi umum adalah epsilon-greedy, di mana agen memilih aksi acak dengan probabilitas ε, dan aksi terbaik dengan probabilitas 1-ε.

Konvergensi dan Kestabilan

Q-Learning terbukti konvergen pada kebijakan optimal di bawah syarat tertentu, seperti setiap pasangan keadaan-aksi dieksplorasi secara tak terbatas dan laju pembelajaran yang menurun secara tepat. Hal ini menjadikan Q-Learning pilihan utama pada berbagai aplikasi machine learning.