Q-learning: Pendekatan Off-Policy dalam TD Learning
Q-learning adalah salah satu algoritma paling populer dalam reinforcement learning dan merupakan contoh utama dari pendekatan off-policy dalam Temporal Difference (TD) Learning. Algoritma ini bertujuan untuk menemukan kebijakan optimal dengan memperbarui nilai Q untuk setiap pasangan state-aksi.
Prinsip Dasar Q-learning
Pada setiap langkah, Q-learning memperbarui nilai Q berdasarkan aksi terbaik yang tersedia dari state berikutnya, terlepas dari aksi yang benar-benar diambil oleh agen. Pendekatan ini memungkinkan Q-learning untuk belajar kebijakan optimal bahkan jika agen tidak selalu mengikuti kebijakan tersebut selama pelatihan.
Kelebihan Q-learning
Kelebihan utama Q-learning adalah kemampuannya untuk belajar secara efektif dalam lingkungan yang bersifat dinamis dan tidak pasti. Selain itu, Q-learning dapat digunakan pada berbagai jenis lingkungan, baik diskret maupun kontinu.
Perbandingan dengan SARSA
Berbeda dengan SARSA yang bersifat on-policy, Q-learning lebih agresif dalam mengejar reward optimal. Namun, pendekatan off-policy ini juga membawa risiko eksplorasi yang kurang stabil terutama pada lingkungan yang sangat stochastik.