Algoritma Pembelajaran Berpenguatan
Pembelajaran berpenguatan menggunakan berbagai algoritma untuk membantu agen belajar dari pengalaman. Algoritma tersebut dirancang untuk menangani berbagai jenis masalah dan lingkungan yang berbeda-beda.
Q-Learning
Q-Learning adalah salah satu algoritma paling populer dalam pembelajaran berpenguatan yang menggunakan tabel Q untuk menyimpan nilai setiap pasangan state-aksi. Agen belajar dengan memperbarui nilai Q berdasarkan reward yang diterima.
SARSA
SARSA (State–Action–Reward–State–Action) adalah algoritma lain yang mirip dengan Q-Learning, namun memperbarui nilai Q berdasarkan aksi yang benar-benar diambil agen, bukan aksi terbaik menurut tabel Q.
Policy Gradient
Algoritma policy gradient digunakan untuk masalah dengan aksi kontinu dan bekerja langsung dengan kebijakan, bukan tabel Q. Metode ini banyak digunakan dalam pembelajaran penguatan berbasis jaringan saraf tiruan.