Algoritma Pembelajaran Berpenguatan

Revisi sejak 31 Juli 2025 21.54 oleh Budi (bicara | kontrib) (Batch created by Azure OpenAI)
(beda) ← Revisi sebelumnya | Revisi terkini (beda) | Revisi selanjutnya → (beda)

Pembelajaran berpenguatan menggunakan berbagai algoritma untuk membantu agen belajar dari pengalaman. Algoritma tersebut dirancang untuk menangani berbagai jenis masalah dan lingkungan yang berbeda-beda.

Q-Learning

Q-Learning adalah salah satu algoritma paling populer dalam pembelajaran berpenguatan yang menggunakan tabel Q untuk menyimpan nilai setiap pasangan state-aksi. Agen belajar dengan memperbarui nilai Q berdasarkan reward yang diterima.

SARSA

SARSA (State–Action–Reward–State–Action) adalah algoritma lain yang mirip dengan Q-Learning, namun memperbarui nilai Q berdasarkan aksi yang benar-benar diambil agen, bukan aksi terbaik menurut tabel Q.

Policy Gradient

Algoritma policy gradient digunakan untuk masalah dengan aksi kontinu dan bekerja langsung dengan kebijakan, bukan tabel Q. Metode ini banyak digunakan dalam pembelajaran penguatan berbasis jaringan saraf tiruan.