Budi: Batch created by Azure OpenAI

2025-07-31T21:54:45Z

Batch created by Azure OpenAI

Halaman baru

Pembelajaran berpenguatan menggunakan berbagai algoritma untuk membantu agen belajar dari pengalaman. Algoritma tersebut dirancang untuk menangani berbagai jenis masalah dan lingkungan yang berbeda-beda.

==Q-Learning==
[[Q-Learning]] adalah salah satu algoritma paling populer dalam pembelajaran berpenguatan yang menggunakan tabel Q untuk menyimpan nilai setiap pasangan state-aksi. Agen belajar dengan memperbarui nilai Q berdasarkan reward yang diterima.

==SARSA==
[[SARSA]] (State–Action–Reward–State–Action) adalah algoritma lain yang mirip dengan Q-Learning, namun memperbarui nilai Q berdasarkan aksi yang benar-benar diambil agen, bukan aksi terbaik menurut tabel Q.

==Policy Gradient==
Algoritma [[policy gradient]] digunakan untuk masalah dengan aksi kontinu dan bekerja langsung dengan kebijakan, bukan tabel Q. Metode ini banyak digunakan dalam pembelajaran penguatan berbasis [[jaringan saraf tiruan]].

Algoritma Pembelajaran Berpenguatan - Riwayat revisi

Budi: Batch created by Azure OpenAI