Konsep On-policy pada SARSA

SARSA merupakan contoh utama algoritma on-policy dalam pembelajaran penguatan. Artinya, pembaruan nilai Q pada SARSA didasarkan pada aksi yang benar-benar diambil oleh agen sesuai dengan kebijakan saat ini.

Mekanisme On-policy

Pada SARSA, agen memilih aksi menggunakan kebijakan eksplorasi, misalnya epsilon-greedy. Setelah menerima hadiah dan berpindah ke keadaan berikutnya, agen kembali memilih aksi menggunakan kebijakan yang sama, dan nilai Q diperbarui berdasarkan pengalaman ini.

Konsekuensi On-policy dalam Pembelajaran

Pendekatan on-policy memastikan bahwa pembaruan nilai selalu konsisten dengan perilaku agen. Hal ini membuat SARSA lebih tahan terhadap lingkungan yang berisiko, karena agen belajar dari pengalaman nyata, bukan hanya dari kemungkinan aksi terbaik.

Perbandingan dengan Off-policy

Tidak seperti Q-learning yang off-policy, SARSA tidak selalu menemukan solusi optimal secara global, namun dapat memberikan kebijakan yang lebih stabil dan aman dalam lingkungan yang tidak pasti.