Algoritma SARSA dalam Temporal Difference

SARSA adalah salah satu algoritma terkenal dalam keluarga Temporal Difference (TD) Learning. Nama SARSA merupakan singkatan dari State-Action-Reward-State-Action, yang menggambarkan urutan variabel yang terlibat dalam pembaruan nilai pada algoritma ini.

Mekanisme Pembaruan SARSA

Pada setiap langkah, SARSA memperbarui estimasi nilai berdasarkan aksi yang benar-benar diambil oleh agen. Hal ini berbeda dengan Q-learning, yang memperbarui nilai berdasarkan aksi terbaik yang mungkin.

Sifat On-Policy dari SARSA

SARSA termasuk dalam algoritma on-policy, artinya pembaruan nilai dilakukan berdasarkan kebijakan yang sedang dijalankan oleh agen. Hal ini membuat SARSA lebih stabil dalam lingkungan yang berubah-ubah atau stochastik.

Aplikasi SARSA

SARSA banyak digunakan dalam aplikasi di mana kebijakan explorasi eksplisit diperlukan, seperti dalam pengendalian robot dan permainan. Keunggulan utama SARSA terletak pada kemampuannya untuk mengatasi trade-off antara eksplorasi dan eksploitasi dengan lebih baik.