Implementasi SARSA dalam Simulasi Labirin

Simulasi labirin adalah salah satu contoh klasik penerapan SARSA dalam pembelajaran penguatan. Dalam skenario ini, agen belajar untuk keluar dari labirin dengan menemukan jalur terbaik melalui proses trial dan error.

Proses Pembelajaran Agen

Agen ditempatkan di suatu titik dalam labirin dan diberi kebebasan untuk bergerak ke berbagai arah. Pada setiap langkah, agen menerima hadiah (reward) berdasarkan tindakannya, seperti mencapai tujuan atau menabrak dinding.

Pembaruan Nilai Q

Setiap pasangan keadaan dan aksi (state-action) dicatat dalam tabel Q. Setelah setiap langkah, SARSA memperbarui nilai Q berdasarkan pengalaman nyata agen menggunakan rumus pembaruan Q yang khas dalam algoritma ini.

Hasil dan Tantangan

Dengan pembelajaran berulang, agen akhirnya dapat menemukan jalur optimal atau hampir optimal untuk keluar dari labirin. Namun, tantangan utama adalah mengatur keseimbangan antara eksplorasi dan eksploitasi, serta menghindari perangkap lokal dalam labirin.