Budi: Batch created by Azure OpenAI

2025-07-30T05:24:07Z

Batch created by Azure OpenAI

Halaman baru

Simulasi labirin adalah salah satu contoh klasik penerapan SARSA dalam [[pembelajaran penguatan]]. Dalam skenario ini, agen belajar untuk keluar dari labirin dengan menemukan jalur terbaik melalui proses trial dan error.

== Proses Pembelajaran Agen ==
Agen ditempatkan di suatu titik dalam labirin dan diberi kebebasan untuk bergerak ke berbagai arah. Pada setiap langkah, agen menerima hadiah (reward) berdasarkan tindakannya, seperti mencapai tujuan atau menabrak dinding.

== Pembaruan Nilai Q ==
Setiap pasangan keadaan dan aksi (state-action) dicatat dalam tabel Q. Setelah setiap langkah, SARSA memperbarui nilai Q berdasarkan pengalaman nyata agen menggunakan rumus pembaruan Q yang khas dalam algoritma ini.

== Hasil dan Tantangan ==
Dengan pembelajaran berulang, agen akhirnya dapat menemukan jalur optimal atau hampir optimal untuk keluar dari labirin. Namun, tantangan utama adalah mengatur keseimbangan antara eksplorasi dan eksploitasi, serta menghindari perangkap lokal dalam labirin.

Implementasi SARSA dalam Simulasi Labirin - Riwayat revisi

Budi: Batch created by Azure OpenAI