SARSA adalah salah satu algoritma dalam pembelajaran penguatan (reinforcement learning) yang digunakan untuk menentukan kebijakan optimal dalam suatu lingkungan. Nama SARSA merupakan singkatan dari lima elemen utama yang terlibat dalam proses pembelajaran ini, yaitu State-Action-Reward-State-Action. Algoritma ini bekerja berdasarkan pengalaman yang didapat oleh agen dari interaksinya dengan lingkungan.

Komponen SARSA

Algoritma SARSA melibatkan lima komponen utama, yaitu keadaan (state), aksi (action), hadiah (reward), keadaan berikutnya (next state), dan aksi berikutnya (next action). Agen memilih aksi berdasarkan kebijakan tertentu, menerima hadiah dari lingkungan, lalu memperbarui nilainya berdasarkan pengalaman tersebut.

Proses Pembaruan Nilai

Pada setiap langkah, agen SARSA memperbarui nilai Q-state-action dengan mempertimbangkan aksi yang benar-benar diambil pada keadaan berikutnya. Proses ini berbeda dengan metode lain seperti Q-learning yang menggunakan aksi optimal secara teoritis.

Perbandingan dengan Algoritma Lain

SARSA sering dibandingkan dengan Q-learning karena keduanya merupakan algoritma pembelajaran nilai (value-based learning). Namun, SARSA bersifat on-policy karena pembaruan nilainya didasarkan pada kebijakan yang sedang dijalankan agen saat itu.