SARSA merupakan algoritma yang didasari oleh prinsip-prinsip matematika dalam teori keputusan Markov (Markov Decision Process, MDP). Proses pembaruan nilai dalam SARSA mengikuti persamaan tertentu yang memastikan agen belajar dari pengalaman secara efektif.
Fungsi Nilai Q
Fungsi utama dalam SARSA adalah Q(s,a), yang merepresentasikan nilai dari suatu pasangan keadaan dan aksi. Nilai ini diperbarui setiap kali agen melakukan aksi dan menerima hadiah dari lingkungan.
Rumus Pembaruan Q
Rumus pembaruan Q pada SARSA adalah: Q(s,a) ← Q(s,a) + α [r + γ Q(s',a') - Q(s,a)], di mana α adalah laju pembelajaran, γ adalah faktor diskonto, r adalah hadiah, dan s', a' adalah keadaan dan aksi berikutnya.
Optimisasi dan Konvergensi
Dengan rumus tersebut, SARSA menjamin konvergensi pada kebijakan optimal di bawah kondisi tertentu. Persamaan ini juga menjadi dasar bagi pengembangan algoritma pembelajaran nilai lainnya dalam kecerdasan buatan.