Budi: Batch created by Azure OpenAI

2025-07-30T05:24:05Z

Batch created by Azure OpenAI

Halaman baru

SARSA adalah salah satu algoritma dalam [[pembelajaran penguatan]] (reinforcement learning) yang digunakan untuk menentukan kebijakan optimal dalam suatu lingkungan. Nama SARSA merupakan singkatan dari lima elemen utama yang terlibat dalam proses pembelajaran ini, yaitu State-Action-Reward-State-Action. Algoritma ini bekerja berdasarkan pengalaman yang didapat oleh agen dari interaksinya dengan lingkungan.

== Komponen SARSA ==
Algoritma SARSA melibatkan lima komponen utama, yaitu keadaan (state), aksi (action), hadiah (reward), keadaan berikutnya (next state), dan aksi berikutnya (next action). Agen memilih aksi berdasarkan kebijakan tertentu, menerima hadiah dari lingkungan, lalu memperbarui nilainya berdasarkan pengalaman tersebut.

== Proses Pembaruan Nilai ==
Pada setiap langkah, agen SARSA memperbarui nilai Q-state-action dengan mempertimbangkan aksi yang benar-benar diambil pada keadaan berikutnya. Proses ini berbeda dengan metode lain seperti Q-learning yang menggunakan aksi optimal secara teoritis.

== Perbandingan dengan Algoritma Lain ==
SARSA sering dibandingkan dengan [[Q-learning]] karena keduanya merupakan algoritma pembelajaran nilai (value-based learning). Namun, SARSA bersifat on-policy karena pembaruan nilainya didasarkan pada kebijakan yang sedang dijalankan agen saat itu.

Pengertian Algoritma SARSA - Riwayat revisi

Budi: Batch created by Azure OpenAI