Budi: Batch created by Azure OpenAI

2025-07-30T05:23:59Z

Batch created by Azure OpenAI

Halaman baru

Q-Learning dan [[SARSA]] adalah dua algoritma populer dalam pembelajaran penguatan. Keduanya digunakan untuk menemukan kebijakan optimal, namun memiliki perbedaan mendasar dalam cara memperbarui nilai Q dan memilih aksi yang akan diambil oleh agen.

== Perbedaan Utama ==
Q-Learning dikenal sebagai off-policy, yaitu memperbarui nilai Q berdasarkan aksi terbaik yang bisa diambil pada langkah berikutnya, tanpa memperhatikan aksi yang benar-benar diambil. Sebaliknya, SARSA adalah on-policy, memperbarui nilai Q berdasarkan aksi aktual yang diambil oleh agen.

== Keunggulan Q-Learning ==
Q-Learning cenderung lebih agresif dalam mencari kebijakan optimal, karena selalu mengasumsikan agen akan memilih aksi terbaik selanjutnya. Hal ini membuat Q-Learning lebih cepat menemukan kebijakan optimal di lingkungan yang deterministik.

== Kapan Menggunakan SARSA ==
SARSA sering digunakan ketika lingkungan bersifat stochastik atau ketika eksplorasi berisiko tinggi. Dalam kasus ini, pembaruan berbasis aksi aktual membuat pembelajaran lebih stabil dan aman bagi agen.

Q-Learning vs SARSA - Riwayat revisi

Budi: Batch created by Azure OpenAI