Q-Learning vs SARSA

Q-Learning dan SARSA adalah dua algoritma populer dalam pembelajaran penguatan. Keduanya digunakan untuk menemukan kebijakan optimal, namun memiliki perbedaan mendasar dalam cara memperbarui nilai Q dan memilih aksi yang akan diambil oleh agen.

Perbedaan Utama

Q-Learning dikenal sebagai off-policy, yaitu memperbarui nilai Q berdasarkan aksi terbaik yang bisa diambil pada langkah berikutnya, tanpa memperhatikan aksi yang benar-benar diambil. Sebaliknya, SARSA adalah on-policy, memperbarui nilai Q berdasarkan aksi aktual yang diambil oleh agen.

Keunggulan Q-Learning

Q-Learning cenderung lebih agresif dalam mencari kebijakan optimal, karena selalu mengasumsikan agen akan memilih aksi terbaik selanjutnya. Hal ini membuat Q-Learning lebih cepat menemukan kebijakan optimal di lingkungan yang deterministik.

Kapan Menggunakan SARSA

SARSA sering digunakan ketika lingkungan bersifat stochastik atau ketika eksplorasi berisiko tinggi. Dalam kasus ini, pembaruan berbasis aksi aktual membuat pembelajaran lebih stabil dan aman bagi agen.