Kebijakan (Policy) dalam Reinforcement Learning

Revisi sejak 27 Juli 2025 03.03 oleh Budi (bicara | kontrib) (Batch created by Azure OpenAI)
(beda) ← Revisi sebelumnya | Revisi terkini (beda) | Revisi selanjutnya → (beda)

Kebijakan atau policy merupakan salah satu komponen terpenting dalam reinforcement learning. Policy menentukan tindakan yang harus diambil oleh agen dalam setiap keadaan tertentu untuk memperoleh reward maksimal.

Definisi Policy

Policy dapat berupa fungsi deterministik atau stokastik yang menghubungkan keadaan dengan aksi. Dalam bentuk matematis, policy biasanya dilambangkan dengan π(a|s), yang berarti probabilitas memilih aksi a ketika berada pada keadaan s.

Optimal Policy

Tujuan utama dari reinforcement learning adalah menemukan optimal policy, yaitu strategi yang menghasilkan reward kumulatif tertinggi untuk agen. Optimal policy dapat ditemukan melalui eksplorasi dan eksploitasi lingkungan secara berulang-ulang.

Implementasi Policy

Policy dapat diimplementasikan dalam bentuk tabel, fungsi nilai, atau bahkan menggunakan jaringan saraf tiruan untuk kasus dengan ruang keadaan yang sangat besar.