Kebijakan (Policy) dalam Reinforcement Learning
Kebijakan atau policy merupakan salah satu komponen terpenting dalam reinforcement learning. Policy menentukan tindakan yang harus diambil oleh agen dalam setiap keadaan tertentu untuk memperoleh reward maksimal.
Definisi Policy
Policy dapat berupa fungsi deterministik atau stokastik yang menghubungkan keadaan dengan aksi. Dalam bentuk matematis, policy biasanya dilambangkan dengan π(a|s), yang berarti probabilitas memilih aksi a ketika berada pada keadaan s.
Optimal Policy
Tujuan utama dari reinforcement learning adalah menemukan optimal policy, yaitu strategi yang menghasilkan reward kumulatif tertinggi untuk agen. Optimal policy dapat ditemukan melalui eksplorasi dan eksploitasi lingkungan secara berulang-ulang.
Implementasi Policy
Policy dapat diimplementasikan dalam bentuk tabel, fungsi nilai, atau bahkan menggunakan jaringan saraf tiruan untuk kasus dengan ruang keadaan yang sangat besar.