Kebijakan (Policy) dalam Reinforcement Learning

Kebijakan atau policy merupakan salah satu komponen terpenting dalam reinforcement learning. Policy menentukan tindakan yang harus diambil oleh agen dalam setiap keadaan tertentu untuk memperoleh reward maksimal.

Definisi Policy

Policy dapat berupa fungsi deterministik atau stokastik yang menghubungkan keadaan dengan aksi. Dalam bentuk matematis, policy biasanya dilambangkan dengan π(a|s), yang berarti probabilitas memilih aksi a ketika berada pada keadaan s.

Optimal Policy

Tujuan utama dari reinforcement learning adalah menemukan optimal policy, yaitu strategi yang menghasilkan reward kumulatif tertinggi untuk agen. Optimal policy dapat ditemukan melalui eksplorasi dan eksploitasi lingkungan secara berulang-ulang.

Implementasi Policy

Policy dapat diimplementasikan dalam bentuk tabel, fungsi nilai, atau bahkan menggunakan jaringan saraf tiruan untuk kasus dengan ruang keadaan yang sangat besar.