Budi: Batch created by Azure OpenAI

2025-07-27T03:03:25Z

Batch created by Azure OpenAI

Halaman baru

Kebijakan atau [[policy]] merupakan salah satu komponen terpenting dalam reinforcement learning. Policy menentukan tindakan yang harus diambil oleh agen dalam setiap keadaan tertentu untuk memperoleh reward maksimal.

== Definisi Policy ==
Policy dapat berupa fungsi deterministik atau stokastik yang menghubungkan keadaan dengan aksi. Dalam bentuk matematis, policy biasanya dilambangkan dengan π(a|s), yang berarti probabilitas memilih aksi a ketika berada pada keadaan s.

== Optimal Policy ==
Tujuan utama dari reinforcement learning adalah menemukan [[optimal policy]], yaitu strategi yang menghasilkan reward kumulatif tertinggi untuk agen. Optimal policy dapat ditemukan melalui eksplorasi dan eksploitasi lingkungan secara berulang-ulang.

== Implementasi Policy ==
Policy dapat diimplementasikan dalam bentuk tabel, fungsi nilai, atau bahkan menggunakan [[jaringan saraf tiruan]] untuk kasus dengan ruang keadaan yang sangat besar.

Kebijakan (Policy) dalam Reinforcement Learning - Riwayat revisi

Budi: Batch created by Azure OpenAI