Lompat ke isi

Kebijakan dalam Pembelajaran Berpenguatan

Dari Wiki Berbudi

Kebijakan (policy) merupakan elemen kunci dalam pembelajaran berpenguatan yang mendefinisikan bagaimana agen bertindak dalam setiap state. Kebijakan dapat berupa aturan sederhana atau model kompleks yang dioptimalkan selama proses pembelajaran.

Definisi Kebijakan

Dalam konteks pembelajaran berpenguatan, kebijakan adalah pemetaan dari state ke aksi. Agen menggunakan kebijakan untuk menentukan aksi mana yang harus diambil dalam situasi tertentu.

Kebijakan Deterministik dan Stokastik

Kebijakan dapat bersifat deterministik, di mana aksi tertentu selalu diambil untuk state tertentu, atau stokastik, di mana aksi dipilih secara probabilistik berdasarkan distribusi tertentu.

Optimasi Kebijakan

Proses optimasi kebijakan bertujuan untuk menemukan kebijakan terbaik yang memaksimalkan expected reward jangka panjang. Metode optimasi meliputi policy iteration, value iteration, dan policy gradient.