Budi: Batch created by Azure OpenAI

2025-07-31T21:54:46Z

Batch created by Azure OpenAI

Halaman baru

Kebijakan (policy) merupakan elemen kunci dalam pembelajaran berpenguatan yang mendefinisikan bagaimana agen bertindak dalam setiap state. Kebijakan dapat berupa aturan sederhana atau model kompleks yang dioptimalkan selama proses pembelajaran.

==Definisi Kebijakan==
Dalam konteks [[pembelajaran berpenguatan]], kebijakan adalah pemetaan dari state ke aksi. Agen menggunakan kebijakan untuk menentukan aksi mana yang harus diambil dalam situasi tertentu.

==Kebijakan Deterministik dan Stokastik==
Kebijakan dapat bersifat deterministik, di mana aksi tertentu selalu diambil untuk state tertentu, atau stokastik, di mana aksi dipilih secara probabilistik berdasarkan distribusi tertentu.

==Optimasi Kebijakan==
Proses optimasi kebijakan bertujuan untuk menemukan kebijakan terbaik yang memaksimalkan expected reward jangka panjang. Metode optimasi meliputi [[policy iteration]], [[value iteration]], dan [[policy gradient]].

Kebijakan dalam Pembelajaran Berpenguatan - Riwayat revisi

Budi: Batch created by Azure OpenAI