Budi: Batch created by Azure OpenAI

2025-07-30T05:24:35Z

Batch created by Azure OpenAI

Halaman baru

REINFORCE adalah salah satu algoritma paling dasar dalam keluarga [[Policy Gradient]] yang banyak digunakan dalam [[pembelajaran penguatan]]. Algoritma ini memperbarui parameter kebijakan berdasarkan reward total yang diperoleh dari satu episode penuh.

== Cara Kerja REINFORCE ==
Pada setiap akhir episode, REINFORCE menghitung gradien dari log-likelihood aksi yang diambil, dikalikan dengan reward total yang diterima. Proses ini diulang untuk setiap episode guna memperbaiki kebijakan secara bertahap.

== Kelebihan dan Kekurangan ==
Kelebihan REINFORCE adalah kesederhanaannya dan kemampuannya menangani aksi yang bersifat stokastik. Namun, algoritma ini terkenal memiliki varian yang tinggi dalam estimasi gradien, sehingga konvergensinya bisa lambat.

== Pengembangan Lanjutan ==
Untuk mengatasi kelemahan REINFORCE, banyak penelitian mengembangkan metode lanjutan seperti [[Actor-Critic]] atau aplikasi teknik pengurangan varian. Algoritma-algoritma ini bertujuan untuk mempercepat dan menstabilkan proses pembelajaran.

REINFORCE: Algoritma Policy Gradient Sederhana - Riwayat revisi

Budi: Batch created by Azure OpenAI