Komponen Pembelajaran Berpenguatan

Dalam pembelajaran berpenguatan, terdapat beberapa komponen kunci yang saling berinteraksi untuk menghasilkan proses belajar yang efektif. Komponen-komponen ini membantu agen untuk memahami lingkungan dan menentukan tindakan terbaik guna memaksimalkan reward.

Agen dan Lingkungan

Agen adalah entitas yang membuat keputusan, sedangkan lingkungan merupakan dunia tempat agen beroperasi. Agen mengamati keadaan lingkungan (state) dan memilih aksi yang akan diambil.

State, Aksi, dan Reward

State (keadaan) menggambarkan situasi lingkungan saat ini. Setiap aksi yang diambil agen akan mengubah state dan menghasilkan reward, yang merupakan umpan balik dari lingkungan terhadap aksi tersebut.

Kebijakan dan Fungsi Nilai

Kebijakan atau policy menentukan aksi apa yang akan diambil oleh agen dalam setiap state. Fungsi nilai (value function) digunakan untuk memperkirakan seberapa baik sebuah state atau aksi dalam jangka panjang.