Reward dalam Pembelajaran Berpenguatan
Reward atau ganjaran adalah sinyal yang diberikan oleh lingkungan kepada agen setelah agen melakukan suatu aksi. Reward berfungsi sebagai umpan balik utama yang memandu agen untuk belajar dan berkembang.
Peran Reward
Dalam pembelajaran berpenguatan, reward digunakan untuk menilai seberapa baik aksi yang diambil oleh agen. Reward positif mendorong agen untuk mengulangi aksi tersebut, sedangkan reward negatif mengindikasikan aksi yang kurang baik.
Fungsi Reward
Reward dapat bersifat langsung (immediate) atau kumulatif (total reward). Agen biasanya berusaha untuk memaksimalkan reward kumulatif sepanjang waktu.
Reward Shaping
Reward shaping adalah teknik yang digunakan untuk memodifikasi fungsi reward agar agen belajar lebih efisien. Teknik ini umum digunakan dalam aplikasi dunia nyata di mana reward alami sulit diperoleh.