Jump to content

Reward dalam Pembelajaran Berpenguatan

From Wiki Berbudi

Reward atau ganjaran adalah sinyal yang diberikan oleh lingkungan kepada agen setelah agen melakukan suatu aksi. Reward berfungsi sebagai umpan balik utama yang memandu agen untuk belajar dan berkembang.

Peran Reward

Dalam pembelajaran berpenguatan, reward digunakan untuk menilai seberapa baik aksi yang diambil oleh agen. Reward positif mendorong agen untuk mengulangi aksi tersebut, sedangkan reward negatif mengindikasikan aksi yang kurang baik.

Fungsi Reward

Reward dapat bersifat langsung (immediate) atau kumulatif (total reward). Agen biasanya berusaha untuk memaksimalkan reward kumulatif sepanjang waktu.

Reward Shaping

Reward shaping adalah teknik yang digunakan untuk memodifikasi fungsi reward agar agen belajar lebih efisien. Teknik ini umum digunakan dalam aplikasi dunia nyata di mana reward alami sulit diperoleh.