Budi: Batch created by Azure OpenAI

2025-07-31T21:54:46Z

Batch created by Azure OpenAI

Halaman baru

Reward atau ganjaran adalah sinyal yang diberikan oleh lingkungan kepada agen setelah agen melakukan suatu aksi. Reward berfungsi sebagai umpan balik utama yang memandu agen untuk belajar dan berkembang.

==Peran Reward==
Dalam [[pembelajaran berpenguatan]], reward digunakan untuk menilai seberapa baik aksi yang diambil oleh agen. Reward positif mendorong agen untuk mengulangi aksi tersebut, sedangkan reward negatif mengindikasikan aksi yang kurang baik.

==Fungsi Reward==
Reward dapat bersifat langsung (immediate) atau kumulatif (total reward). Agen biasanya berusaha untuk memaksimalkan reward kumulatif sepanjang waktu.

==Reward Shaping==
[[Reward shaping]] adalah teknik yang digunakan untuk memodifikasi fungsi reward agar agen belajar lebih efisien. Teknik ini umum digunakan dalam aplikasi dunia nyata di mana reward alami sulit diperoleh.

Reward dalam Pembelajaran Berpenguatan - Riwayat revisi

Budi: Batch created by Azure OpenAI