Budi: Batch created by Azure OpenAI

2025-07-27T03:03:25Z

Batch created by Azure OpenAI

Halaman baru

Dalam reinforcement learning, reward dan value function merupakan dua konsep penting yang membantu agen dalam proses pembelajaran. Keduanya berperan dalam mengevaluasi tindakan dan menentukan strategi yang optimal.

== Reward ==
[[Reward]] adalah umpan balik langsung yang diterima agen setelah mengambil suatu aksi dalam lingkungan. Reward dapat bersifat positif atau negatif, dan bertujuan untuk membimbing agen dalam memilih tindakan yang menguntungkan.

== Value Function ==
[[Value function]] digunakan untuk memperkirakan seberapa baik suatu keadaan atau aksi dalam jangka panjang. Ada dua jenis utama yaitu state-value function dan action-value function. State-value function menilai nilai suatu keadaan, sedangkan action-value function menilai nilai dari kombinasi keadaan dan aksi.

== Hubungan Reward dan Value Function ==
Value function membantu agen memperhitungkan konsekuensi jangka panjang dari suatu tindakan, bukan hanya reward langsung. Dengan demikian, agen dapat mengejar strategi yang tidak hanya memberikan reward instan tetapi juga optimal dalam jangka panjang.

Reward dan Value Function dalam Reinforcement Learning - Riwayat revisi

Budi: Batch created by Azure OpenAI