Model Markov Decision Process dalam RL

Markov Decision Process (MDP) adalah kerangka matematis yang digunakan untuk memodelkan masalah pengambilan keputusan dalam pembelajaran berpenguatan. Model ini memungkinkan agen untuk memformulasikan interaksi dengan lingkungan secara formal.

Definisi MDP

Markov Decision Process terdiri dari kumpulan state, aksi, fungsi transisi, dan fungsi reward. Agen memilih aksi berdasarkan state saat ini untuk memaksimalkan reward kumulatif.

Properti Markov

Properti Markov menyatakan bahwa probabilitas transisi ke state berikutnya hanya bergantung pada state dan aksi saat ini, bukan pada riwayat sebelumnya. Sifat ini memudahkan analisis dan pengembangan algoritma RL.

Solusi MDP

Solusi MDP biasanya dicari menggunakan value iteration atau policy iteration, yang bertujuan menemukan kebijakan optimal yang memaksimalkan expected reward.