Model Markov Decision Process dalam RL
Markov Decision Process (MDP) adalah kerangka matematis yang digunakan untuk memodelkan masalah pengambilan keputusan dalam pembelajaran berpenguatan. Model ini memungkinkan agen untuk memformulasikan interaksi dengan lingkungan secara formal.
Definisi MDP
Markov Decision Process terdiri dari kumpulan state, aksi, fungsi transisi, dan fungsi reward. Agen memilih aksi berdasarkan state saat ini untuk memaksimalkan reward kumulatif.
Properti Markov
Properti Markov menyatakan bahwa probabilitas transisi ke state berikutnya hanya bergantung pada state dan aksi saat ini, bukan pada riwayat sebelumnya. Sifat ini memudahkan analisis dan pengembangan algoritma RL.
Solusi MDP
Solusi MDP biasanya dicari menggunakan value iteration atau policy iteration, yang bertujuan menemukan kebijakan optimal yang memaksimalkan expected reward.