Pembelajaran penguatan

Dari Wiki Berbudi

Pembelajaran penguatan adalah salah satu cabang utama dalam pembelajaran mesin yang berfokus pada pengambilan keputusan berurutan oleh agen untuk memaksimalkan fungsi ganjaran atau reward kumulatif. Metode ini banyak digunakan dalam pengembangan kecerdasan buatan untuk aplikasi seperti robotika, permainan komputer, dan sistem rekomendasi yang memerlukan interaksi berkelanjutan dengan lingkungan. Dalam kerangka pembelajaran penguatan, agen belajar melalui proses trial and error dengan memanfaatkan umpan balik dari lingkungan, dan teori ini memiliki dasar kuat dalam teori keputusan, statistika, serta proses stokastik.

1. Konsep dasar

2. Model matematis

Proses keputusan Markov
Fungsi transisi keadaan
Fungsi reward
Diskonto (discount factor)
Persamaan Bellman
Gagal mengurai (fungsi tak dikenal "\middle"): {\displaystyle V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \,\middle|\, S_0 = s \right]}

3. Algoritme pembelajaran penguatan

4. Eksplorasi dan eksploitasi

5. Pembelajaran penguatan dalam lingkungan kompleks

6. Aplikasi

7. Tantangan dan penelitian terkini

Diperoleh dari "https://inibudi.or.id/wiki/index.php?title=Pembelajaran_penguatan&oldid=22507"