Pembelajaran penguatan
Tampilan
Pembelajaran penguatan adalah salah satu cabang utama dalam pembelajaran mesin yang berfokus pada pengambilan keputusan berurutan oleh agen untuk memaksimalkan fungsi ganjaran atau reward kumulatif. Metode ini banyak digunakan dalam pengembangan kecerdasan buatan untuk aplikasi seperti robotika, permainan komputer, dan sistem rekomendasi yang memerlukan interaksi berkelanjutan dengan lingkungan. Dalam kerangka pembelajaran penguatan, agen belajar melalui proses trial and error dengan memanfaatkan umpan balik dari lingkungan, dan teori ini memiliki dasar kuat dalam teori keputusan, statistika, serta proses stokastik.
1. Konsep dasar
- Agen (pembelajaran penguatan)
- Lingkungan (pembelajaran penguatan)
- Status (state)
- Aksi (action)
- Reward (ganjaran)
- Episode (pembelajaran penguatan)
- Kebijakan (policy)
- Nilai keadaan (state value)
- Nilai aksi (action value)
- Fungsi nilai (value function)
2. Model matematis
- Proses keputusan Markov
- Fungsi transisi keadaan
- Fungsi reward
- Diskonto (discount factor)
- Persamaan Bellman
- Gagal mengurai (fungsi tak dikenal "\middle"): {\displaystyle V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^{\infty} \gamma^t R_{t+1} \,\middle|\, S_0 = s \right]}
3. Algoritme pembelajaran penguatan
- Dynamic programming
- Monte Carlo methods
- Temporal difference learning
- Q-learning
- SARSA
- Deep Q-Network
- Policy gradient methods
- Actor–critic
- Proximal Policy Optimization
- Trust Region Policy Optimization
4. Eksplorasi dan eksploitasi
- Strategi epsilon-greedy
- Upper Confidence Bound
- Thompson sampling
- Softmax action selection
- Eksplorasi berbasis entropi
5. Pembelajaran penguatan dalam lingkungan kompleks
- Multi-agent reinforcement learning
- Hierarchical reinforcement learning
- Partially observable Markov decision process
- Model-based reinforcement learning
- Model-free reinforcement learning
6. Aplikasi
- Robotika otonom
- Permainan video
- Pengendalian adaptif
- Sistem rekomendasi
- Kendaraan otonom
- Optimisasi portofolio
- Manajemen energi pintar