Actor-Critic: Gabungan Policy Gradient dan TD Learning

Actor-Critic adalah arsitektur algoritma dalam pembelajaran penguatan yang menggabungkan keunggulan Policy Gradient dan Temporal Difference (TD) Learning. Dalam pendekatan ini, terdapat dua komponen utama, yaitu actor dan critic, yang bekerja secara bersamaan.

Mekanisme Actor-Critic

Komponen actor bertanggung jawab untuk memilih aksi berdasarkan kebijakan yang sedang dijalankan, sedangkan critic mengevaluasi aksi tersebut dengan menghitung nilai TD error. Hasil evaluasi dari critic digunakan untuk memperbaiki kebijakan actor secara langsung.

Kelebihan Actor-Critic

Dengan menggabungkan dua pendekatan, Actor-Critic dapat mengurangi varian yang tinggi pada Policy Gradient dan mempercepat konvergensi proses pembelajaran. Selain itu, arsitektur ini sangat fleksibel dan dapat digunakan pada berbagai lingkungan, baik diskret maupun kontinu.

Implementasi Populer

Beberapa algoritma modern seperti A3C (Asynchronous Advantage Actor-Critic) dan PPO (Proximal Policy Optimization) didasarkan pada framework Actor-Critic. Algoritma-algoritma ini telah berhasil digunakan dalam berbagai aplikasi seperti permainan dan robotika.