Lihat sumber Actor-Critic: Gabungan Policy Gradient dan TD Learning

Actor-Critic adalah arsitektur algoritma dalam [[pembelajaran penguatan]] yang menggabungkan keunggulan [[Policy Gradient]] dan [[Temporal Difference (TD) Learning]]. Dalam pendekatan ini, terdapat dua komponen utama, yaitu actor dan critic, yang bekerja secara bersamaan.

== Mekanisme Actor-Critic ==
Komponen actor bertanggung jawab untuk memilih aksi berdasarkan kebijakan yang sedang dijalankan, sedangkan critic mengevaluasi aksi tersebut dengan menghitung nilai TD error. Hasil evaluasi dari critic digunakan untuk memperbaiki kebijakan actor secara langsung.

== Kelebihan Actor-Critic ==
Dengan menggabungkan dua pendekatan, Actor-Critic dapat mengurangi varian yang tinggi pada Policy Gradient dan mempercepat konvergensi proses pembelajaran. Selain itu, arsitektur ini sangat fleksibel dan dapat digunakan pada berbagai lingkungan, baik diskret maupun kontinu.

== Implementasi Populer ==
Beberapa algoritma modern seperti [[A3C]] (Asynchronous Advantage Actor-Critic) dan [[PPO]] (Proximal Policy Optimization) didasarkan pada framework Actor-Critic. Algoritma-algoritma ini telah berhasil digunakan dalam berbagai aplikasi seperti permainan dan robotika.