Eksplorasi dan eksploitasi adalah dua konsep kunci dalam pembelajaran penguatan. Keduanya berperan penting dalam memastikan agen dapat menemukan solusi optimal dalam lingkungan yang tidak diketahui. Metode Monte Carlo dan Temporal Difference (TD) Learning memiliki cara tersendiri dalam menangani trade-off ini.

Eksplorasi dalam Monte Carlo

Dalam metode Monte Carlo, eksplorasi biasanya dilakukan dengan menjalankan episode menggunakan kebijakan stokastik, seperti ε-greedy. Hal ini memungkinkan agen untuk mencoba berbagai aksi dan memperoleh pengalaman yang beragam.

Eksploitasi dalam TD Learning

TD Learning seringkali menggunakan strategi eksploitasi yang lebih agresif, karena pembaruan nilai dilakukan setelah setiap langkah. Namun, untuk menghindari terjebak pada solusi sub-optimal, strategi eksplorasi tetap diperlukan.

Implikasi pada Kinerja Agen

Keseimbangan yang baik antara eksplorasi dan eksploitasi sangat penting untuk mencapai kinerja optimal. Baik Monte Carlo maupun TD Learning telah mengembangkan berbagai teknik untuk mengelola trade-off ini, seperti epsilon-greedy dan softmax action selection.