Dalam pembelajaran berpenguatan, agen dihadapkan pada dilema antara eksplorasi (mencoba aksi baru) dan eksploitasi (memilih aksi terbaik yang sudah diketahui). Masalah ini dikenal sebagai trade-off eksplorasi-eksploitasi.

Eksplorasi

Eksplorasi bertujuan untuk memperoleh informasi baru tentang lingkungan dengan mencoba aksi-aksi yang belum pernah diambil sebelumnya. Hal ini penting agar agen tidak terjebak pada solusi suboptimal.

Eksploitasi

Sebaliknya, eksploitasi adalah proses memilih aksi yang sudah diketahui memberikan reward tinggi berdasarkan pengalaman sebelumnya. Eksploitasi dapat mempercepat pencapaian reward maksimal dalam jangka pendek.

Strategi Mengatasi Trade-off

Beberapa strategi seperti epsilon-greedy, softmax selection, dan upper confidence bound digunakan untuk menyeimbangkan antara eksplorasi dan eksploitasi dalam proses belajar agen.