Masalah Eksplorasi dan Eksploitasi
Dalam pembelajaran berpenguatan, agen dihadapkan pada dilema antara eksplorasi (mencoba aksi baru) dan eksploitasi (memilih aksi terbaik yang sudah diketahui). Masalah ini dikenal sebagai trade-off eksplorasi-eksploitasi.
Eksplorasi
Eksplorasi bertujuan untuk memperoleh informasi baru tentang lingkungan dengan mencoba aksi-aksi yang belum pernah diambil sebelumnya. Hal ini penting agar agen tidak terjebak pada solusi suboptimal.
Eksploitasi
Sebaliknya, eksploitasi adalah proses memilih aksi yang sudah diketahui memberikan reward tinggi berdasarkan pengalaman sebelumnya. Eksploitasi dapat mempercepat pencapaian reward maksimal dalam jangka pendek.
Strategi Mengatasi Trade-off
Beberapa strategi seperti epsilon-greedy, softmax selection, dan upper confidence bound digunakan untuk menyeimbangkan antara eksplorasi dan eksploitasi dalam proses belajar agen.