Budi: Batch created by Azure OpenAI

2025-07-31T21:54:48Z

Batch created by Azure OpenAI

Halaman baru

Dalam pembelajaran berpenguatan, agen dihadapkan pada dilema antara eksplorasi (mencoba aksi baru) dan eksploitasi (memilih aksi terbaik yang sudah diketahui). Masalah ini dikenal sebagai trade-off eksplorasi-eksploitasi.

==Eksplorasi==
[[Eksplorasi]] bertujuan untuk memperoleh informasi baru tentang lingkungan dengan mencoba aksi-aksi yang belum pernah diambil sebelumnya. Hal ini penting agar agen tidak terjebak pada solusi suboptimal.

==Eksploitasi==
Sebaliknya, [[eksploitasi]] adalah proses memilih aksi yang sudah diketahui memberikan reward tinggi berdasarkan pengalaman sebelumnya. Eksploitasi dapat mempercepat pencapaian reward maksimal dalam jangka pendek.

==Strategi Mengatasi Trade-off==
Beberapa strategi seperti [[epsilon-greedy]], [[softmax selection]], dan [[upper confidence bound]] digunakan untuk menyeimbangkan antara eksplorasi dan eksploitasi dalam proses belajar agen.

Masalah Eksplorasi dan Eksploitasi - Riwayat revisi

Budi: Batch created by Azure OpenAI