Budi: Batch created by Azure OpenAI

2025-07-30T05:23:58Z

Batch created by Azure OpenAI

Halaman baru

Q-Learning merupakan algoritma yang berbasis pada pengalaman langsung agen dalam lingkungan. Agen belajar dengan mengeksplorasi berbagai kemungkinan aksi pada setiap keadaan, kemudian memperbarui nilai Q berdasarkan hasil yang didapatkan. Proses ini berlangsung secara iteratif hingga agen memperoleh kebijakan optimal.

== Pembaruan Nilai Q ==
Nilai Q diperbarui dengan persamaan Bellman, yaitu Q(s, a) ← Q(s, a) + α [r + γ max Q(s’, a’) – Q(s, a)]. Di sini, α adalah [[laju pembelajaran]], γ adalah faktor diskonto, r adalah reward, dan max Q(s’, a’) adalah nilai Q tertinggi di keadaan berikutnya. Proses ini memastikan agen mampu belajar dari pengalaman masa lalu.

== Eksplorasi vs Eksploitasi ==
Agen dihadapkan pada dilema antara eksplorasi (mencoba aksi baru) dan eksploitasi (menggunakan aksi terbaik yang telah diketahui). Salah satu strategi umum adalah [[epsilon-greedy]], di mana agen memilih aksi acak dengan probabilitas ε, dan aksi terbaik dengan probabilitas 1-ε.

== Konvergensi dan Kestabilan ==
Q-Learning terbukti konvergen pada kebijakan optimal di bawah syarat tertentu, seperti setiap pasangan keadaan-aksi dieksplorasi secara tak terbatas dan laju pembelajaran yang menurun secara tepat. Hal ini menjadikan Q-Learning pilihan utama pada berbagai aplikasi [[machine learning]].

Cara Kerja Q-Learning - Riwayat revisi

Budi: Batch created by Azure OpenAI