Sejarah Q-Learning

Q-Learning dikembangkan oleh Christopher Watkins pada tahun 1989 sebagai solusi untuk permasalahan pembelajaran dalam lingkungan yang tidak sepenuhnya diketahui. Algoritma ini memperkenalkan pendekatan baru dalam reinforcement learning yang tidak memerlukan model lingkungan, sehingga dapat diterapkan secara luas pada berbagai permasalahan.

Pengembangan Awal

Pada awalnya, konsep Q-Learning dikembangkan untuk mengatasi keterbatasan algoritma pembelajaran lainnya yang memerlukan pemodelan lingkungan yang kompleks. Dengan Q-Learning, agen dapat belajar dari pengalaman langsung tanpa mengetahui dinamika lingkungan secara eksplisit.

Kontribusi Christopher Watkins

Christopher Watkins memperkenalkan persamaan pembaruan Q dan membuktikan konvergensi algoritma ini di bawah kondisi tertentu. Penelitiannya menjadi landasan bagi perkembangan berbagai algoritma pembelajaran tak terawasi dan deep reinforcement learning.

Pengaruh dan Perkembangan Selanjutnya

Sejak diperkenalkan, Q-Learning telah mengalami banyak modifikasi dan perbaikan, seperti penerapan pada lingkungan diskret maupun kontinu. Q-Learning juga menjadi dasar bagi pengembangan algoritma mutakhir seperti Deep Q-Network (DQN) yang digunakan oleh DeepMind.