Budi: Batch created by Azure OpenAI

2025-07-30T05:23:57Z

Batch created by Azure OpenAI

Halaman baru

Q-Learning adalah salah satu algoritma pembelajaran [[penguatan]] (reinforcement learning) yang paling populer dalam bidang [[kecerdasan buatan]]. Algoritma ini memungkinkan agen untuk belajar bagaimana bertindak optimal di lingkungan yang tidak diketahui dengan cara mencoba-coba dan memperbaiki tindakannya berdasarkan umpan balik yang diterima. Q-Learning banyak digunakan dalam berbagai aplikasi, mulai dari robotika hingga permainan komputer.

== Konsep Dasar ==
Q-Learning bekerja dengan memperkirakan fungsi nilai yang disebut "Q-value", yaitu nilai dari sepasang keadaan dan aksi (state, action). Agen akan terus memperbarui nilai Q berdasarkan pengalaman yang dikumpulkan selama eksplorasi lingkungan. Tujuan akhirnya adalah menemukan kebijakan optimal yang memaksimalkan total [[reward]] yang diperoleh sepanjang waktu.

== Algoritma Q-Learning ==
Pada setiap langkah, agen memilih aksi berdasarkan strateginya (misalnya, [[eksploitasi]] atau eksplorasi). Setelah melakukan aksi dan menerima reward, nilai Q diperbarui menggunakan persamaan pembaruan Q-Learning. Proses ini diulang hingga agen menemukan pola tindakan yang paling menguntungkan.

== Penggunaan dalam Dunia Nyata ==
Q-Learning telah diimplementasikan dalam banyak sistem otomatisasi dan pengambilan keputusan. Contoh penerapannya antara lain adalah pengendalian robot, pengoptimalan jaringan komputer, dan pengembangan AI dalam permainan seperti [[Atari]] dan [[DeepMind]].

Q-Learning - Riwayat revisi

Budi: Batch created by Azure OpenAI