Budi: Batch created by Azure OpenAI

2025-07-27T03:03:25Z

Batch created by Azure OpenAI

Halaman baru

Dalam pengembangan sistem reinforcement learning, terdapat berbagai algoritma dasar yang digunakan untuk membantu agen belajar dari pengalaman. Algoritma-algoritma ini memungkinkan agen untuk membentuk kebijakan yang efektif melalui proses evaluasi dan pembaruan pengetahuan.

== Q-Learning ==
[[Q-Learning]] adalah salah satu algoritma paling populer dalam reinforcement learning. Algoritma ini bersifat off-policy, artinya agen dapat belajar kebijakan optimal tanpa harus mengikuti kebijakan yang sedang dijalankan. Q-Learning menggunakan tabel Q untuk menyimpan nilai dari aksi-aksi yang mungkin diambil dalam setiap keadaan.

== SARSA ==
[[SARSA]] (State-Action-Reward-State-Action) adalah algoritma lain yang sering digunakan. Berbeda dengan Q-Learning, SARSA merupakan on-policy, sehingga pembaruan nilai dilakukan berdasarkan aksi yang diambil oleh kebijakan sekarang.

== Algoritma Lainnya ==
Selain Q-Learning dan SARSA, terdapat juga algoritma seperti Monte Carlo, Temporal Difference (TD), dan [[Policy Gradient]]. Setiap algoritma memiliki kelebihan dan kekurangan tergantung pada karakteristik permasalahan yang dihadapi.

Algoritma Dasar Reinforcement Learning - Riwayat revisi

Budi: Batch created by Azure OpenAI