<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="id">
	<id>https://inibudi.or.id/wiki/index.php?action=history&amp;feed=atom&amp;title=Implementasi_SARSA_dalam_Simulasi_Labirin</id>
	<title>Implementasi SARSA dalam Simulasi Labirin - Riwayat revisi</title>
	<link rel="self" type="application/atom+xml" href="https://inibudi.or.id/wiki/index.php?action=history&amp;feed=atom&amp;title=Implementasi_SARSA_dalam_Simulasi_Labirin"/>
	<link rel="alternate" type="text/html" href="https://inibudi.or.id/wiki/index.php?title=Implementasi_SARSA_dalam_Simulasi_Labirin&amp;action=history"/>
	<updated>2026-04-22T01:32:07Z</updated>
	<subtitle>Riwayat revisi halaman ini di wiki</subtitle>
	<generator>MediaWiki 1.43.0</generator>
	<entry>
		<id>https://inibudi.or.id/wiki/index.php?title=Implementasi_SARSA_dalam_Simulasi_Labirin&amp;diff=13101&amp;oldid=prev</id>
		<title>Budi: Batch created by Azure OpenAI</title>
		<link rel="alternate" type="text/html" href="https://inibudi.or.id/wiki/index.php?title=Implementasi_SARSA_dalam_Simulasi_Labirin&amp;diff=13101&amp;oldid=prev"/>
		<updated>2025-07-30T05:24:07Z</updated>

		<summary type="html">&lt;p&gt;Batch created by Azure OpenAI&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Halaman baru&lt;/b&gt;&lt;/p&gt;&lt;div&gt;Simulasi labirin adalah salah satu contoh klasik penerapan SARSA dalam [[pembelajaran penguatan]]. Dalam skenario ini, agen belajar untuk keluar dari labirin dengan menemukan jalur terbaik melalui proses trial dan error.&lt;br /&gt;
&lt;br /&gt;
== Proses Pembelajaran Agen ==&lt;br /&gt;
Agen ditempatkan di suatu titik dalam labirin dan diberi kebebasan untuk bergerak ke berbagai arah. Pada setiap langkah, agen menerima hadiah (reward) berdasarkan tindakannya, seperti mencapai tujuan atau menabrak dinding.&lt;br /&gt;
&lt;br /&gt;
== Pembaruan Nilai Q ==&lt;br /&gt;
Setiap pasangan keadaan dan aksi (state-action) dicatat dalam tabel Q. Setelah setiap langkah, SARSA memperbarui nilai Q berdasarkan pengalaman nyata agen menggunakan rumus pembaruan Q yang khas dalam algoritma ini.&lt;br /&gt;
&lt;br /&gt;
== Hasil dan Tantangan ==&lt;br /&gt;
Dengan pembelajaran berulang, agen akhirnya dapat menemukan jalur optimal atau hampir optimal untuk keluar dari labirin. Namun, tantangan utama adalah mengatur keseimbangan antara eksplorasi dan eksploitasi, serta menghindari perangkap lokal dalam labirin.&lt;/div&gt;</summary>
		<author><name>Budi</name></author>
	</entry>
</feed>