UTF-8 adalah skema pengodean karakter yang menggunakan urutan byte variabel untuk mewakili karakter Unicode. Karakter yang lebih sering digunakan, seperti karakter dalam ASCII, diwakili oleh satu byte, sedangkan karakter lain dapat menggunakan hingga empat byte. Pendekatan ini memungkinkan efisiensi dan kompatibilitas dengan sistem lama.
Struktur Byte
Pada UTF-8, karakter dalam rentang ASCII (U+0000 hingga U+007F) disimpan dengan satu byte. Karakter di luar rentang tersebut diwakili dengan dua hingga empat byte, di mana byte pertama menunjukkan panjang urutan byte.
Proses Pengodean dan Dekode
Pengodean UTF-8 dilakukan dengan membagi kode titik Unicode menjadi potongan-potongan dan menambah bit identifikasi tertentu pada setiap byte. Saat mendekode, sistem membaca byte identifikasi untuk menentukan jumlah byte yang harus dikombinasikan menjadi satu karakter.
Kompatibilitas Mundur
Salah satu keunggulan utama UTF-8 adalah kompatibilitasnya dengan ASCII. Setiap file teks ASCII yang valid juga merupakan file UTF-8 yang valid, membuat transisi antar sistem lebih mudah dan efisien.