Lompat ke isi

Information gain

Dari Wiki Berbudi

Information gain adalah sebuah ukuran dalam teori informasi yang digunakan untuk menentukan seberapa banyak informasi baru yang diperoleh tentang suatu variabel acak setelah melakukan observasi atau pembagian data berdasarkan atribut tertentu. Konsep ini sering digunakan dalam pembelajaran mesin, khususnya dalam algoritme pohon keputusan seperti ID3, C4.5, atau CART, untuk memilih atribut yang paling efektif dalam memisahkan data menjadi kategori yang lebih homogen. Dengan menghitung information gain, sebuah sistem dapat memutuskan atribut mana yang memberikan penurunan terbesar dalam entropi dataset.

Konsep dasar

Secara umum, information gain diukur sebagai selisih antara entropi awal suatu sistem dan entropi setelah sistem tersebut dibagi berdasarkan suatu atribut. Entropi di sini mengukur ketidakpastian atau ketidakteraturan data. Semakin tinggi information gain, semakin besar atribut tersebut mengurangi ketidakpastian, dan semakin baik atribut itu digunakan untuk memisahkan data.

Rumus umum untuk menghitung information gain adalah:

IG(S,A)=Entropy(S)vValues(A)|Sv||S|×Entropy(Sv)

di mana:

  • S adalah himpunan data awal
  • A adalah atribut yang dipertimbangkan
  • S_v adalah subset data S untuk nilai atribut A tertentu

Sejarah dan pengembangan

Konsep information gain berasal dari teori informasi yang dikembangkan oleh Claude Shannon pada tahun 1948. Shannon memperkenalkan ide entropi untuk mengukur ketidakpastian dalam pesan atau data. Seiring berkembangnya bidang kecerdasan buatan, para peneliti menyadari bahwa konsep ini dapat diterapkan untuk pemilihan atribut dalam pembelajaran mesin.

Algoritme ID3 yang dikembangkan oleh Ross Quinlan pada tahun 1986 menjadi salah satu penerapan populer dari information gain. Kemudian Quinlan menyempurnakan pendekatan ini dalam algoritme C4.5, yang mengatasi beberapa kelemahan ID3, termasuk bias terhadap atribut dengan banyak nilai.

Hubungan dengan entropi

Information gain secara langsung bergantung pada perhitungan entropi. Entropi tinggi menunjukkan data sangat acak atau tidak teratur, sedangkan entropi rendah menunjukkan data lebih teratur. Dengan mempartisi data berdasarkan atribut tertentu, kita berharap entropi dalam subset yang dihasilkan akan berkurang.

Sebagai contoh, dalam sebuah dataset klasifikasi biner, entropi maksimum terjadi ketika distribusi kelas sama rata, yaitu 50% untuk setiap kelas. Jika atribut tertentu dapat memisahkan data sehingga sebagian besar subset berisi satu kelas dominan, entropi berkurang dan information gain meningkat.

Penerapan dalam pohon keputusan

Dalam pohon keputusan, pemilihan atribut pada setiap simpul didasarkan pada nilai information gain tertinggi. Proses ini diulang secara rekursif hingga semua data terklasifikasi atau tidak ada lagi atribut yang dapat digunakan untuk pemisahan.

Penggunaan information gain dalam pohon keputusan membantu menghindari pemilihan atribut yang kurang relevan. Namun, metode ini memiliki kelemahan, seperti kecenderungan memilih atribut dengan jumlah nilai unik yang tinggi, yang dapat diatasi dengan metrik lain seperti gain ratio.

Kelebihan dan kekurangan

Beberapa kelebihan penggunaan information gain antara lain:

  1. Mudah dihitung dan dipahami.
  2. Efektif dalam memilih atribut yang relevan.
  3. Cocok untuk data kategori.

Namun, terdapat pula kekurangan yang perlu diperhatikan:

  1. Bias terhadap atribut dengan banyak nilai.
  2. Tidak selalu optimal untuk data numerik tanpa proses diskretisasi.
  3. Sensitif terhadap noise dalam data.

Contoh perhitungan

Misalkan kita memiliki dataset sederhana tentang cuaca dan keputusan bermain tenis. Atribut cuaca dapat berupa "Cerah", "Mendung", atau "Hujan". Jika kita menghitung entropi awal dataset dan kemudian menghitung entropi setiap subset berdasarkan atribut cuaca, maka selisihnya adalah information gain dari atribut tersebut.

Sebagai ilustrasi:

  1. Entropi awal dataset: 0,94 bit.
  2. Entropi setelah pembagian berdasarkan atribut cuaca: 0,69 bit.
  3. Information gain = 0,94 - 0,69 = 0,25 bit.

Perbandingan dengan metrik lain

Selain information gain, terdapat metrik lain untuk pemilihan atribut:

  1. Gain ratio – memperhitungkan jumlah nilai atribut untuk mengurangi bias.
  2. Gini impurity – digunakan dalam algoritme CART.
  3. Chi-squared – mengukur hubungan statistik antara atribut dan kelas.

Setiap metrik memiliki kelebihan dan kekurangannya sendiri, dan pilihan metrik dapat bergantung pada karakteristik dataset.

Penerapan di luar pohon keputusan

Walaupun paling sering digunakan dalam pembuatan pohon keputusan, information gain juga bermanfaat dalam:

  1. Seleksi fitur pada machine learning.
  2. Pemrosesan bahasa alami untuk memilih kata atau frasa yang paling informatif.
  3. Analisis data untuk mengidentifikasi variabel penting.

Dengan demikian, konsep ini memiliki cakupan luas di berbagai bidang analisis data.

Hubungan dengan mutual information

Information gain sangat terkait dengan mutual information, yang mengukur ketergantungan antara dua variabel acak. Dalam konteks pemilihan atribut, mutual information dapat dipandang sebagai generalisasi dari information gain yang tidak terbatas pada pengurangan entropi dalam pembentukan pohon keputusan.

Mutual information juga digunakan dalam berbagai algoritme pembelajaran mesin, termasuk seleksi fitur dan clustering.

Perhitungan pada data kontinu

Ketika atribut memiliki nilai numerik kontinu, information gain memerlukan langkah diskretisasi. Salah satu metode umum adalah menentukan titik ambang (threshold) yang memisahkan data menjadi dua kelompok, lalu menghitung information gain untuk setiap kemungkinan ambang.

Proses ini dapat dilakukan secara menyeluruh atau menggunakan pendekatan heuristik untuk mengurangi biaya komputasi. Pendekatan ini penting dalam menangani atribut seperti umur, pendapatan, atau suhu.

Kritik dan alternatif

Beberapa peneliti mengkritik information gain karena biasnya terhadap atribut dengan banyak nilai. Hal ini dapat menyebabkan overfitting pada pohon keputusan. Untuk mengatasi masalah ini, alternatif seperti gain ratio atau AIC dapat digunakan.

Selain itu, dalam data dengan distribusi kelas yang tidak seimbang, information gain mungkin tidak memberikan pemisahan yang optimal, sehingga perlu dipertimbangkan metrik lain atau teknik penyeimbangan data.

Kesimpulan

Information gain adalah konsep penting dalam teori informasi dan pembelajaran mesin, khususnya dalam pembuatan pohon keputusan. Dengan mengukur seberapa besar penurunan entropi yang dihasilkan oleh pemilihan atribut tertentu, metode ini membantu dalam menemukan struktur data yang lebih teratur.

Meskipun memiliki keterbatasan, information gain tetap menjadi alat yang berguna, terutama jika digunakan bersama metrik lain untuk mengatasi kelemahan yang ada. Pemahaman yang baik tentang konsep ini sangat penting bagi praktisi data science dan machine learning.