Oversampling dan undersampling adalah dua teknik resampling yang umum digunakan dalam machine learning untuk menangani masalah data tidak seimbang. Data tidak seimbang biasanya terjadi ketika satu kelas jauh lebih banyak dibandingkan kelas lain dalam sebuah dataset. Kedua teknik ini bertujuan untuk memperbaiki distribusi kelas agar model prediktif dapat bekerja secara optimal.

Oversampling

Oversampling dilakukan dengan menambah jumlah sampel dari kelas minoritas. Salah satu metode populer adalah SMOTE (Synthetic Minority Over-sampling Technique), yang menghasilkan data sintetis berdasarkan data minoritas yang sudah ada. Teknik ini membantu model belajar pola dari kelas minoritas dengan lebih baik.

Undersampling

Undersampling dilakukan dengan mengurangi jumlah sampel dari kelas mayoritas. Meskipun dapat membuat dataset menjadi lebih seimbang, undersampling berisiko menghilangkan informasi penting dari kelas mayoritas. Oleh karena itu, teknik ini harus digunakan dengan hati-hati.

Penerapan pada Model Prediktif

Kedua teknik ini sering digunakan dalam aplikasi fraud detection, diagnosis medis, dan analisis kredit. Pemilihan teknik yang tepat sangat penting untuk memastikan model dapat mengenali kedua kelas dengan akurasi yang baik.