Performa Algoritma Apriori dalam Bidang Data Mining



Data Mining adalah sebuah proses penting dalam pengolahan/pencarian “pengetahuan” di dalam database dengan menemukan dan menentukan pola dari kumpulan data (Rao & Gupta, 2012). Mereka juga menyebutkan bahwa data mining adalah aplikasi dari algortima yang efisien untuk mendeteksi beberapa jenis problem untuk menentukan pola penting di dalam sebuah kumpulan data, salah satu diantaranya adalah Frequent Itemsets Mining (FIM). Frequent Itemsets berperan penting di banyak permasalahan data mining yang mencoba menentukan pola penting dari dalam database (Goswami, Anshu, & Raghuvanshi, 2010). Frequent Itemsets adalah item yang termasuk dalam data yang memiliki peran kecil dalam kumpulan data (Kumar & Chezian, 2012). Mereka mengadakan survey terhadap problem pencarian Frequent Itemset tersebut.

Banyak algoritma yang mengarah pada penyelesaian problem data mining diatas, dan sebagian besar diantaranya dikelompokkan menjadi dua kategori, yaitu (1) candidate generation yang menggunakan teknik algoritma Breadth First Search (BFS) dan (2) pattern growth yang menggunakan pendekatan Depth First Approach (DPA) (Patel, Chaudhari, Karan, & Rana, 2011). Algoritma yang menggunakan Depth First Approach (DPA) dianggap lebih rumit karena menggunakan struktur data dalam penelitiannya (Kumar, Karanth, Akhsay, Prabhu, & Kumar M, 2012). Selanjutnya, teknik Breadth First Search (BFS) lebih banyak digunakan karena lebih simpel, salah satunya dengan menggunakan Algoritma Apriori (Rao & Gupta, 2012). Mereka memaparkan bahwa Algoritma Apriori adalah algoritma yang paling klasik dan cukup penting dalam Frequent Itemsets Mining (FIM). Walaupun banyak dikembangkan algoritma serupa yang lebih efisien, seperti FP-Growth, LCM, dan sebagainya, Algoritma Apriori masih tetap paling banyak digunakan dan diimplementasikan dalam produk komersial untuk data mining karena dianggap sebagai algoritma yang lebih mapan (Kumar & Chezian, 2012).

Kunci utama proses Algoritma Apriori membuat beberapa tahap iterasi di dalam database (Rao & Gupta, 2012). Dijelaskan juga bahwa tiap iterasi menghasilkan pola frekuensi yang dihitung dengan cara meng-scan database untuk mendapatkan support dari setiap item. Setelah support dari setiap item didapat, item yang memiliki support diatas minimum support dipilih menjadi pola frekuensi tinggi dengan panjang satu atau sering disebut 1-itemset. K-itemset adalah istilah untuk satu set yang terdiri dari k item. Sementara iterasi kedua akan menghasilkan 2-itemset yang tiap setnya memiliki dua item (Goswami, Anshu, & Raghuvanshi, 2010). Dalam penggunaannya, Algoritma Apriori dapat mengurangi jumlah kandidat yang harus dihitung supportnya dengan cara pemangkasan. Pemangkasan inilah yang membuat Algoritma Apriori memiliki performa yang baik (Patel, Chaudhari, Karan, & Rana, 2011).

Di samping memiliki performa yang baik, Algoritma Apriori juga memiliki kelemahan (Kumar, Karanth, Akhsay, Prabhu, & Kumar M, 2012). Mereka menyimpulkan kelemahan yang yang ada di Algoritma Apriori berada pada proses scanning yang wajib dilakukan pada setiap kali iterasi sehingga akan memerlukan waktu yang cukup lama dan kemampuan komputasi yang besar. Kekurangan Algoritma Apriori ini sudah tidak lagi ditemukan dalam algoritma-algoritma baru yang serupa, seperti contohnya FP-Growth. Mereka juga mengatakan bahwa Algoritma Apriori masih perlu diteliti dan dikembangkan lagi dalam kaitannya dengan bidang data mining.

Leave a Reply