Pahami dan Kenali Apa Hierarchical Clustering dalam Data Sains
Sejarah
Clustering
Ide
clustering pertama kali ditemukan oleh lloyd pada tahun 1957 namun ide lloyd
baru dipublikasi pada tahun 1982. Metode Clustering yang ditemukan disebut
K-Means atau K-Means Clustering. Pada tahun 1965 Forgey juga mempublikasikan metode
yang sama, sehingga metode clustering seringkali dikenal dengan lloyd-Forgy
clustering methods.
Secara
Bahasa Clustering adalah salah satu metoda untuk mengelompokkan
instance (sample) menjadi beberapa group atau subset atau cluster berdasarkan “kemiripan”
dengan instance yang lain.
Secara
prinsip clustering hampir mirip dengan classification, hanya saja dataset yang
digunakan tidak berpasangan atau tidak berlabel (non labeled).
Dataset
semacam ini dapat dijumpai di sekitar kita dan jenisnya relatif cukup banyak.
Sebagai contoh, perhatikan dataset jenis buku dan jumlah halamannya dibawah
ini:
Jumlah Halaman |
Jenis Buku |
200 |
Bahasa |
232 |
Matematika |
232 |
Bahasa |
222 |
Matematika |
244 |
Bahasa |
532 |
Matematika |
Sehingga
cukup sulit untuk melakukan klasifikasi menggunakan metode classification yang
pernah anda pelajari sebelum sebelumnya. Jika kita diminta untuk melakukan pengelompokkan
data set semacam ini, apa yang tentu akan kita lakukan.
Nah disinilah
metode clustering dapat membantu kita.
Teknik
Clustering
Teknik Clustering banyak di implementasikan pada bidang:
a. Market segmentation
b. Social networks analysis
c. Computing cluster
d. Astronomical data analysis
Pada algoritma
clustering, komputer akan mengelompokkan sendiri data set yang inputannya tanpa
mengetahui terlebih dahulu target classnya. Data set yang mirip akan
dikategorikan menjadi sebuah cluster.
Konsep
Hierarchical Clustering
Secara umum
ada dua jenis metoda Hierarchical Clustering,
yaitu:
Agglomerative Hierarchical Clustering (bottom up) dan Divisive Hierarchical Clustering Technique (Top-Down)
Cara kerja keduanya
berbeda, boleh dibilang divisive merupakan kebalikan dari aglomerative.
Sebelum
membahas Hierarchical Clustering lebih lanjut, ada baiknya mengenal terlebih
dahulu beberapa metode clustering yang ada.
Metode Clustering
Ada beberapa
metode clustering yang sudah dikembangkan, diantaranya:
Exclusive Clustering
disebut juga partitional clustering atau hard clustering. Merupakan jenis
clustering dimana masing-masing elemen hanya dimiliki oleh sebuah cluster dan
tidak boleh dimiliki oleh cluster lain.
- Overlapping Clustering
Disebut juga soft clustering. Merupakan sebuah jenis clustering dimana elemen elemen boleh dimiliki oleh beberapa cluster. - Hierarchical
Clustering,
Disebut juga multilevel Hierarchical. Cluster yang lebih besar di kelompokkan menjadi dua atau lebih cluster yang lebih kecil sehingga membentuk tree diagram yang disebut dendrogram. - Density
Based Clustering
Jenis clustering yang berhubungan dengan kerapatan objek (densitas), dimana cluster yang lebih pada dipisahkan oleh cluster yang lebih renggang - Model Based
Clustering
Jenis clustering yang elemennya dibentuk melalui asumsi atau model matematika atau model statistika standar (seperti distribusi normal dan sebagaiannya)
Sebenarnya
masih ada beberapa jenis clustering yang lain, namun secara prinsip hampir sama
atau merupakan pengembangan dari clustering yang sudah.
Secara umum
konsep dasar Hierarchical Clustering yakni:
- Menemukan kemiripan (Similarity) antar elemen cluster dengan prinsip nearest neighbor atau nearest cluster
- Untuk mencari cluster tetangga atau tetangga terdekat
- Pembentukan hirarki (tree) yang disebut dendogram
Nah demikian
pembahasan terkait dengan Hierarchical Clustering, semoga dapat membantu kalian
terutama yang membutuhkan informasi terkait dengan Hierarchical Clustering di
bidang datasains. Selalu pantau terus artikel artikel bermanfaat dari fatih
inspira yang teman-teman. See you next article.
Posting Komentar untuk "Pahami dan Kenali Apa Hierarchical Clustering dalam Data Sains"