Lompat ke konten Lompat ke sidebar Lompat ke footer

Widget HTML #1

Pahami dan Kenali Apa Hierarchical Clustering dalam Data Sains


sumber: StatQues Clustering

Sejarah Clustering

Ide clustering pertama kali ditemukan oleh lloyd pada tahun 1957 namun ide lloyd baru dipublikasi pada tahun 1982. Metode Clustering yang ditemukan disebut K-Means atau K-Means Clustering. Pada tahun 1965 Forgey juga mempublikasikan metode yang sama, sehingga metode clustering seringkali dikenal dengan lloyd-Forgy clustering methods.

 Secara Bahasa Clustering adalah salah satu metoda untuk mengelompokkan instance (sample) menjadi beberapa group atau subset atau cluster berdasarkan “kemiripan” dengan instance yang lain.

Secara prinsip clustering hampir mirip dengan classification, hanya saja dataset yang digunakan tidak berpasangan atau tidak berlabel (non labeled).

Dataset semacam ini dapat dijumpai di sekitar kita dan jenisnya relatif cukup banyak. Sebagai contoh, perhatikan dataset jenis buku dan jumlah halamannya dibawah ini:

Jumlah Halaman

Jenis Buku

200

Bahasa

232

Matematika

232

Bahasa

222

Matematika

244

Bahasa

532

Matematika


Dengan hanya melihat jumlah halaman saja, maka kita tidak dapat mengambil kesimpulan apapun tentang jenis bukunya. Tidak ada relasi antara kolom pertama dengan kolom kedua.

Sehingga cukup sulit untuk melakukan klasifikasi menggunakan metode classification yang pernah anda pelajari sebelum sebelumnya. Jika kita diminta untuk melakukan pengelompokkan data set semacam ini, apa yang tentu akan kita lakukan.

Nah disinilah metode clustering dapat membantu kita.

Teknik Clustering

Teknik Clustering banyak di implementasikan pada bidang:

a. Market segmentation

b. Social networks analysis

c. Computing cluster

d. Astronomical data analysis

Pada algoritma clustering, komputer akan mengelompokkan sendiri data set yang inputannya tanpa mengetahui terlebih dahulu target classnya. Data set yang mirip akan dikategorikan menjadi sebuah cluster.

Konsep Hierarchical Clustering

Secara umum ada dua jenis metoda Hierarchical Clustering,  yaitu:

Agglomerative Hierarchical Clustering (bottom up) dan Divisive Hierarchical Clustering Technique (Top-Down)

Cara kerja keduanya berbeda, boleh dibilang divisive merupakan kebalikan dari aglomerative.

Sebelum membahas Hierarchical Clustering lebih lanjut, ada baiknya mengenal terlebih dahulu beberapa metode clustering yang ada.

Metode Clustering

Ada beberapa metode clustering yang sudah dikembangkan, diantaranya:

Exclusive Clustering disebut juga partitional clustering atau hard clustering. Merupakan jenis clustering dimana masing-masing elemen hanya dimiliki oleh sebuah cluster dan tidak boleh dimiliki oleh cluster lain.

  1. Overlapping Clustering
    Disebut juga soft clustering. Merupakan sebuah jenis clustering dimana elemen elemen boleh dimiliki oleh beberapa cluster.
  2. Hierarchical Clustering,
    Disebut juga multilevel Hierarchical. Cluster yang lebih besar di kelompokkan menjadi dua atau lebih cluster yang lebih kecil sehingga membentuk tree diagram yang disebut dendrogram.
  3. Density Based Clustering
    Jenis clustering yang berhubungan dengan kerapatan objek (densitas), dimana cluster yang lebih pada dipisahkan oleh cluster yang lebih renggang
  4. Model Based Clustering
    Jenis clustering yang elemennya dibentuk melalui asumsi atau model matematika atau model statistika standar (seperti distribusi normal dan sebagaiannya)

Sebenarnya masih ada beberapa jenis clustering yang lain, namun secara prinsip hampir sama atau merupakan pengembangan dari clustering yang sudah.

Secara umum konsep dasar Hierarchical Clustering yakni:

  1.  Menemukan kemiripan (Similarity) antar elemen cluster dengan prinsip nearest neighbor atau nearest cluster
  2. Untuk mencari cluster tetangga atau tetangga terdekat
  3. Pembentukan hirarki (tree) yang disebut dendogram

Nah demikian pembahasan terkait dengan Hierarchical Clustering, semoga dapat membantu kalian terutama yang membutuhkan informasi terkait dengan Hierarchical Clustering di bidang datasains. Selalu pantau terus artikel artikel bermanfaat dari fatih inspira yang teman-teman. See you next article.

 

 

 


Posting Komentar untuk "Pahami dan Kenali Apa Hierarchical Clustering dalam Data Sains"