Klasterisasi Data dengan K-Means pada Aplikasi Rapidminer

00:44:06
https://www.youtube.com/watch?v=ibEC76Emme8

Resumen

TLDRVideo ini membahas teknik klasterisasi data menggunakan algoritma k-means. Pembicara menjelaskan perbedaan antara klasifikasi dan klasterisasi, di mana klasifikasi melibatkan pengelompokan data berdasarkan label, sedangkan klasterisasi mengelompokkan data berdasarkan kemiripan tanpa label. Contoh penggunaan klasterisasi dalam pengelompokan mobil berdasarkan kapasitas penumpang dan warna juga diberikan. Pembicara menjelaskan cara menghitung jarak antar data menggunakan rumus Euclidean distance dan bagaimana algoritma k-means bekerja, termasuk cara menentukan pusat cluster dan proses iterasi untuk memperbaiki posisi pusat cluster. Video ini juga menunjukkan implementasi algoritma k-means menggunakan software RapidMiner.

Para llevar

  • 📊 Klasterisasi mengelompokkan data tanpa label.
  • 🔍 Klasifikasi menggunakan label untuk mengelompokkan data.
  • 📏 Jarak antar data dihitung dengan Euclidean distance.
  • 🔄 Algoritma k-means mengelompokkan data berdasarkan pusat cluster.
  • 📈 Metode elbow digunakan untuk menentukan jumlah cluster yang tepat.

Cronología

  • 00:00:00 - 00:05:00

    Pengenalan kepada teknik klasterisasi data menggunakan algoritma k-means, berbeza dengan klasifikasi yang melibatkan label. Klasterisasi mengelompokkan data berdasarkan kemiripan tanpa melihat label.

  • 00:05:00 - 00:10:00

    Perbezaan antara klasifikasi dan klasterisasi dijelaskan dengan contoh pengelompokan mobil berdasarkan pabrikan dan kapasitas penumpang. Klasterisasi tidak melibatkan label, tetapi berdasarkan kemiripan data.

  • 00:10:00 - 00:15:00

    Kemiripan data diukur menggunakan pengukuran jarak, dengan rumus Euclidean distance. Contoh pengukuran jarak antara data baru dan data yang ada diberikan.

  • 00:15:00 - 00:20:00

    Contoh pengukuran jarak antara data baru dan data yang ada ditunjukkan, dengan penjelasan tentang bagaimana menghitung jarak menggunakan atribut yang berbeza.

  • 00:20:00 - 00:25:00

    Manfaat klasterisasi termasuk segmentasi data dan kompresi gambar. Klasterisasi membantu dalam mengelompokkan data secara otomatis tanpa perlu melabeli secara manual.

  • 00:25:00 - 00:30:00

    Algoritma k-means diperkenalkan sebagai salah satu algoritma klasterisasi yang paling sederhana. K-means mengelompokkan data berdasarkan pusat cluster terdekat.

  • 00:30:00 - 00:35:00

    Proses kerja k-means melibatkan penentuan jumlah cluster, penempatan pusat cluster secara acak, dan pengelompokan data berdasarkan kedekatan dengan pusat cluster.

  • 00:35:00 - 00:44:06

    Langkah-langkah dalam algoritma k-means termasuk memperbaiki posisi pusat cluster berdasarkan rata-rata data dalam cluster, dan proses ini berulang hingga pusat cluster tidak berubah.

Ver más

Mapa mental

Vídeo de preguntas y respuestas

  • Apa itu klasterisasi?

    Klasterisasi adalah teknik pengelompokan data berdasarkan kemiripan tanpa melibatkan label.

  • Apa perbedaan antara klasifikasi dan klasterisasi?

    Klasifikasi mengelompokkan data berdasarkan label, sedangkan klasterisasi mengelompokkan data berdasarkan kemiripan.

  • Bagaimana cara menghitung jarak antar data?

    Jarak antar data dihitung menggunakan rumus Euclidean distance.

  • Apa itu algoritma k-means?

    K-means adalah algoritma klasterisasi yang mengelompokkan data berdasarkan pusat cluster terdekat.

  • Bagaimana cara menentukan jumlah cluster yang tepat?

    Jumlah cluster yang tepat dapat ditentukan menggunakan metode elbow.

Ver más resúmenes de vídeos

Obtén acceso instantáneo a resúmenes gratuitos de vídeos de YouTube gracias a la IA.
Subtítulos
id
Desplazamiento automático:
  • 00:00:00
    halo halo teman-teman semuanya
  • 00:00:01
    Assalamualaikum warahmatullah
  • 00:00:03
    wabarakatuh jumpa lagi di seri
  • 00:00:05
    perkuliahan machine learning Bersama
  • 00:00:07
    saya Muhammad Fahri di video kali ini
  • 00:00:10
    kita akan bahas mengenai teknik
  • 00:00:11
    klasterisasi data menggunakan algoritma
  • 00:00:14
    k-means
  • 00:00:16
    oke di video-video yang lalu kita sudah
  • 00:00:19
    membahas Bagaimana teknik klasifikasi
  • 00:00:21
    data yang menggunakan algoritma mesin
  • 00:00:23
    learning seperti naik Bayes ataupun
  • 00:00:26
    decision Tree nah kali ini kita akan
  • 00:00:28
    membahas satu teknik yang agak berbeda
  • 00:00:30
    yang disebut dengan klastering atau
  • 00:00:32
    klasterisasi
  • 00:00:34
    sebelum kita bahas apa cokelat
  • 00:00:36
    sterilisasi kita cek dulu nih kita lihat
  • 00:00:38
    dulu apa sih bedanya antara klasifikasi
  • 00:00:40
    dengan klasterisasi itu Oke kita tahu ya
  • 00:00:45
    kita udah paham bahwa yang disebut
  • 00:00:47
    direklasifikasi itu adalah
  • 00:00:48
    mengelompokkan data berdasarkan
  • 00:00:51
    labelnya ya berdasarkan kesamaan label
  • 00:00:55
    dari data tersebut misal kita ingin
  • 00:00:58
    mengelompokkan mana Gmail yang spam dan
  • 00:01:01
    email yang bukan spam maka didata set
  • 00:01:04
    yang kita miliki itu pasti ada satu
  • 00:01:06
    kolom yang tugasnya sebagai label ya
  • 00:01:09
    label yah melabeli Mana email yang spam
  • 00:01:12
    Mana email yang bukan spam atau contoh
  • 00:01:15
    lainnya misalkan kita ingin
  • 00:01:17
    mengklasifikasikan data bunga iris ya
  • 00:01:20
    data bunga iris misalnya mana data Airis
  • 00:01:24
    virginica mana data bunga iris
  • 00:01:27
    versicolor kita-kita seterusnya jadi
  • 00:01:29
    adalah Belnya ya dia punya label jadi
  • 00:01:33
    data dikelompokkan berdasarkan label
  • 00:01:36
    yang sama ya jadi artis beginikah
  • 00:01:39
    dikumpulkan berdasarkan labelnya ya
  • 00:01:41
    sesama artis virginica begitu ya atau
  • 00:01:44
    misalnya email yang spam dikumpulkan
  • 00:01:46
    dengan sesama email yang labelnya spam
  • 00:01:49
    akhirnya kemudian
  • 00:01:51
    klasterisasi Apa itu nah sebetulnya ya
  • 00:01:55
    kalau kita lihat ya antara klasifikasi
  • 00:01:58
    dengan keras saat ini sebenarnya ada
  • 00:02:01
    sedikit kemiripan apa kemiripannya yakni
  • 00:02:04
    sama-sama mengelompokkan data ya
  • 00:02:07
    sama-sama mengelompokkan data tapi
  • 00:02:09
    bedanya bedanya disini kalau klasifikasi
  • 00:02:12
    kita kelompokkan datanya berdasarkan
  • 00:02:15
    kesamaan label ya dagang klasterisasi ya
  • 00:02:19
    dia tidak melihat label dan biasanya
  • 00:02:21
    tidak ada labelnya maka klasterisasi
  • 00:02:24
    mengelompokkan data itu berdasarkan
  • 00:02:26
    kemiripan dari data tersebut ya
  • 00:02:29
    kemiripan dari data tersebut nah
  • 00:02:32
    kemiripan ini dilihat dari mana dilihat
  • 00:02:34
    dari nilai nilai atributnya nilai-nilai
  • 00:02:36
    kolom yang ada pada database tersebut
  • 00:02:39
    dihitung kemiripannya makan nanti data
  • 00:02:42
    yang mirip itu dikelompokkan ya Dan
  • 00:02:45
    ingat kita tidak melihat label karena
  • 00:02:47
    klasterisasi tidak melibatkan label
  • 00:02:49
    disini sebagai ilustrasinya ya kita akan
  • 00:02:52
    lihat Bagaimana beda antara klasifikasi
  • 00:02:54
    dengan klasterisasi misalkan Saya punya
  • 00:02:58
    koleksi mobil seperti ini Oh ya saya
  • 00:03:01
    punya koleksi mobil seperti ini di
  • 00:03:04
    sebelah kanan bawah atau kiri bawah itu
  • 00:03:07
    adalah koleksi atau kelompok mobil-mobil
  • 00:03:09
    dari pabrikan Toyota
  • 00:03:11
    jadi bagian atas di kanan atas itu
  • 00:03:14
    adalah koleksi mobil dari pabrikan Honda
  • 00:03:17
    Nah kalau Anda lihat di sini ya
  • 00:03:20
    mobil-mobil ini dikelompokkan
  • 00:03:22
    berdasarkan pabrikannya mana yang Toyota
  • 00:03:25
    mana yang Honda inilah klasifikasi ya
  • 00:03:29
    jadi mobil dikelompokkan berdasarkan
  • 00:03:32
    label misalnya sini label ya labilnya
  • 00:03:35
    adalah pabrikannya Tadi ia ini Toyota
  • 00:03:37
    ataupun Honda ini klasifikasi nah Lalu
  • 00:03:41
    klasterisasi bagaimana ingat tadi kata
  • 00:03:43
    kuncinya klasterisasi itu mengelompokkan
  • 00:03:46
    data berdasarkan
  • 00:03:47
    kemiripannya ya kemiripan datanya jadi
  • 00:03:50
    gini kalau nih kalau ini adalah
  • 00:03:53
    klasifikasi mereka kalau saya
  • 00:03:54
    klasterisasi dia bisa berubah seperti
  • 00:03:56
    ini teman-teman kalau misalkan disini
  • 00:03:59
    saya Hai saya mengelompokkan mobil ini
  • 00:04:01
    kedalam 2 Cluster di sini kita sebut
  • 00:04:04
    dengan istilah Cluster ya Cluster atau
  • 00:04:06
    kelompok yang bawah sistem Cluster 1
  • 00:04:10
    yang atasnya sebut dengan cluster2 Kalau
  • 00:04:13
    Anda lihat di sini ya setiap Cluster itu
  • 00:04:17
    mengandung komposisi atau pabrikan mobil
  • 00:04:20
    yang berbeda-beda ya di Cluster 1 itu
  • 00:04:23
    ada mobil dari Toyota ada juga mobil
  • 00:04:25
    tadi Honda Sama halnya dengan di Cluster
  • 00:04:28
    2 ada mobil dari pabrikan Toyota dan
  • 00:04:30
    juga pabrikan Honda Nyalakan Bagaimana
  • 00:04:34
    pengelompokan ini terjadi pengelompokan
  • 00:04:35
    yang terjadi berdasarkan kemiripan
  • 00:04:38
    datanya kemiripan datang lihat Disini di
  • 00:04:41
    Cluster 1 kita bisa lihat di sana semua
  • 00:04:44
    mobil di Cluster 1 itu memiliki atau
  • 00:04:47
    cirinya adalah memiliki kapasitas
  • 00:04:51
    penumpang sebanyak lima orang ya Ada
  • 00:04:54
    sedan Ada apa namanya hacthback gitu ya
  • 00:04:58
    Ada Agya di situ ada lagi itu misalnya
  • 00:05:00
    Toyota Yaris ya dan seterusnya sedangkan
  • 00:05:04
    di klaster kedua kita bisa lihat di situ
  • 00:05:06
    Itu adalah kelompok dimana mobil-mobil
  • 00:05:09
    tersebut memiliki kapasitas penumpang
  • 00:05:11
    sebanyak tujuh orang gitu kan Nah dalam
  • 00:05:14
    hal ini pengelompokan kita lakukan
  • 00:05:17
    berdasarkan kapasitas penumpangnya
  • 00:05:19
    begitu nah contoh lainnya saya bisa
  • 00:05:23
    kelompokkan lagi ya mobil-mobil ini ke
  • 00:05:26
    dalam cluster yang lebih banyak misalkan
  • 00:05:28
    tiga klaster
  • 00:05:30
    dia Cluster makan hati jadi akan beda
  • 00:05:32
    lagi ya mobil yang warnanya cerah
  • 00:05:35
    dikelompokkan di Cluster nomor satu
  • 00:05:38
    mobil yang warnanya gelap dikelompokkan
  • 00:05:40
    di Cluster warna dua mobil yang warna
  • 00:05:42
    putih dikelompokkan di Cluster nomor
  • 00:05:44
    tiga gitu nah ini ini merupakan
  • 00:05:48
    klasterisasi jadi kita tidak melihat
  • 00:05:50
    mana pabrikan Toyota mana pabrikan Honda
  • 00:05:53
    kita ngelihat labelnya yang kita lihat
  • 00:05:56
    adalah kemiripan ya kemiripan dari data
  • 00:05:59
    tersebut cute kemiripannya bisa dari
  • 00:06:02
    bentuknya misalnya atau dari warnanya
  • 00:06:05
    atau lain sebagainya
  • 00:06:07
    Bisakah siapa jam lagi saya buat kelas
  • 00:06:10
    lebih banyak lagi saya buat jadi empat
  • 00:06:11
    klaster maka bisa dia seperti ini ya
  • 00:06:14
    Cluster warna kuning ada di Cluster
  • 00:06:16
    nomor satu ya mobil warna merah di
  • 00:06:18
    Cluster nomor 4 dan seterusnya ini
  • 00:06:21
    namanya klasterisasi atau klastering
  • 00:06:24
    jadi kita enggak lihat label datanya
  • 00:06:26
    yang kita lihat adalah kemiripan datanya
  • 00:06:29
    data yang mirip akan dikelompokkan
  • 00:06:31
    dengan sesama data yang mirip itu
  • 00:06:33
    ini ya prinsip dasar dari klasterisasi
  • 00:06:36
    mudah-mudahan paham ya bedanya antara
  • 00:06:38
    klasterisasi dengan klasifikasi oke
  • 00:06:43
    nah sekarang
  • 00:06:45
    pertanyaannya adalah bagaimana cara kita
  • 00:06:48
    menentukan kemiripan data
  • 00:06:51
    jawabannya adalah dengan menggunakan
  • 00:06:54
    alat ukur yakni melakukan pengukuran
  • 00:06:57
    jarak datang ya melakukan pengukuran
  • 00:06:59
    jarak nah biasanya disini kurang jarak
  • 00:07:02
    data itu dihitung menggunakan persamaan
  • 00:07:04
    yuk Lidya the distance namanya ya
  • 00:07:08
    ilmunya seperti itu d&d ini adalah
  • 00:07:11
    distance nya atau jarak antar datanya it
  • 00:07:14
    didefinisikan sebagai akar pangkat 2
  • 00:07:16
    dari Sigma atau penjumlahan dari itu
  • 00:07:19
    letak simbol Sigma ya simbol Sigma Sigma
  • 00:07:23
    to arti penjumlahan ya the symbolic
  • 00:07:26
    huruf itu ya itu simbol Sigma arti
  • 00:07:28
    penjumlahan apa yang dijumlahkan yang
  • 00:07:31
    dijumlahkan adalah selisih antara exit
  • 00:07:34
    dengan yay jadi X dikurang Yi lalu
  • 00:07:37
    dikuadratkan
  • 00:07:38
    exin apa aksi ini adalah atribut dari
  • 00:07:42
    data yang pertama Yei ini adalah atribut
  • 00:07:45
    dari data yang kedua yang kita akan
  • 00:07:47
    menghitung jarak antar data Artikan ada
  • 00:07:50
    dua data dibandingkan ya ada dua data
  • 00:07:52
    yang hitung jaraknya disini X ini
  • 00:07:54
    atribut dari data pertama Yei atribut
  • 00:07:58
    dari data yang kedua di menyerahkan
  • 00:08:00
    hasil kuadrat menjumlahkan nanti Nah
  • 00:08:04
    kita tahu bahwa yang namanya data itu
  • 00:08:06
    pasti atributnya banyak ya maka di sini
  • 00:08:09
    ya kita tulis itu exit dan Yi ih disitu
  • 00:08:13
    menyatakan indeks dari atributnya
  • 00:08:16
    atribut kesatu kedua ketiga keempat
  • 00:08:18
    kelima dan seterusnya sampai atribut
  • 00:08:21
    yang ke-n ya atribut yang terakhir makan
  • 00:08:24
    disitu ditulis seksi yei yei itu adalah
  • 00:08:28
    nomor indeks atributnya dari satu sampai
  • 00:08:30
    dengan n penting kalian Bagaimana
  • 00:08:33
    ilustrasinya ya Hei
  • 00:08:36
    misal Saya punya data nih data mobil ada
  • 00:08:40
    tiga atribut disitu ada kapasitas
  • 00:08:43
    penumpang kapasitas mesin dan panjang
  • 00:08:46
    mobilnya ya Ada tiga data di sini 3D
  • 00:08:49
    chord ya kemudian saya punya data baru
  • 00:08:52
    nih Ya saya punya data baru tabel warna
  • 00:08:55
    hitam itu ya Nah Saya ingin mengukur
  • 00:08:58
    jarak dari data Nike data yang ada di
  • 00:09:01
    atasnya itu eh maupun jaraknya
  • 00:09:03
    menggunakan YKS tadi maka ya untuk jarak
  • 00:09:08
    pertama ya nih Jangan Tarra data baru
  • 00:09:11
    dengan data yang pertama Ya data yang
  • 00:09:13
    pertama di atas itu kita bisa hitung
  • 00:09:15
    dengan di sama dengan aneh kita sebut
  • 00:09:18
    dengan D1 D1 = akar ya akan dari tujuh
  • 00:09:23
    orang 7 pangkat 2 ditambah 2,4 kurang
  • 00:09:25
    1,5 pangkat 2 dan seterusnya
  • 00:09:28
    tahu bagaimana cara mendapatkan rumus
  • 00:09:30
    ini enggak kita bahas oke benar lihat di
  • 00:09:34
    sini ya ingat di sini kita mengukur
  • 00:09:37
    jarak antara data yang baru ya data pada
  • 00:09:40
    tabel yang hitam itu dengan data pertama
  • 00:09:42
    di tabel yang biru yah data pertama di
  • 00:09:45
    tabel yang biru melihat disitu tujuh
  • 00:09:48
    kurang 7 terdapat dari mana dapat dari
  • 00:09:52
    sini ya kapasitas penumpang dari data
  • 00:09:55
    baru itu dikurangi dengan kapasitas
  • 00:09:58
    penumpang dari data yang di atas
  • 00:10:00
    kata-kata pertama yang diatas oke nah
  • 00:10:04
    kemudian berikutnya
  • 00:10:05
    2,4 dikurang 1,5 itu adalah kapasitas
  • 00:10:10
    mesin dari data yang baru dikurangi
  • 00:10:13
    dengan kapasitas mesin dari data yang di
  • 00:10:15
    atasnya itu
  • 00:10:16
    1,5 ya 2,4 dikurang 1,5 selanjutnya
  • 00:10:21
    dengan cara yang sama iya 4,8 dikurang
  • 00:10:24
    4,6 itu adalah panjang mobil dari data
  • 00:10:28
    yang baru tabel yang bawah dikurangi
  • 00:10:30
    dengan panjang mobil dari data yang atas
  • 00:10:32
    data pertama ya tetap bertahan pada
  • 00:10:34
    tabel yang diatas
  • 00:10:36
    maka kita dapat disitu ya D1 = akar
  • 00:10:41
    pangkat 2 dari 767 pangkat 2 ditambah
  • 00:10:44
    2,4 kurang 1,5 pangkat 2 ditambah 4,8
  • 00:10:48
    kurang 4,6 angkat dua
  • 00:10:51
    lagi nah dengan cara yang sama kita bisa
  • 00:10:55
    Hitung jarak data baru dengan data kedua
  • 00:10:59
    di tabel yang atas Hai yang ide2 Mama
  • 00:11:03
    nih ya tujuh kurang lima itu adalah
  • 00:11:06
    kapasitas penumpang pada data yang baru
  • 00:11:08
    dikurangi kapasitas penumpang pada data
  • 00:11:12
    kedua di tabel yang atas ya 2,4 kurang
  • 00:11:16
    1,2 dapat dari
  • 00:11:18
    kapasitas mesin dari data yang baru
  • 00:11:20
    dikurangi kapasitas mesin ya pada data
  • 00:11:24
    kedua di tabel yang atas
  • 00:11:26
    jenis-jenis sama 4,8 kurang 3,7 ini
  • 00:11:30
    panjang mobilnya dan baru dikurang data
  • 00:11:32
    yang di atasnya
  • 00:11:34
    Ya saya rasa Gampang sekali sehingga
  • 00:11:36
    dengan cara yang sama juga kita dapatkan
  • 00:11:38
    d3nya seperti ini ah D1 D2 D3 ini adalah
  • 00:11:43
    jarak data baru terhadap data yang ada
  • 00:11:47
    di atas tadi yang D1 tuh mati jarak
  • 00:11:50
    datar baru dengan data pertama D2 jarak
  • 00:11:53
    data baru dengan data yang kedua D3
  • 00:11:55
    adalah jarak datar baru dengan data yang
  • 00:11:58
    ketiga minyak itu dengan kalkulator ya
  • 00:12:01
    berhasil seperti
  • 00:12:03
    Nah teman-teman lihat di sini ya kita
  • 00:12:07
    tahu bahwa disini data baru ternyata
  • 00:12:09
    jaraknya sangat kecil atau sangat dekat
  • 00:12:12
    dengan data yang ketiga data baru yang
  • 00:12:15
    kita miliki tabel yang bawah itu
  • 00:12:17
    memiliki jarak yang paling kecil jarak
  • 00:12:21
    yang sangat dekat dengan data yang
  • 00:12:22
    ketiga jaraknya hanya 0,4 12 artinya Apa
  • 00:12:28
    artinya data baru kita memiliki
  • 00:12:30
    kemiripan yang kuat dengan data yang
  • 00:12:32
    ketiga itu sebaliknya kita bisa lihat
  • 00:12:35
    jarak data baru dengan data kedua sangat
  • 00:12:38
    jauh ya jaraknya adalah 2,5 79 jarak
  • 00:12:42
    yang sangat jauh ini ya jadi dari jarak
  • 00:12:45
    ini kita bisa lihat atau data itu dia
  • 00:12:48
    mirip dengan data yang mana
  • 00:12:50
    Nah kalau kita ilustrasikan ke dalam eh
  • 00:12:54
    apa kurva x koma y ya misalkan data
  • 00:12:58
    pertama kita masukkan di sini ya De
  • 00:13:00
    utama tadi punya kapasitas penumpang 77
  • 00:13:04
    orang ya kemudian kapasitas mesinnya
  • 00:13:08
    kalau masalah 1,5 ya panjang mobilnya
  • 00:13:11
    adalah 4,6 ada tetap pertama disitu
  • 00:13:13
    nyata kedua tadi kepasitas mobilnya
  • 00:13:16
    adalah lima penumpang nah disini lihat
  • 00:13:19
    data yang lingkaran itu adalah data
  • 00:13:21
    untuk mobil dengan kapasitas lima
  • 00:13:24
    penumpang yang akan data yang kota itu
  • 00:13:26
    adalah data mobil dengan kapasitas tujuh
  • 00:13:29
    penumpang ya saya bedakan saya bedakan
  • 00:13:32
    karena tadi kan kita punya tiga dimensi
  • 00:13:34
    ya kita punya tiga atribut ya untuk
  • 00:13:37
    atribut panjang mobil dan kapasitas
  • 00:13:39
    mesin kita wakil dengan kurva X dan Y
  • 00:13:41
    yang kan untuk kapasitas penumpangnya
  • 00:13:44
    kita wakilkan dengan bentuk Datanya ada
  • 00:13:47
    yang kota ada yang bulat gitu ya
  • 00:13:50
    kemudian data yang ketiga itu tadi yang
  • 00:13:54
    cc-nya 2,0 ya dan panjangnya 4,9 gitu ya
  • 00:13:58
    penumpangnya
  • 00:14:00
    adalah tujuh orang
  • 00:14:01
    enggan kita Pindad abadi cinta di yang
  • 00:14:05
    hitamnya Allah data baru kita tadi ya
  • 00:14:06
    yang hitam ini adalah data baru kita
  • 00:14:09
    terjadi dengan kapasitas penumpang 47
  • 00:14:11
    orang kemudian panjang mobilnya
  • 00:14:14
    kelongsoran 4,8 ya pakai balapan dengan
  • 00:14:16
    cc-nya 2,4 ya kapasitas mesinnya 2,4
  • 00:14:20
    ini ya ilustrasinya jadi data yang kotak
  • 00:14:24
    itu mewakili data in tujuh penumpang dan
  • 00:14:26
    yang lingkaran itu yang lima penumpang
  • 00:14:28
    ya Nah kalau kita lihat secara kasat
  • 00:14:31
    mata di sini ya terserah visual terlihat
  • 00:14:35
    sekali ya bahwa data baru yakni kotak
  • 00:14:38
    hitam itu itu sangat dekat dengan data
  • 00:14:40
    yang ketiga sangat dekat dengan data
  • 00:14:42
    yang ketiga artinya dia punya kemiripan
  • 00:14:44
    disitu Iya nah ini adalah ilustrasi
  • 00:14:47
    Bagaimana menghitung jarak data
  • 00:14:50
    menghitung kemiripan antar satu data
  • 00:14:52
    dengan data yang lainnya menggunakan
  • 00:14:54
    algoritma atau menggunakan rumus iklim
  • 00:14:56
    Dian distance Oke sekarang kita lihat
  • 00:14:59
    dulu Hai apa sebenarnya manfaat dari
  • 00:15:02
    klasterisasi ini kenapa kita melakukan
  • 00:15:06
    klasterisasi pertama tentu saja untuk
  • 00:15:08
    membantu kita mensegmentasi data
  • 00:15:10
    bayangkan kalau tak punya data yang
  • 00:15:13
    sangat banyak itu Ya kita pasti bingung
  • 00:15:16
    ya bagaimana membagi data ini ia
  • 00:15:18
    mengelompokkan data ini maka telah Reza
  • 00:15:20
    sih bisa kita pakai disitu untuk
  • 00:15:21
    mensegmentasi data kita atau misalkan
  • 00:15:24
    kita punya ecommerce misalnya minyak
  • 00:15:26
    data ecommerce Kemudian kelompokkan
  • 00:15:29
    didata ecommerce gitu misalnya kita mau
  • 00:15:31
    kelompokkan sedang 22 kelompok nih yang
  • 00:15:34
    2 Cluster kita pengen lihat nih Mana
  • 00:15:37
    pelanggan yang loyal dan menang
  • 00:15:38
    pelanggan yang ya musiman enggak loyal
  • 00:15:40
    gitu ya bisa dengan menggunakan
  • 00:15:42
    segmentasi atau telah Reza si ini gitu
  • 00:15:44
    jadi dia akan mengelompokkan data secara
  • 00:15:47
    otomatis
  • 00:15:47
    beda kalau kita melabeli data ya
  • 00:15:50
    diklasifikasikan kita harus melabeli
  • 00:15:52
    data melabeli data itu kan harus manual
  • 00:15:55
    ya kalau ini enggak ayah kedua ya karena
  • 00:15:59
    kita bisa cuman segmentasi data maka
  • 00:16:02
    plus Reza sini bisa membantu kita untuk
  • 00:16:04
    melakukan proses labelisasi data untuk
  • 00:16:08
    dipakai diklasifikasi ya bayangkan
  • 00:16:10
    tadinya kalau kita datanya banyak sekali
  • 00:16:12
    jutaan baris kemudian harus diisi
  • 00:16:15
    labelnya misalnya kalau manual kan capek
  • 00:16:18
    maka kita bisa pake bantuan dari
  • 00:16:21
    klasterisasi ya untuk mengelompokkan
  • 00:16:24
    data kemudian dapat dikelompokkan bisa
  • 00:16:26
    kita kasih label bisa kita beri label
  • 00:16:28
    sehingga nanti bisa dipakai untuk
  • 00:16:30
    petugas klasifikasi Oke berikutnya lain
  • 00:16:35
    dengan segmentasi data juga tadi
  • 00:16:37
    klasterisasi atau klastering ini juga
  • 00:16:40
    bisa dipakai untuk kompresi gambar ya
  • 00:16:42
    meng-cover mengkompresi warna dari suatu
  • 00:16:46
    gambar-gambar digital itu ya jadi-jadian
  • 00:16:49
    game yang tadi gambarnya besar ukurannya
  • 00:16:51
    ya Bahkan tadi kita punya gambar
  • 00:16:53
    misalnya ya ada gambar dengan ukuran
  • 00:16:55
    lima MB misalnya kalau warnanya kita
  • 00:16:58
    kompres ya keinginan klasterisasi itu
  • 00:17:01
    mungkin bisa turun dari lima MB mungkin
  • 00:17:03
    hanya di satu MB saja Misalnya seperti
  • 00:17:05
    ini beberapa manfaat dari kelas tadi
  • 00:17:07
    Sasi data
  • 00:17:10
    oke sekarang Nah kita bahas algoritmanya
  • 00:17:15
    nih jadi
  • 00:17:17
    klasterisasi data itu sebenarnya ada
  • 00:17:19
    banyak algoritmanya tetapi yang paling
  • 00:17:21
    sering dipakai dan yang paling simple
  • 00:17:23
    itu adalah algoritma k-means namanya
  • 00:17:27
    k-means selain Kamis itu ada lagi yang
  • 00:17:30
    namanya optics ada dent clue ada db scan
  • 00:17:35
    ada agglomerative banyak ya Jadi ada
  • 00:17:38
    segera ada banyak sekali algoritma
  • 00:17:40
    clustering Plato prestasi
  • 00:17:43
    tapi di video ini kita bahas yang paling
  • 00:17:46
    simpel dulu saja ya nih cammins oke ya
  • 00:17:48
    Nah Apa itu Kamis ya Kamis itu merupakan
  • 00:17:52
    suatu algoritma untuk klasterisasi data
  • 00:17:55
    yang berbasis yang basisnya adalah dari
  • 00:17:59
    ukuran enak data terhadap pusat Cluster
  • 00:18:02
    terdekat jadi di sini ada keyboard ada
  • 00:18:05
    kata kunci pusat Cluster teman-teman ya
  • 00:18:08
    Jadi nanti data ini kita kelompokkan
  • 00:18:11
    berdasarkan pusat-pusat cluster yang
  • 00:18:14
    kita buat ya setiap data dikelompokkan
  • 00:18:17
    terhadap pusat cluster yang paling dekat
  • 00:18:19
    dengan dia Yogya Bagaimana instalasinya
  • 00:18:22
    seperti ini ya
  • 00:18:23
    bisa usai punya data seperti ini data
  • 00:18:27
    dengan dua atribut x&y kemudian
  • 00:18:30
    misalkan Saya punya tiga pusat Cluster
  • 00:18:33
    atau tiga sentroid ya yang tanda plus
  • 00:18:36
    merah itu Ya udah nanti disini setiap
  • 00:18:39
    pusat Cluster ini itu akan membentuk
  • 00:18:42
    satu Cluster berdasarkan data-data yang
  • 00:18:45
    terdekat dengan dia sehingga nanti kalau
  • 00:18:48
    Anda lihat di sini ya jadi tiga pusat
  • 00:18:51
    Cluster ini kita bisa mendapatkan tiga
  • 00:18:53
    buah Cluster atau tiga buah kelompok
  • 00:18:55
    data yang berbeda yakni kelompok yang
  • 00:18:58
    warna biru yang di atas itu Aku anak
  • 00:19:00
    kuning dan juga cluster yang warna hijau
  • 00:19:02
    nah ini setiap data tadi dikelompokkan
  • 00:19:06
    berdasarkan kedekatan dia dengan setiap
  • 00:19:09
    pusat Cluster nya ya atau sentrik nyata
  • 00:19:11
    di ini bagaimana Kamis mengelompokkan
  • 00:19:16
    data gitu ya
  • 00:19:17
    Ada tiga klaster berbeda disitu nah
  • 00:19:21
    sekarang pertanyaannya adalah bagaimana
  • 00:19:24
    kita menentukan posisi dari pusat
  • 00:19:27
    Cluster tadi ya Bagaimana kita tahu
  • 00:19:30
    bahwa pusat cluster yang disitu letaknya
  • 00:19:33
    in pertanyaan yang paling penting yang
  • 00:19:34
    harus dia pertama kali ini
  • 00:19:36
    disini jadi bagaimana menentukan posisi
  • 00:19:41
    dari pusat Cluster itu maka langkah
  • 00:19:43
    pertamanya harus tentukan dulu ya berapa
  • 00:19:47
    jumlah pusat cluster yang ingin kita
  • 00:19:49
    gunakan jadi dik Amin ya di algoritma
  • 00:19:52
    k-means sebelum kita melakukan
  • 00:19:55
    pengelompokan data yang kita harus
  • 00:19:57
    tentukan dulu nih kita pengen bentuk ini
  • 00:20:00
    Ayo kita ke dalam berapa cluster berapa
  • 00:20:02
    kelompok ya nanti kita lihat bagaimana
  • 00:20:05
    cara kerjanya nih bisa oleh misal disini
  • 00:20:08
    Saya
  • 00:20:10
    punya data lagi seperti ini teman-teman
  • 00:20:12
    dan ingat di awal ya Nah cara kerja
  • 00:20:15
    Kamis itu adalah meletakkan pusat
  • 00:20:18
    Cluster awal itu secara acak ya Jadi
  • 00:20:21
    kami situ ya pertama kali meletakkan
  • 00:20:24
    pusat Cluster itu secara acak acak
  • 00:20:27
    Misalkan ya misalkan saya pakai nilai
  • 00:20:30
    kannya sama dengan 2 nah = 2 nih artinya
  • 00:20:34
    saya mau membentuk sebanyak dua klaster
  • 00:20:38
    dari data yang saya punya ini Nah maka
  • 00:20:41
    langkah pertamanya tentukan dulu ya
  • 00:20:44
    tentukan dulu posisi pusat Cluster di
  • 00:20:47
    awal secara acak acak acak ya misalkan
  • 00:20:53
    disitu posisinya ada dua ya karena
  • 00:20:55
    tanya2 tadi nah Makanan Ihya
  • 00:20:58
    setiap bab Cluster ini dia akan
  • 00:21:02
    mengambil kelompok data yang
  • 00:21:03
    masing-masing jadi data yang terdekat
  • 00:21:06
    dengan suatu pusat Cluster di akan masuk
  • 00:21:09
    ke Cluster tersebut Andrea ke situ ya
  • 00:21:12
    yang kuning Itu posisinya dekat dengan
  • 00:21:14
    cluster yang atas yang act yang sebelah
  • 00:21:17
    atas kuning sedangkan yang hijau itu
  • 00:21:19
    data yang hijau itu datanya dekat dengan
  • 00:21:23
    pusat cluster yang bawah money kalian
  • 00:21:26
    ikhlas terbagi dua Gan karena kayaknya
  • 00:21:28
    dua Nah kemudian nanti ya pusat Cluster
  • 00:21:32
    ini posisinya akan diubah Akan
  • 00:21:34
    diperbaiki ya bagaimana memperbaiki
  • 00:21:37
    posisinya yakin dengan cara menghitung
  • 00:21:40
    rata-rata dari setiap data yang ada ya
  • 00:21:44
    menghitung nilai rata-rata dari setiap
  • 00:21:46
    data yang ada di datang hijau bila tak
  • 00:21:49
    ratakan x-nya berapa Y nya berapa
  • 00:21:52
    rata-ratanya yang kuning juga Sama ya
  • 00:21:55
    Esnya berapa rata-ratanya Ia juga berapa
  • 00:21:58
    rata-ratanya
  • 00:22:00
    Hai nanti ya nilai rata-rata tersebut
  • 00:22:03
    lah yang menentukan pusat cluster yang
  • 00:22:05
    barunya posisi ini jadi ya teman-teman
  • 00:22:08
    yang tadinya seperti ini pusat datanya
  • 00:22:10
    atau pusat Cluster nya dia bisa
  • 00:22:12
    berpindah seperti ini
  • 00:22:15
    dia pindah ya karena apa tadi hasil
  • 00:22:19
    perhitungan rata-rata gitu ya jadi
  • 00:22:21
    setiap data di klaster tersebut banyak
  • 00:22:26
    di dengan cara yang sama nih
  • 00:22:28
    terbentuklah Store yang baru yang tadi
  • 00:22:31
    warna hijau selangit yang tadi ada yang
  • 00:22:33
    warna hijau karena pusat cluster yang
  • 00:22:36
    berpindah maka komposisi Cluster juga
  • 00:22:38
    berbeda dengan yang tadi hijau berubah
  • 00:22:41
    jadi masuk ke Cluster kuning yang
  • 00:22:43
    tadinya kuning berubah jadi masuk
  • 00:22:44
    lasernya hijau
  • 00:22:46
    dengan Shade yang sama nanti dihitung
  • 00:22:48
    lagi rata-rata nilai rata-rata dari
  • 00:22:51
    semua data ini x&y berapa terletaknya ke
  • 00:22:54
    nanti akan berubah lagi posisi dan
  • 00:22:56
    perutnya
  • 00:22:57
    berubah lagi Kemudian plaster nya juga
  • 00:23:00
    akan di-update ya data yang tadinya
  • 00:23:03
    hijau akan jadi kuning dan sebaliknya
  • 00:23:05
    juga yang tadinya kuning tadi hijau
  • 00:23:08
    Nah di sini ya proses perpindahan pusat
  • 00:23:12
    Cluster ini akan berhenti ketika
  • 00:23:15
    Perpindahan yang terjadinya perpindahan
  • 00:23:18
    pusat cluster yang terjadi sangat kecil
  • 00:23:20
    ya Atau enggak pindah sama sekali maka
  • 00:23:22
    dia berhenti disitu ini kita mendapatkan
  • 00:23:24
    dua klaster Disini yang kiri itu cluster
  • 00:23:27
    yang besar yang kadang yang kecil itu
  • 00:23:29
    ini kalau kita menggunakan dua Master
  • 00:23:34
    Bagaimana kalau kita menggunakan tiga
  • 00:23:36
    klaster kannya = 3 maka dengan cara yang
  • 00:23:39
    sama pertama kita buat dulu posisi atau
  • 00:23:42
    titik pusat Cluster awalnya secara acak
  • 00:23:46
    dengan seperti itu ya kemudian kita
  • 00:23:49
    kelompokkan dulu nih datanya berdasarkan
  • 00:23:52
    pusat Cluster terdekatnya Jadi sekarang
  • 00:23:54
    ada data yang ada cluster yang ungu
  • 00:23:56
    Cluster Kuningan cluster yang hijau
  • 00:24:00
    kemudian perbaiki ya perbaiki posisi
  • 00:24:03
    Android atau pusat Cluster nya ya
  • 00:24:06
    perbaiki ya pindah ketika dia pindah
  • 00:24:09
    maka apa komposisi cluster yang juga
  • 00:24:12
    berubah yang tadinya kuning berubah jadi
  • 00:24:14
    hijau yang tadinya kuning berubah jadi
  • 00:24:16
    Ungu misalnya atau sebaliknya gitu ya
  • 00:24:18
    kemudian dia akan berpindah Lagi
  • 00:24:21
    perbaiki lagi sehingga posisinya
  • 00:24:23
    sekarang berubah dan seterusnya
  • 00:24:25
    Iya dia berhenti ketika apa ketika di
  • 00:24:30
    pusat Cluster nya sudah tidak berpindah
  • 00:24:32
    lagi ya maka akan membentuk sebanyak
  • 00:24:35
    tiga klaster disini Buster yang ungu
  • 00:24:37
    kuning dan hijau itu ya jadi cara
  • 00:24:42
    kerjanya adalah dengan memindahkan
  • 00:24:44
    posisi pusatfasker itu ya berdasarkan
  • 00:24:47
    rata-rata dari data yang ada di klaster
  • 00:24:50
    tersebut nah ini adalah algoritma
  • 00:24:52
    k-means sangat simpel sebetulnya ya
  • 00:24:55
    sangat simple nah eh Mungkin ada yang
  • 00:24:59
    bertanya Nah tadi Bagaimana mengetahui
  • 00:25:02
    jarak data ya Bagaimana kita tahu bahwa
  • 00:25:06
    data tersebut dekat dengan satu pusat
  • 00:25:09
    Cluster Nah kita Hitung jarak
  • 00:25:10
    menggunakan Zionis terus tadi yang udah
  • 00:25:12
    kita bahas di awal video Intani ya itu
  • 00:25:16
    menggunakan rumus iklim di and distance
  • 00:25:20
    tadi jadi kita tahu nih data ini dekat
  • 00:25:23
    dengan cluster yang mana Data ini dekat
  • 00:25:25
    dengan cluster yang mana jaraknya
  • 00:25:27
    dihitung dengan YKS tadi Nah sekarang
  • 00:25:30
    Mari kita coba mengimplementasikan
  • 00:25:32
    algoritma k-means ini menggunakan
  • 00:25:35
    aplikasi Redmi Note Oke sekarang kita
  • 00:25:38
    akan demokan Iya Bagaimana menggunakan
  • 00:25:42
    algoritma k-means ya menggunakan
  • 00:25:44
    software rapidminer ini Oke Langsung
  • 00:25:47
    saja disini saya bukan lu dataset yang
  • 00:25:49
    saya punya lupa csp
  • 00:25:52
    ini
  • 00:25:54
    nanti dataset ini akan saya share Ya
  • 00:25:57
    akan saya Letakkan Link unduhnya Hai di
  • 00:26:00
    deskripsi di bawah video ini
  • 00:26:02
    teman-temannya anda bisa cek Nanti
  • 00:26:03
    disitu kita backup datanya sini datanya
  • 00:26:07
    adalah ini ya saya Zoom
  • 00:26:10
    kasetnya Nia Facebook live sellers in
  • 00:26:14
    Thailand ini saya ambil dari UC
  • 00:26:16
    seringnya jadiin dekat set publik
  • 00:26:18
    sebenarnya kita pakai ini next langsung
  • 00:26:22
    X lagi saja
  • 00:26:23
    Ah disini teman-teman lihat untuk status
  • 00:26:26
    id-nya Nikita ekskul saja ternyata
  • 00:26:29
    enggak butuh ya kemudian jika status
  • 00:26:31
    publication date nyanyi kita juga gak
  • 00:26:33
    butuh kita ekskul saja jadi kita enggak
  • 00:26:36
    kita mau nggak kita masukkan ya tidak
  • 00:26:38
    kita ikutkan kedalam
  • 00:26:40
    hatimu kita olah ya legenda kasetnya
  • 00:26:44
    Ingat klasterisasi tidak memiliki label
  • 00:26:48
    ya ya enggak punya label ih sekarang
  • 00:26:50
    kita klik finish saja
  • 00:26:53
    kalian enggak ngerti apa ya ngecek dari
  • 00:26:56
    seperti apa
  • 00:26:57
    India datanya
  • 00:27:00
    ekornya ada Rp7.000
  • 00:27:02
    7050 rekor nih ya ada sebanyak
  • 00:27:06
    7050 record pada dataset yang kita pakai
  • 00:27:09
    di sini
  • 00:27:11
    lagi sekarang langsung saja kita
  • 00:27:13
    klasterisasi ya di sini kita nggak perlu
  • 00:27:17
    nyeplit data ya kita demokan bagaimana
  • 00:27:20
    clusternya saja ya di sini operator teh
  • 00:27:23
    cari
  • 00:27:25
    amin
  • 00:27:27
    amin amin atau masukkan
  • 00:27:32
    Diva mint ya nama offroad reklasering di
  • 00:27:36
    sini ya Nah sekarang kita lihat dulu ada
  • 00:27:38
    parameter apa saja di operator
  • 00:27:40
    klastering kamin sini ya terjebak klik
  • 00:27:43
    operatornya dan kita cek di panel
  • 00:27:44
    parameter sebelah kanan itu ya eh di
  • 00:27:48
    sini ada parameter k yang secara default
  • 00:27:51
    itu diset 5 oleh revit miner ya ini bisa
  • 00:27:55
    kita ganti nih slime artinya dia ingin
  • 00:27:58
    membentuk lima cluster yang berbeda
  • 00:28:00
    misalkan kita mau bikin 2 Cluster saja
  • 00:28:02
    Misalnya the ganti2 kemudian ada
  • 00:28:05
    parameter Max Runs Max rasanya Artinya
  • 00:28:09
    kita menentukan berapa kali sirkuit
  • 00:28:11
    minat akan melakukan proses clustering
  • 00:28:13
    ya ini ya berapa kali dia akan melakukan
  • 00:28:16
    proses klastering ini dan nanti dia akan
  • 00:28:19
    menampilkan hasil yang paling baik
  • 00:28:21
    misalkan di sini default-nya adalah 10
  • 00:28:24
    nantinya kamisnya akan dijalankan 10
  • 00:28:27
    kali dan dari 10 kali itu dipilih mana
  • 00:28:29
    hasil Kamis yang paling baik itu yang
  • 00:28:31
    ditampilkan oleh redminer ini nggak
  • 00:28:34
    perlu kita ubah Biarkan saja seperti itu
  • 00:28:36
    nah yang perlu kita ubah lagi adalah in
  • 00:28:39
    teman-teman ini ya di sini meser tipsnya
  • 00:28:43
    itu default-nya adalah Black Monday
  • 00:28:45
    divergences ini kita ganti saja kmix
  • 00:28:49
    mazer ini mix mazars Kenapa karena
  • 00:28:53
    dataset yang kita miliki tadi atributnya
  • 00:28:56
    itu beda-beda ada yang tipenya nominal
  • 00:28:58
    ya polinom knuth dia ada juga yang
  • 00:29:01
    tipenya integer tadi integer dan real
  • 00:29:03
    jadi beda nih ada yang numerik ada yang
  • 00:29:06
    nominal maka supaya ifrit yang distensi
  • 00:29:09
    yang bisa bekerja dengan baik maka kita
  • 00:29:11
    ganti ke mix mazars ingin nanti di bawah
  • 00:29:15
    ini ya parameter mix misalnya akan
  • 00:29:18
    berubah jadi mix IPDN distance Iya nanti
  • 00:29:22
    kalau teman-teman misalkan punya
  • 00:29:24
    data-datanya tuh isinya integer atau
  • 00:29:27
    Real semuanya numerik semua Anda bisa
  • 00:29:30
    aja ganti ke numerikal mizarzz atau
  • 00:29:32
    bretman devergent Sis masalah ya ini
  • 00:29:36
    kita pakai mic schnizer nah kemudian
  • 00:29:38
    yang perlu kita set juga adalah maksimum
  • 00:29:42
    maksimum optimization step sedih disini
  • 00:29:46
    setnya apa nilainya diset 100 oleh
  • 00:29:49
    rakyat mainannya artinya Apa artinya
  • 00:29:52
    tadi kita lihat kami satukan setiap kali
  • 00:29:55
    proses dia memindahkan posisi sentroid
  • 00:29:58
    atau pusat Cluster nya Oh ya Nah di sini
  • 00:30:02
    kita bisa batasi berapa kali pusat
  • 00:30:05
    Cluster itu Akan berpindah misalkan
  • 00:30:08
    maksimal 100 kali ya sehingga nanti
  • 00:30:10
    kalau udah sampai 100 kali ya dia akan
  • 00:30:13
    stop dan kelas setting diambil begitu
  • 00:30:16
    atau misalnya sebelum mencapai 100 kali
  • 00:30:20
    ya ternyata si Centro ini sudah pada
  • 00:30:24
    posisi yang enggak berubah lagi maka
  • 00:30:26
    sirkuit menerjunkan menghentikan proses
  • 00:30:28
    klasterisasi nya ini ya Beberapa
  • 00:30:30
    parameter yang bisa kita setting di apa
  • 00:30:33
    namanya di operator kami nge-trend kita
  • 00:30:36
    coba ya kita koneksikan
  • 00:30:38
    sp-nya ke posternya Nikita sambungan ke
  • 00:30:43
    Rizal kita jalankan
  • 00:30:46
    ih ini hasil dari klasterisasi tadi
  • 00:30:49
    ngelihat di sini
  • 00:30:52
    eh teman-teman bisa liat di sini ya data
  • 00:30:55
    yang pertama ini masuk ke dalam Cluster
  • 00:30:58
    nol cluster yang Oh ya nanti kedua juga
  • 00:31:01
    begitu ketiga dan seterusnya Mbak kita
  • 00:31:04
    Scroll kebawah
  • 00:31:07
    high nih and ini ternyata pusatnya
  • 00:31:11
    banyak di kelas Ronald ya nih yang tak
  • 00:31:14
    6849 ini masuk ke Cluster 1
  • 00:31:18
    atau kita lihat di sini Ya sepertinya
  • 00:31:21
    perbandingan Cluster nya agak jomplang
  • 00:31:23
    nih ya Ah Anda bisa lihat di sini nih
  • 00:31:27
    eh Cluster nol banyak sekali dengan yang
  • 00:31:30
    ada di Cluster satunya sedikit sekali ya
  • 00:31:33
    hanya 141 ya Ini ini jadi plaster nya
  • 00:31:39
    seperti teman-teman
  • 00:31:41
    kemudian ini kalau Cluster modelnya
  • 00:31:44
    kayak gini ya laser nalanda 6900 mesum
  • 00:31:48
    ya Cluster 0ada 6000an ya uang salah
  • 00:31:52
    satunya 141 atau itunya 7050 ya Nah
  • 00:31:57
    kalau kita ingin menampilkan a
  • 00:32:00
    visualisasi dari klastering yang tadi
  • 00:32:02
    kita perlu beberapa setting di sini ya
  • 00:32:05
    Coba kita save disini
  • 00:32:08
    pada menu visualizations Coba kita ganti
  • 00:32:11
    ke Skeleton atau Babel ya
  • 00:32:14
    kemudian karena ini adalah kurva x koma
  • 00:32:18
    y kita hanya bisa menampilkan dua
  • 00:32:21
    atribut saja maka disini Coba kita ganti
  • 00:32:24
    ya untuk sumbu x nya kita misalkan pakai
  • 00:32:28
    eh number of commerce misalnya Kemudian
  • 00:32:32
    untuk Cluster nya kita ganti nih Agan
  • 00:32:36
    Tia
  • 00:32:36
    yang tadinya Cluster kita kembalikan ke
  • 00:32:39
    kiri untuk subuh Yeni sembunyinya nih
  • 00:32:43
    sumbu y nya kita ganti number of apa ya
  • 00:32:47
    komen share coba number of shares a
  • 00:32:51
    posisikan sebelah kanan play ya sekarang
  • 00:32:54
    kalau misalnya nih ya Nah di sini ya
  • 00:33:00
    yang kita miliki Ya seperti ini bumbu x
  • 00:33:02
    adalah number of commons dengan sumbu y
  • 00:33:05
    nya adalah number of shares jadi
  • 00:33:07
    ceritanya gini teman-teman yang paling
  • 00:33:09
    kita pakai tadi itu adalah data eh apa
  • 00:33:13
    ya postingan di Facebook ya postingan
  • 00:33:16
    jualan di Facebook yang diambil dari
  • 00:33:18
    Thailand gitu aja kita tampilkan disini
  • 00:33:21
    adalah Jumlah komentar Ya jumlah
  • 00:33:24
    komentar dan juga jumlah share dari
  • 00:33:26
    setiap postingan tersebut jumlah setnya
  • 00:33:29
    Berapa jumlah komentar yang berapa ingat
  • 00:33:31
    sumber Anda kain seperti ini Nah
  • 00:33:33
    sekarang Coba kita tampilkan Cluster nya
  • 00:33:36
    tadi sih di sini yang settingan tadi
  • 00:33:38
    pada bagian kolornya kita ganti menjadi
  • 00:33:40
    Cluster lihat Ani lo ya lele di sini
  • 00:33:46
    yang warnanya biru Iya Yang bawah ini
  • 00:33:49
    yang warnanya biru ini adalah cluster
  • 00:33:51
    yang nol tadi laser yang pertama jangan
  • 00:33:54
    yang warna hijau ini adalah cluster yang
  • 00:33:56
    ke-1 tadi yag laser yang kedua itu
  • 00:33:58
    pasrah satu ya ini Hai lihat di sini ya
  • 00:34:02
    masternya terpisah seperti itu ini kalau
  • 00:34:06
    kita menggunakan number of shares dan
  • 00:34:08
    nampak of commons Anda bisa ganti disini
  • 00:34:10
    lfc ganti zikirkan subyek diganti ya
  • 00:34:13
    jangan komen jumlah like misalnya
  • 00:34:16
    terjadi Ya seperti ini ya Ya kan Ya
  • 00:34:19
    seperti ini pastinya
  • 00:34:20
    ya jadi di sini Kita emang punya
  • 00:34:24
    keterbatasan ya kita nggak bisa
  • 00:34:25
    menampilkan semua atributnya dalam dalam
  • 00:34:27
    kurva x koma y kita hanya bisa memilih
  • 00:34:30
    dua atribut untuk ditampilkan di sini
  • 00:34:32
    gitu ya hilang yang paling bagus tadi
  • 00:34:35
    ini ya comment dan
  • 00:34:37
    eh share gitu ya seperti ini terlihat
  • 00:34:41
    nih pemisahan lasernya seperti ini Nah
  • 00:34:45
    sekarang kita coba ya mungkin kita ganti
  • 00:34:48
    nilai kannya ya tadi dua coba kita ganti
  • 00:34:52
    jadi tiga klaster ya kita ganti jadi
  • 00:34:55
    tiga klaster ternyata jalankan lagi
  • 00:34:57
    hehehe
  • 00:35:00
    Hai Gazebo lihat visualisasi yang
  • 00:35:02
    teman-temannya
  • 00:35:03
    gimana visualisasinya Oh ini dia nih
  • 00:35:07
    hadiah ini ya Jadi ada Cluster hijau
  • 00:35:11
    biru dan juga oranye atau Jingga gitu ya
  • 00:35:16
    kalau meledaknya seperti ini datanya ada
  • 00:35:19
    yang seperti ini ya
  • 00:35:21
    melihat Cluster modelnya nih
  • 00:35:23
    Cluster nol itu ada 6000an juga masih
  • 00:35:26
    Cluster 137 cluster2 ada 484
  • 00:35:32
    ini
  • 00:35:35
    Nah sekarang pertanyaan yang paling
  • 00:35:38
    mendasar nya itu adalah bagaimana ya
  • 00:35:41
    Gimana sih cara kita
  • 00:35:43
    menentukan jumlah cluster yang tepat
  • 00:35:47
    pertanyaan pentingnya Apakah dua apakah
  • 00:35:50
    tiga Apakah 4 dan seterusnya Gimana
  • 00:35:52
    caranya menentukan
  • 00:35:54
    apakah Cluster kita itu sudah baik atau
  • 00:35:57
    belum maka disini teman-teman bisa bisa
  • 00:36:00
    cek di panel operator kita cari
  • 00:36:03
    operator performance ya performance
  • 00:36:06
    untuk yang plastering
  • 00:36:09
    sini ya kali ih segmentation ini kita
  • 00:36:13
    ambil yang ini nah Cluster distance
  • 00:36:17
    performance ya kita ukur kualitas
  • 00:36:19
    Cluster kita menggunakan berapa berbasis
  • 00:36:23
    jaraknya ya kita pakai ingin ini Italia
  • 00:36:26
    ke kanvas
  • 00:36:27
    nyanyi kita terus ya Ini dari kelas
  • 00:36:32
    ternyata sambungkan kesimpulan teman ya
  • 00:36:34
    hot balik Sari maaf ini ke bawah ya Di
  • 00:36:38
    kesini yang ini ke atas ini
  • 00:36:41
    Nah sekarang ini kita kalau misalkan
  • 00:36:43
    performancenya sini
  • 00:36:46
    stempelnya juga ada nih pas rekening
  • 00:36:48
    centraza Mencoba ini dengan tiga klaster
  • 00:36:52
    ya dengan tiga klaster coba kita
  • 00:36:54
    jalankan lagi
  • 00:36:55
    Oke akan HP ini nah keenam numerical
  • 00:37:00
    keyboard oke ternyata
  • 00:37:02
    operator performance ini dia tidak mau
  • 00:37:06
    jalan karena ada atribut dari data
  • 00:37:09
    sekitarnya yang tipenya polinominal
  • 00:37:11
    yakni atribut status tipe ini Oke deh
  • 00:37:14
    kalau gitu kita drop saja ya atributnya
  • 00:37:17
    ya dan tetap saja trip 1-step tadi
  • 00:37:20
    Supaya apa namanya performa sih mau
  • 00:37:24
    jalan gitu ya ini kita klik dulu di CSB
  • 00:37:27
    nya kemudian cek di panel parameter
  • 00:37:30
    kita cari paling bagian paling bawah nih
  • 00:37:34
    ya dataset metadata ya
  • 00:37:36
    jika kemudian
  • 00:37:39
    cari satu Style Ini Anindya polinominal
  • 00:37:44
    kita centangnya kita buang aja ya kita
  • 00:37:47
    drop biaya ini tuh dengan simulasi saja
  • 00:37:50
    teman-temannya nanti kalau misalkan
  • 00:37:52
    tetap butuh atribut yang paling nominal
  • 00:37:55
    tadi teman-teman harus konversi dulu
  • 00:37:58
    yang file name ini menjadi numerik gitu
  • 00:38:01
    ya dikonversi ke numerik dulu ada
  • 00:38:03
    operatornya jadi kita buang saja biar
  • 00:38:05
    gampang Lay sekarang Coba kita jalankan
  • 00:38:10
    lagi
  • 00:38:12
    Oke ini nih ya ah kita buka tab
  • 00:38:18
    performance yang teman-teman hanya lihat
  • 00:38:20
    nih kita bisa baca di situ ya
  • 00:38:23
    websites with in centred distance ya
  • 00:38:26
    adalah minus 33 berapa nih 380.000
  • 00:38:31
    Sekian dulu ada minus ya oke Pelangi
  • 00:38:35
    Kenapa ada minus karena tadi di
  • 00:38:37
    performancenya kita belum centang
  • 00:38:39
    maximize nih ya aksi masih lupa centang
  • 00:38:43
    lebih ini kita channel Maxim esnya
  • 00:38:45
    supaya nanti hasilnya enggak negatif
  • 00:38:47
    gitu ya tolong lagi
  • 00:38:50
    nah sekarang di Tab performance ini
  • 00:38:54
    Nah kita bisa lihat nih kampret Swittins
  • 00:38:58
    centred distance adalah 300 7000 sekian
  • 00:39:01
    gitu ya artinya Apa artinya rata-rata
  • 00:39:04
    jarak dalam tiap klaster itu kan kita
  • 00:39:08
    punya tinggal sekali ya kita punya tidak
  • 00:39:10
    laser tadi Nah rata-rata jarak data di
  • 00:39:13
    tiap klaster itu adalah 380
  • 00:39:17
    7385 ini ya Ah ini jarak rata-ratanya
  • 00:39:22
    nanti gini ya jarak rata-rata ini ini
  • 00:39:26
    kita copy Aku pilih nanti coba kita
  • 00:39:30
    paste kan ke Excel atau ya aplikasi
  • 00:39:32
    semacamnya gitu ya nanti kita akan coba
  • 00:39:35
    analisis ya berdasarkan nilai empret
  • 00:39:38
    sini ya kabar apa yang harusnya kita
  • 00:39:41
    pakai pada klaster yang kita buat ini
  • 00:39:44
    gitu cuma Dian ya itu lakukan running
  • 00:39:48
    kembali tetapi disini nilai kain kita
  • 00:39:50
    ganti Nah tadi mereka 3 ya tadi nilai
  • 00:39:54
    kayaknya tiga Sekarang kita coba ganti
  • 00:39:55
    jadi dua dengan di dua ya lalu kita
  • 00:39:59
    jalankan lagi Hai pelanggan
  • 00:40:01
    kemudian kita chat lagi performance
  • 00:40:05
    vektornya ya ini kita copy lagi copy
  • 00:40:08
    kita copy lagi Memang iya teh kopi
  • 00:40:11
    masukkan ke XL ya tapi masukkan ke XL
  • 00:40:14
    kalai kemudian kita lakukan cara yang
  • 00:40:16
    sama ya untuk nilai k yang lain ya di
  • 00:40:19
    sini saya coba akan pakai nilainya
  • 00:40:20
    nilainya 2 sampai dengan ke-7 jadi
  • 00:40:26
    234567 ya kita coba ya
  • 00:40:29
    semuanya Nah sekarang saya sudah
  • 00:40:32
    melakukan eh klasterisasi dengan kambing
  • 00:40:35
    sebanyak berapa kali ini enam kali ya
  • 00:40:37
    enam kali dengan nilai k23 sampai dengan
  • 00:40:41
    ke-7 ini menjadi avents distancia saya
  • 00:40:45
    catat saya masukkan ke sini
  • 00:40:46
    teman-temannya sekarang kita akan
  • 00:40:49
    melakukan teknik yang namanya elbow
  • 00:40:51
    method ya elbow method elbow support ya
  • 00:40:57
    Jadi kita ingin menentukan pernah nilai
  • 00:41:00
    k yang tepat ya pada klaster kita ini
  • 00:41:03
    Baihaqi hasil plastiknya itu bagus ya
  • 00:41:06
    menggunakan teknik yang disebut dengan
  • 00:41:08
    elbow metalborg teknik gitu ya elbowed
  • 00:41:10
    botusi Kuya itu nah sekarang Eh Bells
  • 00:41:15
    distensi tadi kita seleksi yang kita
  • 00:41:18
    seleksi ini kemudian kita visualisasikan
  • 00:41:20
    ya menggunakan kurva x koma y
  • 00:41:24
    Ini aja Iya di sini
  • 00:41:27
    kita mau semuanya
  • 00:41:29
    dan sekarang kita bisa lihat di sini ya
  • 00:41:32
    Sesuai dengan namanya elbow method l
  • 00:41:35
    butuhkan si Kuya Nasibku Jadi sini kita
  • 00:41:38
    akan mencari kurva yang bentuknya paling
  • 00:41:41
    siku yang bentuknya paling siku itu yang
  • 00:41:44
    mana Ini bagian sini ini Paling siku
  • 00:41:48
    dengan kalau yang lain ini enggak sih
  • 00:41:50
    Kuya perbedaannya enggak enggak
  • 00:41:52
    signifikan melihat di sini kalian
  • 00:41:54
    internet banget sih punya ya makan nanti
  • 00:41:57
    di sini lihat didata yang di atas ini
  • 00:42:00
    yang pertama ini adalah data Everest
  • 00:42:02
    distance pada
  • 00:42:04
    ktanya dua ya ini saat ke-3 ih saat
  • 00:42:08
    kannya 4 ini saat kannya 5 6 dan 7 Rita
  • 00:42:13
    ya elbow nya sikunya ada di sini pada
  • 00:42:17
    saat kannya 3 nanti dengan Eldo metode
  • 00:42:20
    ini kita bisa ambil kesimpulan bahwa
  • 00:42:23
    nilai k yang paling bagus untuk data
  • 00:42:26
    kita tadi itu adalah 3 ya 3 Cluster
  • 00:42:30
    mengganti kita bisa Tentukan obati dari
  • 00:42:32
    sini saya bisa pakai tiga klaster ya
  • 00:42:36
    seperti itu caranya jadi ini teknik
  • 00:42:38
    untuk menentukan Berapa nilai cluster
  • 00:42:41
    yang paling bagus oke NK coba Iya ke
  • 00:42:45
    cobakan nilai k3di
  • 00:42:48
    recruitment.ka.id Takan udah kembali
  • 00:42:50
    kyrakidz mindernya kita klik eh
  • 00:42:54
    klastering nya kita ganti kannya
  • 00:42:56
    33 ini ya maka kita dapatkan hasil yang
  • 00:43:00
    seperti ini nah ini pun jadi ini adalah
  • 00:43:03
    hasil klasterisasi menggunakan Kamis
  • 00:43:05
    dengan jumlah kas = 3 di mana tadi nilai
  • 00:43:10
    tiga lah jumlah cluster yang paling
  • 00:43:12
    bagus ya setelah kita menggunakan teknik
  • 00:43:15
    elbow mepet ya dimana disini amprex
  • 00:43:19
    distance ya rata-rata jarak pada setiap
  • 00:43:22
    Cluster itu adalah Spanyol sebesar
  • 00:43:26
    380.000 sekian ya jarak data ya pada
  • 00:43:31
    setiap Cluster
  • 00:43:33
    ini ini mungkin hanya dasar saja
  • 00:43:36
    teman-teman tentu saja bisa belajar dari
  • 00:43:38
    sumber lain yang lebih kaya materinya
  • 00:43:40
    gitu ya mudah-mudahan video ini bisa
  • 00:43:43
    membantu teman-teman dalam memahami
  • 00:43:44
    Bagaimana cara kerja Kamis dan bagaimana
  • 00:43:48
    menerapkan algoritma k-means di
  • 00:43:49
    rapidminer jadi saya kira sekian saja
  • 00:43:53
    video ini ia benda mudahan teman-teman
  • 00:43:56
    bisa mendapatkan pelajaran manfaat dari
  • 00:43:58
    sini Insyaallah jumpa lagi di video
  • 00:44:00
    selanjutnya terima kasih assalamualaikum
  • 00:44:02
    warahmatullah wabarakatuh
Etiquetas
  • klasterisasi
  • k-means
  • algoritma
  • data
  • klasifikasi
  • kemiripan
  • Euclidean distance
  • RapidMiner
  • pengelompokan
  • segmentasi