00:00:02
Assalamualaikum warahmatullahi
00:00:03
wabarakatuh bertemu kembali dengan saya
00:00:07
Nur Alamsyah
00:00:10
kali ini kita akan berbagi caranya
00:00:14
bagaimana
00:00:15
kita menscrapping data dari
00:00:19
website
00:00:21
Teknik scrapping ini biasa atau lazim
00:00:26
digunakan para reserser atau para
00:00:30
peneliti untuk mengumpulkan data set nah
00:00:37
Sebenarnya ada beberapa cara
00:00:40
salah satunya adalah dengan menggunakan
00:00:43
tools dan kali ini terus yang akan kita
00:00:48
gunakan itu adalah
00:00:51
tools oktopas nah terus octopus ini
00:00:56
menurut saya cukup powerful untuk
00:01:00
mengambil data dari website tentunya
00:01:04
untuk keperluan riset Nah bagi
00:01:09
rekan-rekan mungkin yang belum memiliki
00:01:11
tools ini tools ini bisa di install
00:01:13
tinggal ketikkan saja di Google ya kata
00:01:17
kuncinya adalah octopus nah kemudian
00:01:20
nanti bisa di download kemudian diinstal
00:01:25
terus octopus ini bisa kita gunakan
00:01:28
secara gratis namun tentu ada batasan
00:01:35
batasannya itu adalah maksimal kita bisa
00:01:39
mengekstrak sampai 10 kali saja gitu ya
00:01:42
kalau mau lebih dari 10 kita bisa
00:01:44
mengupgrade akun kita untuk berbayar
00:01:48
baik rekan-rekan kita akan coba
00:01:50
demonstrasikan
00:01:52
caranya bagaimana
00:01:54
menscrating data kali ini misalnya kita
00:01:58
ingin mengambil data dari
00:02:02
salah satu website online travel agent
00:02:05
ya atau otak misalnya Traveloka Ya
00:02:08
seperti ini dan saya sudah cari data
00:02:12
tiket pesawat untuk penerbangan rute
00:02:16
Jakarta Bali Denpasar
00:02:20
dengan waktu tanggal 7 November Tahun
00:02:25
2022 untuk kelas ekonomi Nah di sini
00:02:29
saya mendapatkan ada banyak data dan
00:02:33
data ini nanti akan coba kita scrapping
00:02:35
ya atau kita ambil dimana data ini ada
00:02:39
nama pesawat kemudian departure time
00:02:43
atau waktu keberangkatan kemudian
00:02:46
waktu kedatangan kemudian juga duration
00:02:49
ya durasinya kemudian juga total stop ya
00:02:53
Apakah pesawat ini transit atau langsung
00:02:57
direct seperti itu Nah caranya adalah
00:03:00
dengan kita mengcopy dulu
00:03:04
url yang ada di bagian atas browser
00:03:07
kemudian setelah kita copy kita ke
00:03:11
octopus to octopas ini lalu kita tes di
00:03:15
kolom ini ya Nah nanti di sini muncul
00:03:17
satu valid your earphone kemudian kita
00:03:20
Klik tombol Start
00:03:23
Nah setelah kita klik
00:03:26
tombol Start nanti
00:03:28
tools ini akan mendeteksi secara
00:03:31
otomatis ya
00:03:33
data-data yang bisa di
00:03:36
loading untuk bisa nanti di ekstrak
00:03:38
menjadi dataset Oke kita tunggu saja
00:03:42
loading kemudian nanti ada otomatis ya
00:03:44
kita tulis saja Oke baru 34%
00:03:49
oke memang ini memakan waktu apalagi
00:03:53
kalau data yang akan di loading itu
00:03:55
cukup banyak ya dari pengalaman saya
00:03:59
kalau data di atas 100 itu bisa memakan
00:04:05
waktu satu setengah sampai dua menit ya
00:04:08
tergantung juga sebenarnya dari
00:04:11
kecepatan
00:04:12
internet yang kita gunakan gitu ya
00:04:15
tentunya semakin cepat kecepatan
00:04:18
internetnya akan semakin cepat juga
00:04:22
loading datanya ya oke di sini masih
00:04:25
detecting web page data dia loading
00:04:27
datanya
00:04:29
tentu kita tunggu sampai dengan selesai
00:04:33
Oh ya kemudian satu lagi
00:04:37
data ini mungkin ya Ada kemungkinan
00:04:40
untuk Cash Cash tertentu itu tidak ter
00:04:44
loading semua gitu ya yang nantinya
00:04:47
sebenarnya
00:04:49
dikhawatirkan tidak terekstrak gitu ya
00:04:52
Nah nanti bisa kita gunakan secara
00:04:56
manual jadi
00:04:58
bagian-bagian yang ingin kita tambahkan
00:05:01
untuk bisa kita ambil datanya itu bisa
00:05:05
kita tambahkan secara manual atau
00:05:08
misalnya kita tidak ingin menggunakan
00:05:10
auto detection gitu ya untuk loading
00:05:13
data Nah kita bisa gunakan cancel auto
00:05:16
detection kita klik cancel auto
00:05:18
detection lalu kita memilih secara
00:05:21
manual misalnya Saya hanya ingin memilih
00:05:25
data nama maskapai kemudian juga
00:05:28
duration kemudian juga price berarti
00:05:32
hanya 3 kolom itu ya Artinya kita
00:05:34
tinggal pilih secara manual saja anda
00:05:37
tidak auto detection Nah untuk video
00:05:40
kali ini
00:05:41
kita menggunakan
00:05:44
auto detection list datanya ya jadi dia
00:05:48
akan me-load secara otomatis data-data
00:05:51
Yang nanti bisa diekstrak
00:05:55
kemudian satu lagi
00:05:57
tools octopus ini banyak juga digunakan
00:06:01
oleh para reserse untuk
00:06:05
mengambil data dari website yang
00:06:10
halamannya itu banyak gitu ya karena kan
00:06:12
bisa jadi data itu misalnya ada di page
00:06:15
1 patch 3 dan seterusnya Nah nanti di
00:06:18
video tutorial berikutnya kita akan
00:06:20
mencoba yang banyak halaman ya Nah ini
00:06:23
salah satu kelebihan dari ototas ini Oke
00:06:27
nampaknya sudah selesai sudah terceklis
00:06:29
seperti ini ya Nah nanti kita akan bisa
00:06:32
lihat data yang
00:06:35
di capture di sini ini menunjukkan data
00:06:38
yang Nanti bisa kita ekstrak
00:06:40
Oke jadi di sini ada
00:06:43
departure time
00:06:45
rivaltime kemudian Direction ya duration
00:06:49
price gitu ya kemudian detail
00:06:51
penerbangan schedule dan lain-lain ya
00:06:54
Nah Anggaplah kita sudah selesai untuk
00:06:57
me-loading datanya kemudian kita Klik
00:06:59
tombol create work flow ya Nah ketika
00:07:03
kita klik create work flow nanti di
00:07:07
sebelah kanan akan muncul
00:07:11
work flow nya gitu ya Dan kita bisa
00:07:14
menambahkan patch sebenarnya secara
00:07:17
manual di sini ya Loop item ekstrak data
00:07:19
dan seterusnya Nah nanti untuk video
00:07:22
berikutnya mungkin untuk tingkatan yang
00:07:24
lebih Advance ya jadi kita bisa
00:07:25
mensetting secara manual Oke kalau sudah
00:07:28
di sini nanti ada preview more data ini
00:07:31
cukup lama ya Jadi semakin banyak
00:07:33
datanya untuk review Datanya juga cukup
00:07:35
lama dan jika kita tidak ingin menunggu
00:07:37
review datanya kita bisa langsung klik
00:07:40
tombol Run di bagian kanan atas ya kita
00:07:45
Klik tombol Run seperti ini
00:07:47
Oke Nah nanti di sini ada pilihan RAM on
00:07:52
your device atau run in the clothes
00:07:55
itu ya berarti bukan di device kita
00:07:58
nanti nyimpennya ya bukan di laptop kita
00:08:00
tapi di Cloud Nah untuk video kali ini
00:08:02
kita akan coba yang standar mode di
00:08:05
device kita ya lokal device kita jadi
00:08:07
nanti menyimpannya di laptop atau di
00:08:10
komputer kita kita klik standar mode
00:08:14
oke
00:08:16
Nah nanti akan muncul seperti ini
00:08:19
kita tunggu untuk mengekstrak data Jadi
00:08:23
tadi sudah loading data kemudian data
00:08:25
yang di loading tadi itu diekstrak ya
00:08:29
untuk bisa mengambil
00:08:32
data-data tadi dan bisa untuk disimpan
00:08:35
menjadi file tertentu Apakah nanti versi
00:08:38
SD file Excel dan lain-lain ya kita coba
00:08:42
tunggu dan membutuhkan waktu lumayan
00:08:45
juga ya semakin banyak datanya tentu
00:08:49
waktu untuk ekstraksinya juga semakin
00:08:51
lama
00:08:53
dari yang saya coba misalnya ada 100
00:08:57
data itu masih sekitar 1 menitan lebih
00:09:00
sedikit ya jadi masih dibawah dua masih
00:09:02
dibawah 2 menit tapi lagi-lagi ya ini
00:09:04
tergantung dari kecepatan internet kita
00:09:07
ya kestabilan internet kita juga ya
00:09:09
Internet yang kita gunakan untuk
00:09:11
mengekstrak data ini oke nah sekarang
00:09:15
sudah maju ke patch yang kedua
00:09:18
sudah selesai kemudian maju ke patch
00:09:22
yang kedua ya kita tunggu Ada berapa
00:09:25
jumlah item yang diekstrak tentunya akan
00:09:28
sama seharusnya ya nanti akan sama
00:09:30
dengan jumlah data yang tadi ada di
00:09:33
website Traveloka dengan periode
00:09:37
tertentu baik kita coba tunggu ya sampai
00:09:42
data ekstraknya lengkap selesai semuanya
00:09:46
Nah sekarang sudah masuk ke patch yang
00:09:48
ketiga ini cukup banyak nampaknya
00:09:50
datanya biasanya sudah lebih dari 50 ya
00:09:53
kalau sampai
00:09:56
kita tunggu
00:09:59
sampai nanti selesai gitu ya
00:10:03
sudah ada 47 data ekstraktif yang dibagi
00:10:08
menjadi 3 base itu ya sudah 50 2
00:10:12
Oke kita tunggu Apakah nanti ke page
00:10:16
yang keempat ya
00:10:20
di sini juga ada informasi mengenai
00:10:22
average speechnya dirata kecepatan
00:10:25
sekian baris per menit gitu ya itu bisa
00:10:29
menghasilkan sekian baris
00:10:32
Oke dan di sini ada informasi duplicate
00:10:35
nah ini Canggih juga salah satu
00:10:37
kecanggihan dari autopas nanti bisa
00:10:39
remove look tiket secara otomatis dari
00:10:42
sini bisa timbul duplikat Jadi sebelum
00:10:44
kita ekstrak filenya menjadi file
00:10:47
datanya menjadi file nanti kita bisa
00:10:50
rebook duplicate terlebih dahulu jadi
00:10:52
kita pastikan tidak ada data yang
00:10:54
duplikasi gitu ya di Kumpulan data yang
00:10:57
akan kita buat atau yang akan kita
00:11:00
oke di sini ada times pen 2 menit sekian
00:11:03
detik gitu ya
00:11:06
keempat
00:11:08
70 data yang di ekstrak 70 data dengan
00:11:13
indikasi duplicatenya itu ada 5 Like ya
00:11:16
indikasi duplikatnya itu ada 5 lah ya
00:11:19
kita tunggu sudah 70 data ekstraktif
00:11:25
average ini tergantung dari kecepatan
00:11:27
internetnya ya kalau dia stabil Ya
00:11:30
seharusnya tidak naik turun ya atau naik
00:11:32
turunnya tidak terlalu besar gitu ya
00:11:36
Oke
00:11:38
duplikatnya masih 5 diindikasikan ya
00:11:41
Nanti sebelum kita ekstrak jadi file
00:11:44
tentu duplikat ini kita remove dulu ya
00:11:46
Jadi ada remove
00:11:49
Oke time nambah ya 3 menit sekian detik
00:11:52
tidak apa-apa Nah sudah selesai jadi tas
00:11:55
atau tugas Cengkareng Denpasar 7
00:11:58
November 2022
00:12:00
themenya 3 menit sekian lumayan lama ya
00:12:03
3 menitan ya
00:12:06
Oke kita export data
00:12:09
Nah di sini diindikasikan tadi kan ada 5
00:12:12
duplikat ya Nah kita remove duplikat
00:12:14
saja oke
00:12:20
Nah di sini ada pilihan export datanya
00:12:23
mau ke Excel csv json atau html ya di
00:12:28
sini juga ada opsi export ke database
00:12:30
tapi kita gunakan saja Misalnya Excel
00:12:32
atau csv juga boleh tapi saya di sini
00:12:35
coba ke Excel dulu oke nah kemudian
00:12:39
nanti
00:12:41
sudah kita pilih direktori mana yang
00:12:44
akan kita taruh
00:12:47
lalu kita simpan ya seperti ini
00:12:53
oke Ya sudah selesai rekan-rekan tinggal
00:12:58
kita buka di foldernya dan datanya sudah
00:13:01
siap dan akan menghasilkan data seperti
00:13:05
ini nanti di Excel kemudian nanti
00:13:07
tinggal kita kelinci Ya tinggal kita
00:13:09
bersihkan datanya atau mungkin tidak
00:13:11
semua kolom kita ambil nah seperti ini
00:13:13
nanti hasilnya Oke ini sangat membantu
00:13:15
sekali ya rekan-rekan semuanya untuk
00:13:17
menjadi data set yang akan kita analisis
00:13:23
demikian video kita kali ini sering kita
00:13:27
kali ini next kita akan membahas
00:13:30
Apa masih menggunakan tools ini Namun
00:13:34
kita akan mengcustom ya menjadi beberapa
00:13:37
patch sekaligus yang bisa diekstrak
00:13:40
demikian terima kasih
00:13:43
assalamualaikum warahmatullahi
00:13:45
wabarakatuh