CARA MUDAH SCRAPING DATA DARI WEBSITE (NO CODING)

00:13:50
https://www.youtube.com/watch?v=q4qXk7xsF4s

Sintesi

TLDRVideo ini memberikan panduan tentang cara melakukan web scraping menggunakan Octopas, alat yang efektif untuk mengumpulkan data dari website. Proses dimulai dengan instalasi Octopas, diikuti dengan demonstrasi pengambilan data dari Traveloka untuk penerbangan Jakarta-Bali. Pengguna diajarkan cara menyalin URL, memulai deteksi otomatis, dan memilih data yang ingin diekstrak. Setelah data diambil, pengguna dapat menghapus duplikat dan mengekspor data ke format yang diinginkan. Video ini sangat berguna bagi pemula yang ingin belajar tentang web scraping.

Punti di forza

  • 🔍 Octopas adalah alat powerful untuk web scraping.
  • 💻 Instal Octopas dengan mudah melalui Google.
  • 📊 Dapatkan data penerbangan dari Traveloka.
  • 🛠️ Gunakan auto detection untuk mengambil data.
  • 🗂️ Ekspor data ke format Excel atau CSV.
  • 🚫 Hapus data duplikat sebelum ekspor.
  • ⏳ Waktu scraping tergantung pada kecepatan internet.
  • 📄 Pilih data secara manual jika perlu.
  • 🌐 Octopas dapat digunakan untuk halaman banyak.
  • 🔜 Video berikutnya akan membahas custom scraping.

Linea temporale

  • 00:00:00 - 00:05:00

    Video ini dibuka oleh Nur Alamsyah yang menjelaskan tentang teknik scrapping data dari website menggunakan tools Octopus. Dia menjelaskan bahwa scrapping sering digunakan oleh peneliti untuk mengumpulkan dataset dan memberikan informasi tentang cara menginstal dan menggunakan Octopus secara gratis dengan batasan tertentu. Dia juga memberikan contoh scrapping data dari website Traveloka untuk penerbangan Jakarta-Bali.

  • 00:05:00 - 00:13:50

    Setelah menjelaskan proses awal scrapping, Nur menunjukkan cara menggunakan auto detection untuk mengambil data seperti nama maskapai, waktu keberangkatan, durasi, dan harga. Dia juga menekankan pentingnya menghapus data duplikat sebelum mengekspor data ke format yang diinginkan, seperti Excel. Video ini diakhiri dengan janji untuk membahas lebih lanjut tentang pengaturan yang lebih kompleks di video berikutnya.

Mappa mentale

Video Domande e Risposte

  • Apa itu Octopas?

    Octopas adalah tools untuk web scraping yang digunakan untuk mengumpulkan data dari website.

  • Bagaimana cara menginstal Octopas?

    Octopas dapat diinstal dengan mencarinya di Google dan mengunduhnya.

  • Apakah Octopas gratis?

    Octopas dapat digunakan secara gratis dengan batasan maksimal 10 kali ekstraksi.

  • Apa yang bisa diambil dari website Traveloka?

    Data yang bisa diambil termasuk nama pesawat, waktu keberangkatan, waktu kedatangan, durasi, dan harga.

  • Bagaimana cara mengekspor data setelah scraping?

    Data dapat diekspor ke format Excel, CSV, JSON, atau HTML.

  • Apa yang harus dilakukan jika ada data duplikat?

    Pengguna dapat menghapus data duplikat sebelum mengekspor data.

  • Berapa lama waktu yang dibutuhkan untuk scraping data?

    Waktu yang dibutuhkan tergantung pada jumlah data dan kecepatan internet.

  • Apa yang dilakukan jika data tidak terdeteksi otomatis?

    Pengguna dapat memilih data secara manual jika auto detection tidak berfungsi.

  • Apakah Octopas bisa digunakan untuk halaman yang banyak?

    Ya, Octopas dapat digunakan untuk mengambil data dari halaman yang banyak.

  • Apa yang akan dibahas di video berikutnya?

    Video berikutnya akan membahas cara mengcustom Octopas untuk mengekstrak beberapa halaman sekaligus.

Visualizza altre sintesi video

Ottenete l'accesso immediato ai riassunti gratuiti dei video di YouTube grazie all'intelligenza artificiale!
Sottotitoli
id
Scorrimento automatico:
  • 00:00:02
    Assalamualaikum warahmatullahi
  • 00:00:03
    wabarakatuh bertemu kembali dengan saya
  • 00:00:07
    Nur Alamsyah
  • 00:00:10
    kali ini kita akan berbagi caranya
  • 00:00:14
    bagaimana
  • 00:00:15
    kita menscrapping data dari
  • 00:00:19
    website
  • 00:00:21
    Teknik scrapping ini biasa atau lazim
  • 00:00:26
    digunakan para reserser atau para
  • 00:00:30
    peneliti untuk mengumpulkan data set nah
  • 00:00:37
    Sebenarnya ada beberapa cara
  • 00:00:40
    salah satunya adalah dengan menggunakan
  • 00:00:43
    tools dan kali ini terus yang akan kita
  • 00:00:48
    gunakan itu adalah
  • 00:00:51
    tools oktopas nah terus octopus ini
  • 00:00:56
    menurut saya cukup powerful untuk
  • 00:01:00
    mengambil data dari website tentunya
  • 00:01:04
    untuk keperluan riset Nah bagi
  • 00:01:09
    rekan-rekan mungkin yang belum memiliki
  • 00:01:11
    tools ini tools ini bisa di install
  • 00:01:13
    tinggal ketikkan saja di Google ya kata
  • 00:01:17
    kuncinya adalah octopus nah kemudian
  • 00:01:20
    nanti bisa di download kemudian diinstal
  • 00:01:25
    terus octopus ini bisa kita gunakan
  • 00:01:28
    secara gratis namun tentu ada batasan
  • 00:01:35
    batasannya itu adalah maksimal kita bisa
  • 00:01:39
    mengekstrak sampai 10 kali saja gitu ya
  • 00:01:42
    kalau mau lebih dari 10 kita bisa
  • 00:01:44
    mengupgrade akun kita untuk berbayar
  • 00:01:48
    baik rekan-rekan kita akan coba
  • 00:01:50
    demonstrasikan
  • 00:01:52
    caranya bagaimana
  • 00:01:54
    menscrating data kali ini misalnya kita
  • 00:01:58
    ingin mengambil data dari
  • 00:02:02
    salah satu website online travel agent
  • 00:02:05
    ya atau otak misalnya Traveloka Ya
  • 00:02:08
    seperti ini dan saya sudah cari data
  • 00:02:12
    tiket pesawat untuk penerbangan rute
  • 00:02:16
    Jakarta Bali Denpasar
  • 00:02:20
    dengan waktu tanggal 7 November Tahun
  • 00:02:25
    2022 untuk kelas ekonomi Nah di sini
  • 00:02:29
    saya mendapatkan ada banyak data dan
  • 00:02:33
    data ini nanti akan coba kita scrapping
  • 00:02:35
    ya atau kita ambil dimana data ini ada
  • 00:02:39
    nama pesawat kemudian departure time
  • 00:02:43
    atau waktu keberangkatan kemudian
  • 00:02:46
    waktu kedatangan kemudian juga duration
  • 00:02:49
    ya durasinya kemudian juga total stop ya
  • 00:02:53
    Apakah pesawat ini transit atau langsung
  • 00:02:57
    direct seperti itu Nah caranya adalah
  • 00:03:00
    dengan kita mengcopy dulu
  • 00:03:04
    url yang ada di bagian atas browser
  • 00:03:07
    kemudian setelah kita copy kita ke
  • 00:03:11
    octopus to octopas ini lalu kita tes di
  • 00:03:15
    kolom ini ya Nah nanti di sini muncul
  • 00:03:17
    satu valid your earphone kemudian kita
  • 00:03:20
    Klik tombol Start
  • 00:03:23
    Nah setelah kita klik
  • 00:03:26
    tombol Start nanti
  • 00:03:28
    tools ini akan mendeteksi secara
  • 00:03:31
    otomatis ya
  • 00:03:33
    data-data yang bisa di
  • 00:03:36
    loading untuk bisa nanti di ekstrak
  • 00:03:38
    menjadi dataset Oke kita tunggu saja
  • 00:03:42
    loading kemudian nanti ada otomatis ya
  • 00:03:44
    kita tulis saja Oke baru 34%
  • 00:03:49
    oke memang ini memakan waktu apalagi
  • 00:03:53
    kalau data yang akan di loading itu
  • 00:03:55
    cukup banyak ya dari pengalaman saya
  • 00:03:59
    kalau data di atas 100 itu bisa memakan
  • 00:04:05
    waktu satu setengah sampai dua menit ya
  • 00:04:08
    tergantung juga sebenarnya dari
  • 00:04:11
    kecepatan
  • 00:04:12
    internet yang kita gunakan gitu ya
  • 00:04:15
    tentunya semakin cepat kecepatan
  • 00:04:18
    internetnya akan semakin cepat juga
  • 00:04:22
    loading datanya ya oke di sini masih
  • 00:04:25
    detecting web page data dia loading
  • 00:04:27
    datanya
  • 00:04:29
    tentu kita tunggu sampai dengan selesai
  • 00:04:33
    Oh ya kemudian satu lagi
  • 00:04:37
    data ini mungkin ya Ada kemungkinan
  • 00:04:40
    untuk Cash Cash tertentu itu tidak ter
  • 00:04:44
    loading semua gitu ya yang nantinya
  • 00:04:47
    sebenarnya
  • 00:04:49
    dikhawatirkan tidak terekstrak gitu ya
  • 00:04:52
    Nah nanti bisa kita gunakan secara
  • 00:04:56
    manual jadi
  • 00:04:58
    bagian-bagian yang ingin kita tambahkan
  • 00:05:01
    untuk bisa kita ambil datanya itu bisa
  • 00:05:05
    kita tambahkan secara manual atau
  • 00:05:08
    misalnya kita tidak ingin menggunakan
  • 00:05:10
    auto detection gitu ya untuk loading
  • 00:05:13
    data Nah kita bisa gunakan cancel auto
  • 00:05:16
    detection kita klik cancel auto
  • 00:05:18
    detection lalu kita memilih secara
  • 00:05:21
    manual misalnya Saya hanya ingin memilih
  • 00:05:25
    data nama maskapai kemudian juga
  • 00:05:28
    duration kemudian juga price berarti
  • 00:05:32
    hanya 3 kolom itu ya Artinya kita
  • 00:05:34
    tinggal pilih secara manual saja anda
  • 00:05:37
    tidak auto detection Nah untuk video
  • 00:05:40
    kali ini
  • 00:05:41
    kita menggunakan
  • 00:05:44
    auto detection list datanya ya jadi dia
  • 00:05:48
    akan me-load secara otomatis data-data
  • 00:05:51
    Yang nanti bisa diekstrak
  • 00:05:55
    kemudian satu lagi
  • 00:05:57
    tools octopus ini banyak juga digunakan
  • 00:06:01
    oleh para reserse untuk
  • 00:06:05
    mengambil data dari website yang
  • 00:06:10
    halamannya itu banyak gitu ya karena kan
  • 00:06:12
    bisa jadi data itu misalnya ada di page
  • 00:06:15
    1 patch 3 dan seterusnya Nah nanti di
  • 00:06:18
    video tutorial berikutnya kita akan
  • 00:06:20
    mencoba yang banyak halaman ya Nah ini
  • 00:06:23
    salah satu kelebihan dari ototas ini Oke
  • 00:06:27
    nampaknya sudah selesai sudah terceklis
  • 00:06:29
    seperti ini ya Nah nanti kita akan bisa
  • 00:06:32
    lihat data yang
  • 00:06:35
    di capture di sini ini menunjukkan data
  • 00:06:38
    yang Nanti bisa kita ekstrak
  • 00:06:40
    Oke jadi di sini ada
  • 00:06:43
    departure time
  • 00:06:45
    rivaltime kemudian Direction ya duration
  • 00:06:49
    price gitu ya kemudian detail
  • 00:06:51
    penerbangan schedule dan lain-lain ya
  • 00:06:54
    Nah Anggaplah kita sudah selesai untuk
  • 00:06:57
    me-loading datanya kemudian kita Klik
  • 00:06:59
    tombol create work flow ya Nah ketika
  • 00:07:03
    kita klik create work flow nanti di
  • 00:07:07
    sebelah kanan akan muncul
  • 00:07:11
    work flow nya gitu ya Dan kita bisa
  • 00:07:14
    menambahkan patch sebenarnya secara
  • 00:07:17
    manual di sini ya Loop item ekstrak data
  • 00:07:19
    dan seterusnya Nah nanti untuk video
  • 00:07:22
    berikutnya mungkin untuk tingkatan yang
  • 00:07:24
    lebih Advance ya jadi kita bisa
  • 00:07:25
    mensetting secara manual Oke kalau sudah
  • 00:07:28
    di sini nanti ada preview more data ini
  • 00:07:31
    cukup lama ya Jadi semakin banyak
  • 00:07:33
    datanya untuk review Datanya juga cukup
  • 00:07:35
    lama dan jika kita tidak ingin menunggu
  • 00:07:37
    review datanya kita bisa langsung klik
  • 00:07:40
    tombol Run di bagian kanan atas ya kita
  • 00:07:45
    Klik tombol Run seperti ini
  • 00:07:47
    Oke Nah nanti di sini ada pilihan RAM on
  • 00:07:52
    your device atau run in the clothes
  • 00:07:55
    itu ya berarti bukan di device kita
  • 00:07:58
    nanti nyimpennya ya bukan di laptop kita
  • 00:08:00
    tapi di Cloud Nah untuk video kali ini
  • 00:08:02
    kita akan coba yang standar mode di
  • 00:08:05
    device kita ya lokal device kita jadi
  • 00:08:07
    nanti menyimpannya di laptop atau di
  • 00:08:10
    komputer kita kita klik standar mode
  • 00:08:14
    oke
  • 00:08:16
    Nah nanti akan muncul seperti ini
  • 00:08:19
    kita tunggu untuk mengekstrak data Jadi
  • 00:08:23
    tadi sudah loading data kemudian data
  • 00:08:25
    yang di loading tadi itu diekstrak ya
  • 00:08:29
    untuk bisa mengambil
  • 00:08:32
    data-data tadi dan bisa untuk disimpan
  • 00:08:35
    menjadi file tertentu Apakah nanti versi
  • 00:08:38
    SD file Excel dan lain-lain ya kita coba
  • 00:08:42
    tunggu dan membutuhkan waktu lumayan
  • 00:08:45
    juga ya semakin banyak datanya tentu
  • 00:08:49
    waktu untuk ekstraksinya juga semakin
  • 00:08:51
    lama
  • 00:08:53
    dari yang saya coba misalnya ada 100
  • 00:08:57
    data itu masih sekitar 1 menitan lebih
  • 00:09:00
    sedikit ya jadi masih dibawah dua masih
  • 00:09:02
    dibawah 2 menit tapi lagi-lagi ya ini
  • 00:09:04
    tergantung dari kecepatan internet kita
  • 00:09:07
    ya kestabilan internet kita juga ya
  • 00:09:09
    Internet yang kita gunakan untuk
  • 00:09:11
    mengekstrak data ini oke nah sekarang
  • 00:09:15
    sudah maju ke patch yang kedua
  • 00:09:18
    sudah selesai kemudian maju ke patch
  • 00:09:22
    yang kedua ya kita tunggu Ada berapa
  • 00:09:25
    jumlah item yang diekstrak tentunya akan
  • 00:09:28
    sama seharusnya ya nanti akan sama
  • 00:09:30
    dengan jumlah data yang tadi ada di
  • 00:09:33
    website Traveloka dengan periode
  • 00:09:37
    tertentu baik kita coba tunggu ya sampai
  • 00:09:42
    data ekstraknya lengkap selesai semuanya
  • 00:09:46
    Nah sekarang sudah masuk ke patch yang
  • 00:09:48
    ketiga ini cukup banyak nampaknya
  • 00:09:50
    datanya biasanya sudah lebih dari 50 ya
  • 00:09:53
    kalau sampai
  • 00:09:56
    kita tunggu
  • 00:09:59
    sampai nanti selesai gitu ya
  • 00:10:03
    sudah ada 47 data ekstraktif yang dibagi
  • 00:10:08
    menjadi 3 base itu ya sudah 50 2
  • 00:10:12
    Oke kita tunggu Apakah nanti ke page
  • 00:10:16
    yang keempat ya
  • 00:10:20
    di sini juga ada informasi mengenai
  • 00:10:22
    average speechnya dirata kecepatan
  • 00:10:25
    sekian baris per menit gitu ya itu bisa
  • 00:10:29
    menghasilkan sekian baris
  • 00:10:32
    Oke dan di sini ada informasi duplicate
  • 00:10:35
    nah ini Canggih juga salah satu
  • 00:10:37
    kecanggihan dari autopas nanti bisa
  • 00:10:39
    remove look tiket secara otomatis dari
  • 00:10:42
    sini bisa timbul duplikat Jadi sebelum
  • 00:10:44
    kita ekstrak filenya menjadi file
  • 00:10:47
    datanya menjadi file nanti kita bisa
  • 00:10:50
    rebook duplicate terlebih dahulu jadi
  • 00:10:52
    kita pastikan tidak ada data yang
  • 00:10:54
    duplikasi gitu ya di Kumpulan data yang
  • 00:10:57
    akan kita buat atau yang akan kita
  • 00:11:00
    oke di sini ada times pen 2 menit sekian
  • 00:11:03
    detik gitu ya
  • 00:11:06
    keempat
  • 00:11:08
    70 data yang di ekstrak 70 data dengan
  • 00:11:13
    indikasi duplicatenya itu ada 5 Like ya
  • 00:11:16
    indikasi duplikatnya itu ada 5 lah ya
  • 00:11:19
    kita tunggu sudah 70 data ekstraktif
  • 00:11:25
    average ini tergantung dari kecepatan
  • 00:11:27
    internetnya ya kalau dia stabil Ya
  • 00:11:30
    seharusnya tidak naik turun ya atau naik
  • 00:11:32
    turunnya tidak terlalu besar gitu ya
  • 00:11:36
    Oke
  • 00:11:38
    duplikatnya masih 5 diindikasikan ya
  • 00:11:41
    Nanti sebelum kita ekstrak jadi file
  • 00:11:44
    tentu duplikat ini kita remove dulu ya
  • 00:11:46
    Jadi ada remove
  • 00:11:49
    Oke time nambah ya 3 menit sekian detik
  • 00:11:52
    tidak apa-apa Nah sudah selesai jadi tas
  • 00:11:55
    atau tugas Cengkareng Denpasar 7
  • 00:11:58
    November 2022
  • 00:12:00
    themenya 3 menit sekian lumayan lama ya
  • 00:12:03
    3 menitan ya
  • 00:12:06
    Oke kita export data
  • 00:12:09
    Nah di sini diindikasikan tadi kan ada 5
  • 00:12:12
    duplikat ya Nah kita remove duplikat
  • 00:12:14
    saja oke
  • 00:12:20
    Nah di sini ada pilihan export datanya
  • 00:12:23
    mau ke Excel csv json atau html ya di
  • 00:12:28
    sini juga ada opsi export ke database
  • 00:12:30
    tapi kita gunakan saja Misalnya Excel
  • 00:12:32
    atau csv juga boleh tapi saya di sini
  • 00:12:35
    coba ke Excel dulu oke nah kemudian
  • 00:12:39
    nanti
  • 00:12:41
    sudah kita pilih direktori mana yang
  • 00:12:44
    akan kita taruh
  • 00:12:47
    lalu kita simpan ya seperti ini
  • 00:12:53
    oke Ya sudah selesai rekan-rekan tinggal
  • 00:12:58
    kita buka di foldernya dan datanya sudah
  • 00:13:01
    siap dan akan menghasilkan data seperti
  • 00:13:05
    ini nanti di Excel kemudian nanti
  • 00:13:07
    tinggal kita kelinci Ya tinggal kita
  • 00:13:09
    bersihkan datanya atau mungkin tidak
  • 00:13:11
    semua kolom kita ambil nah seperti ini
  • 00:13:13
    nanti hasilnya Oke ini sangat membantu
  • 00:13:15
    sekali ya rekan-rekan semuanya untuk
  • 00:13:17
    menjadi data set yang akan kita analisis
  • 00:13:23
    demikian video kita kali ini sering kita
  • 00:13:27
    kali ini next kita akan membahas
  • 00:13:30
    Apa masih menggunakan tools ini Namun
  • 00:13:34
    kita akan mengcustom ya menjadi beberapa
  • 00:13:37
    patch sekaligus yang bisa diekstrak
  • 00:13:40
    demikian terima kasih
  • 00:13:43
    assalamualaikum warahmatullahi
  • 00:13:45
    wabarakatuh
Tag
  • Octopas
  • web scraping
  • Traveloka
  • data extraction
  • tools
  • research
  • data analysis
  • Excel
  • CSV
  • JSON