Penggalian web
Penggalian web adalah suatu kegiatan pengambilan data tertentu secara semi-terstruktur dari sebuah halaman situs web. Halaman tersebut umumnya dibangun menggunakan bahasa markup seperti HTML atau XHTML.
Biasanya teknik ini diterapkan pada sebuah bot agar bisa membuat proses yang harusnya dilakukan secara manual menjadi otomatis. Ketika kita menjumpai sebuah situs yang membatasi kuota (jatah) API (application programming interface) atau bahkan tidak menyediakan sama sekali, maka penggalian web akan sangat dibutuhkan sebagai langkah pengambilan data.
Mengikis halaman web melibatkan ekstraksi halaman web dan kemudian mengekstrak data darinya.[1] Retrieval adalah pemuatan halaman (yang dilakukan browser saat pengguna melihat halaman).[2] Dengan demikian, pemindaian web adalah komponen utama dari web scraping untuk mengekstrak halaman untuk diproses lebih lanjut.[3] Setelah ekstraksi, ekstraksi dapat dilakukan. Konten halaman dapat dianalisis, dicari, dan diformat ulang, serta datanya disalin ke dalam spreadsheet atau diunggah ke database.[4] Web scraper biasanya mengekstrak sesuatu dari sebuah halaman untuk digunakan di tempat lain untuk tujuan lain.[5] Contohnya termasuk menemukan dan menyalin nama dan nomor telepon, perusahaan dan URL atau alamat email mereka ke dalam daftar (penggalian kontak) menggunakan pemindaian web, pengenalan pola, mengumpulkan data dari media sosial dan jaringan profesional, pencarian WHOIS, dan banyak lagi.[6]
Selain mengumpulkan kontak, pengumpulan data web digunakan sebagai komponen aplikasi yang digunakan untuk pengindeksan web,[7] penambangan web[8] dan penambangan data, pemantauan perubahan harga dan perbandingan harga secara online, mengumpulkan ulasan produk (untuk memantau pesaing),[9] mengumpulkan daftar real estat, memantau data cuaca, mendeteksi perubahan situs web, penelitian, melacak keberadaan dan reputasi web, penggabungan web, dan integrasi data web.
Halaman web dibuat menggunakan bahasa markup berbasis teks (HTML dan XHTML) dan sering kali berisi banyak data yang berguna dalam bentuk teks.[10] Namun, sebagian besar halaman web dirancang untuk pengguna akhir, bukan untuk kemudahan penggunaan otomatis. Sebagai hasilnya, alat dan perangkat lunak khusus telah dikembangkan untuk memfasilitasi penguraian halaman web. Aplikasi penguraian halaman web termasuk riset pasar, perbandingan harga, pemantauan konten, dan banyak lagi. Perusahaan mengandalkan layanan penguraian halaman web untuk mengumpulkan dan memanfaatkan data ini secara efisien.
Referensi
[sunting | sunting sumber]- ^ "What is Web Scraping? A Complete Guide". www.fortra.com. Diakses tanggal 2025-04-01.
- ^ "Populating the page: how browsers work". developer.mozilla.org. Diakses tanggal 2025-04-01.
- ^ "Web crawling vs web scraping". www.zyte.com. Diakses tanggal 2025-04-01.
- ^ "3 Easy Ways to Scrape Website to Excel". www.octoparse.com. Diakses tanggal 2025-04-01.
- ^ "24 Web scraping". r4ds.hadley.nz. Diakses tanggal 2025-04-01.
- ^ "Email Scraping Tools: A Comprehensive Guide". mailwarm.io. Diakses tanggal 2025-04-01.
- ^ "Web Indexing". www.wix.com. Diakses tanggal 2025-04-01.
- ^ "Web Mining". www.geeksforgeeks.org. Diakses tanggal 2025-04-01.
- ^ "How to do a competitor product analysis by review monitoring". feedcheck.co. Diakses tanggal 2025-04-01.
- ^ "HTML Versus XHTML". www.w3schools.com. Diakses tanggal 2025-04-01.