Pengertian, Cara Kerja, Fungsi dan Cara Memblokir Web Crawler

Web Crawler

Web Crawler adalah sebuah program atau script yang digunakan oleh search engine dengan fungsi untuk menelusuri dan mengumpulkan data atau informasi di internet. Web crawler mengijinkan para pemakai mencari informasi dengan menggunakan kata apa saja pada halaman web mana saja. Data yang sudah di crawl tersebut akan disimpan di database search engine, sehingga informasi dapat diambil saat dibutuhkan. Web Crawler ini hampir selalu dioperasikan oleh mesin pencari. Dengan menerapkan algoritma penelusuran ke data yang dikumpulkan oleh Web Crawler, maka pengguna Internet yang mengetikkan kata pencarian pada search engine dapat dengan segera menampilkan website yang relevan.

Berikut Beberapa contoh web crawler :

Teleport Pro

Salah satu software web crawler untuk keperluan offline browsing.

HTTrack

merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk , agar dapat dilihat secara offline.

Googlebot

Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google.

Yahoo!Slurp

Merupakan web crawler untuk membangun index pencarian yang digunakan oleh Yahoo.

YandexBot

Adalah search engine terbesar di rusia yang bernama Yandex.

Webhose

Webhose adalah web crawler yang dapat mengubah konten website yang tidak terstruktur menjadi data feeds yang dapat dibaca oleh mesin.

DuckDuckBot

Crawler yang digunakan oleh search engine DuckDuckGo untuk menelusuri dan menyimpan data.

Cara Kerja Crawler

Web crawler berkrja berdasarkan daftar link halaman yang sudah ia kenal sebelumnya dari sitemap suatu website. dari daftar link sitemap tersebut, crawler akan menemukan link-link lain yang tersebar di dalamnya, kemudian melakukan crawling ke link-link yang baru saja ditemukan. Proses ini akan terulang lagi di link selanjutnya dan bisa terus berjalan tanpa henti. Dengan adanya sitemaps, web crawler bisa melakukan proses crawling dengan cepat dan lebih terstruktur. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya.

Fungsi Web Crawler

Fungsi utama dari web crawler memang mengindeks konten di internet. Namun di samping itu, ada beberapa fungsi lain yang juga tak kalah penting:

Web crawler biasa digunakan untuk membuat salinan sebagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat diproses lebih lanjut oleh system pengindeksan.

Tools analisis website seperti Google Search Console dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.

Web crawler dapat digunakan untuk proses pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web.

Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat.

Web crawler digunakan untuk memperoleh data yang khusus, seperti mengumpulkan alamat email.

Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistic.

Memblokir Web Crawler

Ada beberapa cara agar dapat memblokir atau melarang web crawler untuk melakukan crawling, yaitu sebagai berikut :

Membuat File Robots.txt

Gunakan file robots.txt untuk mendapatkan kontrol tingkat tinggi terhadap bagian situs yang muncul di Google Penelusuran dan Google Berita.

Kita dapat memblokir akses dengan cara berikut:

Agar situs tidak muncul di Google Berita, blokir akses ke Googlebot-News menggunakan file robots.txt.
Agar situs tidak muncul di Google Berita dan Google Penelusuran, blokir akses ke Googlebot menggunakan file robots.txt.

Membuat Tag Meta

Kita dapat menambahkan tag meta ke halaman HTML. Tag meta akan memberi tahu mesin telusur terkait batas mana yang berlaku saat menampilkan halaman di hasil penelusuran.

Berikut adalah beberapa tag meta umum yang dapat ditambahkan ke halaman HTML :

Mencegah artikel tertentu di situs agar tidak muncul di Google Berita, blokir akses ke Googlebot-News menggunakan tag meta berikut: <meta name="Googlebot-News" content="noindex, nofollow">.

Mencegah artikel tertentu di situs agar tidak muncul di Google Berita dan Google Penelusuran, blokir akses ke Googlebot menggunakan tag meta berikut: <meta name="googlebot" content="noindex, nofollow">.

Mencegah artikel tertentu di situs agar tidak diindeks oleh semua robot, gunakan tag meta berikut: <meta name="robots" content="noindex, nofollow">.

Mencegah robot agar tidak meng-crawl gambar pada artikel tertentu, gunakan tag meta berikut: <meta name="robots" content="noimageindex">.

Menghapus artikel dari indeks Google pada waktu tertentu, gunakan tag meta berikut: <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">.

Menentukan waktu dan tanggal dalam format RFC 850. Tag meta ini dianggap sebagai permintaan penghapusan. Diperlukan waktu sekitar satu hari setelah tanggal penghapusan agar halaman hilang dari hasil penelusuran. Namun, agar berfungsi dengan benar, tag harus disertakan dengan artikel saat pertama kali di-crawl.

Spesifikasi Header HTTP

Kita dapat menentukan setelan tingkat halaman dengan menyertakan tag meta di halaman HTML atau di header HTTP. Kita dapat menentukan setelan tingkat teks dengan atribut data-nosnippet pada elemen HTML dalam sebuah halaman.

Referensi :

https://www.niagahoster.co.id/blog/apa-itu-web-crawler/#Memblokir_Web_Crawler

https://developers.google.com/search/docs/advanced/robots/robots_meta_tag

Sukma Krisna Herdianto

Cari Blog Ini

Pengertian, Cara Kerja, Fungsi dan Cara Memblokir Web Crawler

Komentar

Posting Komentar