Web
Crawler
Web
Crawler adalah sebuah program atau script yang digunakan oleh search engine
dengan fungsi untuk menelusuri dan mengumpulkan data atau informasi di
internet. Web crawler mengijinkan para pemakai mencari informasi dengan
menggunakan kata apa saja pada halaman web mana saja. Data yang sudah di crawl
tersebut akan disimpan di database search engine, sehingga informasi dapat
diambil saat dibutuhkan. Web Crawler ini hampir selalu dioperasikan oleh mesin
pencari. Dengan menerapkan algoritma penelusuran ke data yang dikumpulkan oleh
Web Crawler, maka pengguna Internet yang
mengetikkan kata pencarian pada search engine dapat dengan segera menampilkan
website yang relevan.
Berikut
Beberapa contoh web crawler :
Teleport Pro
Salah
satu software web crawler untuk keperluan offline browsing.
HTTrack
merupakan
software yang dapat mendownload konten website menjadi sebuah mirror pada
harddisk , agar dapat dilihat secara offline.
Googlebot
Merupakan
web crawler untuk membangun index pencarian yang digunakan oleh search engine
Google.
Yahoo!Slurp
Merupakan
web crawler untuk membangun index pencarian yang digunakan oleh Yahoo.
YandexBot
Adalah
search engine terbesar di rusia yang bernama Yandex.
Webhose
Webhose
adalah web crawler yang dapat mengubah konten website yang tidak terstruktur
menjadi data feeds yang dapat dibaca oleh mesin.
DuckDuckBot
Crawler
yang digunakan oleh search engine DuckDuckGo untuk menelusuri dan menyimpan
data.
Cara Kerja Crawler
Web
crawler berkrja berdasarkan daftar link halaman yang sudah ia kenal sebelumnya
dari sitemap suatu website. dari daftar link sitemap tersebut, crawler akan
menemukan link-link lain yang tersebar di dalamnya, kemudian melakukan crawling
ke link-link yang baru saja ditemukan. Proses ini akan terulang lagi di link
selanjutnya dan bisa terus berjalan tanpa henti. Dengan adanya sitemaps, web
crawler bisa melakukan proses crawling dengan cepat dan lebih terstruktur.
Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query,
biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan
daftar halaman web yang paling sesuai dengan kriterianya.
Fungsi Web Crawler
Fungsi
utama dari web crawler memang mengindeks konten di internet. Namun di samping
itu, ada beberapa fungsi lain yang juga tak kalah penting:
- Web crawler biasa digunakan untuk membuat salinan
sebagian atau keseluruhan halaman web yang telah dikunjunginya agar dapat
diproses lebih lanjut oleh system pengindeksan.
- Tools analisis website seperti Google Search Console
dan Screaming Frog SEO mengandalkan web crawler untuk mengumpulkan data-datanya
dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan
terbaru.
- Web crawler dapat digunakan untuk proses
pemeliharaan sebuah website, seperti memvalidasi kode html sebuah web.
- Web crawler bisa membandingkan harga dari suatu
produk di internet. Sehingga harga ataupun data dari produk tersebut bisa
akurat.
- Web crawler digunakan untuk memperoleh data yang
khusus, seperti mengumpulkan alamat email.
- Web crawler juga memberikan data-data penting yang
bisa digunakan untuk website berita atau website statistic.
Memblokir Web Crawler
Ada
beberapa cara agar dapat memblokir atau melarang web crawler untuk melakukan
crawling, yaitu sebagai berikut :
Membuat File Robots.txt
Gunakan
file robots.txt untuk mendapatkan kontrol tingkat tinggi terhadap bagian situs
yang muncul di Google Penelusuran dan Google Berita.
Kita dapat memblokir akses dengan cara berikut:
- Agar situs tidak muncul di Google Berita, blokir akses ke Googlebot-News menggunakan file robots.txt.
- Agar situs tidak muncul di Google Berita dan Google Penelusuran, blokir akses ke Googlebot menggunakan file robots.txt.
Membuat Tag Meta
Kita
dapat menambahkan tag meta ke halaman HTML. Tag meta akan memberi tahu mesin
telusur terkait batas mana yang berlaku saat menampilkan halaman di hasil
penelusuran.
Berikut
adalah beberapa tag meta umum yang dapat ditambahkan ke halaman HTML :
- Mencegah artikel tertentu di situs agar tidak muncul di Google Berita, blokir akses ke Googlebot-News menggunakan tag meta berikut: <meta name="Googlebot-News" content="noindex, nofollow">.
- Mencegah artikel tertentu di situs agar tidak muncul di Google Berita dan Google Penelusuran, blokir akses ke Googlebot menggunakan tag meta berikut: <meta name="googlebot" content="noindex, nofollow">.
- Mencegah artikel tertentu di situs agar tidak diindeks oleh semua robot, gunakan tag meta berikut: <meta name="robots" content="noindex, nofollow">.
- Mencegah robot agar tidak meng-crawl gambar pada artikel tertentu, gunakan tag meta berikut: <meta name="robots" content="noimageindex">.
- Menghapus artikel dari indeks Google pada waktu tertentu, gunakan tag meta berikut: <meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">.
- Menentukan waktu dan tanggal dalam format RFC 850. Tag meta ini dianggap sebagai permintaan penghapusan. Diperlukan waktu sekitar satu hari setelah tanggal penghapusan agar halaman hilang dari hasil penelusuran. Namun, agar berfungsi dengan benar, tag harus disertakan dengan artikel saat pertama kali di-crawl.
Spesifikasi Header HTTP
Kita
dapat menentukan setelan tingkat halaman dengan menyertakan tag meta di halaman
HTML atau di header HTTP. Kita dapat menentukan setelan tingkat teks dengan
atribut data-nosnippet pada elemen HTML dalam sebuah halaman.
Referensi :
https://www.niagahoster.co.id/blog/apa-itu-web-crawler/#Memblokir_Web_Crawler
https://developers.google.com/search/docs/advanced/robots/robots_meta_tag
Komentar
Posting Komentar