ane dapat tugas softskill tentang web crawler..
Win Web crawler adalah sebuah otomatis yang memproses
atau untuk mereting halaman web. Win web crawler sering juga disebut dengan web
spider atau web robot. Bermula pada point awal berupa sebuah link alamat
website dan dibuka pada browser, lalu browser melakukan request dan
men-download data dari web server melalui protokol HTTP. Setiap Hyperlink yang
ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang
baru, demikian proses terus berulang. Nah sebuah web crawler mengotomatisasikan
pekerjaan itu.
Cara kerja hampir sama seperti
kita ketika surfing di internet, bermula dari
suatu web, program ini mendownload data kemudian membuka halaman web berikutnya
dari Hyperlink yang ditemui. Setiap hyperlink yang ditemui pada konten
yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian
proses terus berulang. Nah, Web Crawler mengotomatisasikan pekerjaan ini. Jadi,
Web Crawler berfungsi mengidentifikasi hyperlink dan melakukan proses
kunjungan/visit secara rekursif. Win Web Crawler merupakan aplikasi mesin
pencari situs web untuk mendapatkan data secara umum maupun secara khusus dari
web tersebut. WWC (Win Web Crawler) mengekstrak semua URL yang sesuai dari
hasil pencarian, menghapus duplikat URL dan akhirnya mengunjungi situs-situs
terkait dan mengambil data dari sana.
langkah- langkah
bagia pertama
saat memilih web yang mau di web crawler
inilah hasilnya
Dengan Win Web Crawler kita dapat
menggunakan beberapa mesin pencari untuk digunakan dengan cara mengklik
"Engine" kemudian memasukan beberapa search engine yang akan kita
gunakan. Win Web Crawler mengirim query ke mesin pencari untuk mendapatkan
pencocokan URL website. Berikutnya mengunjungi situs-situs yang cocok untuk
ekstraksi data.
Kelebihan dari software
ini diantaranya :
-Kecepatan tinggi
-Multi-threaded
-Ekstraksi akurat langsung menyimpan data ke file disk
-Program memiliki
berbagai filter untuk membatasi sesi, seperti
filter URL, teks filter, data filter, domain filter, tanggal
dimodifikasi, dll Hal ini memungkinkan tingkat rekursi dapat dipilih oleh
pengguna, benang pengambilan, timeout, dukungan proxy dan banyak pilihan lain.
Namun, software ini merupakan trial version selama 15
hari serta pemrosesan datanya cukup lambat.
Sumber : web crawler
Tidak ada komentar:
Posting Komentar