Sabtu, 31 Maret 2012

Win Web Crawler


ane dapat tugas softskill tentang web crawler..

           Win Web crawler adalah sebuah otomatis yang memproses atau untuk mereting halaman web. Win web crawler sering juga disebut dengan web spider atau web robot. Bermula pada point awal berupa sebuah link alamat website dan dibuka pada browser, lalu browser melakukan request dan men-download data dari web server melalui protokol HTTP. Setiap Hyperlink yang ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah sebuah web crawler mengotomatisasikan pekerjaan itu.  


                Cara kerja hampir sama seperti kita ketika surfing di internet, bermula dari suatu web, program ini mendownload data kemudian membuka halaman web berikutnya dari Hyperlink yang ditemui. Setiap hyperlink yang ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah, Web Crawler mengotomatisasikan pekerjaan ini. Jadi, Web Crawler berfungsi mengidentifikasi hyperlink dan melakukan proses kunjungan/visit secara rekursif. Win Web Crawler merupakan aplikasi mesin pencari situs web untuk mendapatkan data secara umum maupun secara khusus dari web tersebut. WWC (Win Web Crawler) mengekstrak semua URL yang sesuai dari hasil pencarian, menghapus duplikat URL dan akhirnya mengunjungi situs-situs terkait dan mengambil data dari sana. 
langkah- langkah
bagia pertama


saat memilih web yang mau di web crawler
'

inilah hasilnya

            Dengan Win Web Crawler kita dapat menggunakan beberapa mesin pencari untuk digunakan dengan cara mengklik "Engine" kemudian memasukan beberapa search engine yang akan kita gunakan. Win Web Crawler mengirim query ke mesin pencari untuk mendapatkan pencocokan URL website. Berikutnya mengunjungi situs-situs yang cocok untuk ekstraksi data.
Kelebihan dari software ini diantaranya :
-Kecepatan tinggi
-Multi-threaded
-Ekstraksi akurat  langsung menyimpan data ke file disk
-Program memiliki berbagai filter untuk membatasi sesi, seperti  filter URL, teks filter, data filter, domain filter, tanggal dimodifikasi, dll Hal ini memungkinkan tingkat rekursi dapat dipilih oleh pengguna, benang pengambilan, timeout, dukungan proxy dan banyak pilihan lain.
            Namun, software ini merupakan trial version selama 15 hari serta pemrosesan datanya cukup lambat.
Sumber : web crawler


Tidak ada komentar:

Posting Komentar