mbahencrot: Mengenal Mesin Crawling Google

Google sampai saat ini masih dianggap sebagai Search Engine nomer satu, dan juga terfavorit dibanding kebanyakan search engine yang lain. Selain memiliki tampilan situs yang sangat sederhana, Google juga menyediakan hasil pencarian yang akurat. Sistem pengindeksan-nya yang otomatis membuat Google nyaris tanpa kompromi dan adil, artinya tanpa campur tangan manusia, semua situs dan blog entah besar dan kecil, pemain baru atau lama mendapatkan kesempatan yang nyaris sama.

INTEGRITAS SEARCH ENGINE

Salah satu alasan kenapa search engine yang ada sebelum Google menurun popularitas dan kegunaannya adalah munculnya Paid Listing. Di mana search engine yang "lapar" akan bayaran/penghasilan menjual posisi dalam hasil pencarian kepada para pemasang iklan.

Pelemahan terhadap obyektivitas tersebut meracuni hasil pencarian dan meremehkan prinsip popularitas yang dimiliki situs web. Perbedaan antara search engine, yang seharusnya menampilkan hasil yang anda cari, dengan saluran browser, yang membawa anda ke bisnis affiliasi, mengabur. Walaupun banyak search engine yang menolak menjual posisi dalam hasil pencarian mereka, keraguan dan ketidakpercayaan telanjur menyebar di hati para pengguna.

Integritas Google terlihat dari halaman situs mereka yang bersih dari segala macam tetek-bengek, dan semata-mata menonjolkan satu hal yaitu kata "Search". Memang Google menerima iklan, tetapi iklan yang mereka terima dipisahkan dari hasil pencarian. Mungkin tidak semua orang setuju dengan cara Google merangking hasil pencarian, tetapi tidak ada seorang pun yang mengira bahwa rangking teratas di hasil pencarian Google bisa dibeli.

Nah, tetapi bagaimana sebenarnya cara kerja Google dan search engine secara umum ? Artikel ini bermaksud menjawab hal tersebut secara sederhana.

CARA KERJA DASAR SEARCH ENGINE

Semua search engine (mesin pencari) bekerja dengan cara dasar yang sama : mereka "merayapi" (crawl) halaman web dengan software robot otomatis disebut Spider (laba-laba) atau Crawler (perayap) yang menghasilkan/menciptakan Indeks (daftar) isi web yang bisa dicari/ditemukan oleh para pengguna. Setiap search engine mengijinkan para penggunanya untuk mencari di dalam daftar (indeks) yang mesin pencari itu miliki, untuk sebuah Keyword (kata kunci) atau sekumpulan keyword. Hasil pencarian ditampilkan dalam berbagai bentuk daftar, tetapi kebanyakan menampilkan sedikit informasi mengenai setiap web yang masuk dalam daftar dan link yang mengarah ke web tersebut.

Cara setiap search engine membuat daftar sangat unik, berkat pemrograman mesin spider yang berbeda satu sama lain. Unsur utama dalam pemrograman spider adalah pada algoritma mesin pencari tersebut, yang menentukan rangking dari setiap halaman web yang didaftar. Sistem rangking tersebut menentukan cara hasil pencarian ditampilkan.

CARA KERJA GOOGLE

Aset teknologi utama Google adalah pada sistem algoritma yang mereka miliki, formula sistem rangking rumit yang memberikan pada para pemakai, hasil pencarian yang bagus dan seringkali terkesan seolah Google mampu membaca pikiran dari setiap orang yang mencari lewat mesin pencari raksasa ini.

Hasil dari sistem algoritma dirangkum dalam sebuah statistik rangking tunggal yang disebut PageRank, Google sangat merahasiakan formula PageRank ini, tetapi perusahaan tersebut mempromosikan pentingnya PageRank, dan menawarkan pada para Webmaster petunjuk-petunjuk umum untuk meningkatkan PageRank. Google menunjukkan sistem penilaian rata-rata dari setiap situs (dalam skala 0-10) dalam toolbar Google. Walaupun formula tepat dirahasiakan, tetapi ramuan dasar PageRank ini dikenal publik.

KAPAN GOOGLE MENGINDEKS/MERAYAP?

Google merayapi situs di Internet dengan kedalaman berbeda dan dengan pengaturan jadwal lebih dari sekali. Yang disebut Deep Crawl (merayap dalam) dilakukan paling tidak sekali dalam 1 bulan.

Berkaitan dengan rumitnya proses pembuatan daftar dan kebutuhan akan pembuatan daftar isi web secara ekstensif, diperlukan waktu lebih dari 1 minggu untuk melakukan perayapan. Karena itu diperlukan waktu 6 minggu untuk sebuah web atau blog baru supaya masuk dalam daftar Google.

DEEP CRAWLER DAN FRESH CRAWLER

Google bergantung sepenuhnya pada deep crawl ini, tetapi hasil dari deep crawl bisa cepat kadaluarsa terkait dengan cepatnya perubahan di dunia internet. Karenanya Google meluncurkan fresh crawl yang secara singkat mengunjungi situs-situs di Internet lebih sering daripada deep crawl. Memang hasil fresh crawl ini tidak akan mengubah keseluruhan indeks yang dimiliki Google, tapi akan mengupdate isi dari sebagian web/blog. Google tidak mengumumkan jadwal fresh crawl ini dan situs/blog apa yang dijadikan target, tetapi para Webmaster bisa mengetahui jadwal tersebut lewat penyelidikan yang seksama.

Google tidak punya kewajiban untuk mengunjungi URL khusus apapun, dengan fresh crawl mereka. Situs-situs dan blog bisa meningkatkan kesempatan untuk lebih sering dikunjungi Google dengan mengupdate konten mereka secara teratur. Ingat sisi kedangkalan dari fresh crawl, Google mungkin mengunjungi halaman depan dari situs atau blog anda, tetapi mungkin tidak mengunjungi halaman lain.

Deep Crawl bersifat lebih otomatis dan tanpa pertimbangan serta lebih teliti daripada Fresh Crawl. Kesempatan baik datang bila saat jadwal deep crawl, link-link dari halaman baru sudah tercantum di halaman utama, sehingga deep crawl akan mengindeks halaman baru itu juga. Tidak semua halaman dari sebuah situs akan dimasukkan dalam indeks oleh Google, proses pertimbangannya adalah rahasia perusahaan tersebut. Karenanya, bila anda merasa ada sebuah halaman atau artikel penting yang anda miliki tidak terindeks di Google, yang bisa anda lakukan adalah memaksimalkan promosi.

Satu hal yang Google banggakan dari kecanggihan sistem mereka adalah bahwa proses pembuatan indeks berlangsung secara otomatis. Sehingga tidak ada campur tangan dari manusia sama sekali, termasuk para teknisi Google (tentu mereka mengendalikan si robot Spider,tapi mereka tidak campur tangan pada hasilnya). Jadi akan sia-sia bila anda berpikir mereka akan merespon keluhan anda mengenai hasil pengindeksan terhadap blog atau situs anda.

DAFTAR ISTILAH :

Crawl : Proses di mana software robot yang dimiliki search engine menjelajahi semua situs dan blog yang ada di Internet. Dalam bahasa Indonesia disebut juga merayap.

Spider : Nama software robot yang dimiliki oleh search engine yang digunakan untuk mengindeks. Software robot lain mungkin disebut Crawler.

Indeks : Daftar yang dimiliki masing-masing search engine mengenai isi setiap situs dan blog di dunia Internet. Daftar ini mungkin terdiri dari jutaan kategori dan kata. Setiap kita melakukan pencarian lewat search engine, search engine yang bersangkutan akan mengakses indeks mereka, untuk mencari situs/blog yang memuat informasi yang anda inginkan.

mbahencrot

Sabtu, 20 Agustus 2011

Mengenal Mesin Crawling Google

Tidak ada komentar:

Posting Komentar