29 Jun 2011

Bagaimana google bekerja?



Sekarang pertanyaan ini dapat dengan mudah dijawab dengan 5000 kata. Buku telah ditulis tentang subjek ini. Tetapi intinya adalah yang ingin tahu di dalam? Yang penting adalah beberapa fakta menarik untuk mengesankan teman-teman Anda.

Ada flash yang indah yang menggambarkan proses google bekerja. [Untuk melihat klik di sini]

Lampu kilat memberikan musim panas dari seluruh buku dalam 2 menit audio-visual entity.Really menarik untuk dilihat.

Jika Anda tidak tertarik untuk mempelajari bagaimana Google membuat indeks dan database dokumen yang ia mengakses saat memproses query, melewatkan deskripsi ini.


Google berjalan pada jaringan terdistribusi dari ribuan komputer murah dan karena itu dapat melaksanakan pemrosesan paralel cepat. Pengolahan paralel adalah metode perhitungan di mana banyak perhitungan dapat dilakukan secara simultan, secara signifikan mempercepat pengolahan data. Google memiliki tiga bagian yang berbeda:

1. Googlebot, web crawler yang menemukan dan mengambil halaman web.

2. Indexer yang macam setiap kata pada setiap halaman dan menyimpan indeks yang dihasilkan dari kata-kata dalam database yang besar.

3. Prosesor query, yang membandingkan permintaan pencarian Anda ke indeks dan merekomendasikan dokumen yang dianggap paling relevan.
Mari kita lihat lebih dekat pada setiap bagian.



1. Googlebot, Google Web Crawler

Googlebot adalah web robot Google merangkak, yang menemukan dan mengambil halaman web dan tangan mereka ke indexer Google. Sangat mudah untuk membayangkan Googlebot sebagai laba-laba kecil yang berlarian di helai dunia maya, namun pada kenyataannya Googlebot tidak melintasi web sama sekali. Ini banyak fungsi seperti browser web Anda, dengan mengirimkan permintaan kepada server web untuk halaman web, men-download seluruh halaman, kemudian menyerahkannya ke indexer Google.
Googlebot terdiri dari banyak komputer meminta dan mengambil halaman jauh lebih cepat dari yang Anda dapat dengan browser web Anda. Bahkan, Googlebot dapat meminta ribuan halaman yang berbeda secara bersamaan. Untuk menghindari server web yang luar biasa, atau permintaan crowding out dari pengguna manusia, Googlebot sengaja membuat permintaan dari masing-masing web server individu lebih lambat dari itu mampu melakukan.

Googlebot menemukan halaman dalam dua cara: melalui bentuk URL menambahkan, www.google.com / addurl.html, dan melalui menemukan link dengan merangkak web.


Sayangnya, spammer menemukan cara untuk membuat bot otomatis bahwa bentuk dibombardir tambahkan URL dengan jutaan URL yang menunjuk ke propaganda komersial. Google menolak semua URL yang dikirimkan melalui form Add URL bahwa itu tersangka berusaha untuk menipu pengguna dengan menggunakan taktik seperti termasuk teks tersembunyi atau link pada halaman, isian halaman dengan kata-kata tidak relevan, cloaking (umpan alias dan switch), menggunakan sneaky redirects , menciptakan pintu, domain, atau sub-domain dengan konten yang secara substansial sama, mengirimkan query otomatis ke Google, dan menghubungkan ke tetangga yang buruk. Jadi sekarang Tambahkan URL bentuk juga memiliki tes: ini akan menampilkan beberapa berlekuk-lekuk huruf yang dirancang untuk menipu otomatis "surat-guessers", meminta Anda untuk memasukkan huruf yang Anda lihat - sesuatu seperti tes mata-chart untuk menghentikan robot spam.

Ketika Googlebot menjemput halaman, itu sisa-sisa semua link muncul di halaman dan menambahkan mereka ke antrian untuk merangkak berikutnya. Googlebot cenderung menghadapi spam yang sedikit karena penulis web yang paling link hanya untuk apa yang mereka yakini berkualitas tinggi halaman. Dengan panen link dari setiap halaman itu pertemuan, Googlebot dapat dengan cepat membangun sebuah daftar link yang dapat menutupi mencapai luas dari web. Teknik ini, yang dikenal sebagai merangkak dalam, juga memungkinkan Googlebot untuk menyelidiki jauh di dalam situs individu. Karena skala besar mereka, dalam merangkak dapat mencapai hampir setiap halaman di web. Karena web sangat luas, hal ini dapat memakan waktu, sehingga beberapa halaman mungkin dijelajahi hanya sekali sebulan.

Meskipun fungsinya sederhana, Googlebot harus diprogram untuk menangani beberapa tantangan. Pertama, sejak Googlebot mengirimkan permintaan secara simultan untuk ribuan halaman, antrian URL "kunjungi segera" harus terus diperiksa dan dibandingkan dengan URL sudah ada di indeks Google. Duplikat dalam antrian harus dihilangkan untuk mencegah Googlebot dari mengambil halaman yang sama lagi. Googlebot harus menentukan seberapa sering untuk mengunjungi halaman. Di satu sisi, membuang-buang sumber daya mengindeks ulang halaman tidak berubah. Di sisi lain, Google ingin kembali berubah halaman indeks untuk memberikan up-to-date hasil.

Untuk menjaga indeks saat ini, Google terus recrawls halaman web populer yang sering berubah pada tingkat kasar sebanding dengan seberapa sering perubahan halaman. Seperti merangkak menjaga indeks saat ini dan dikenal sebagai merangkak segar. Halaman koran-download harian, halaman dengan harga saham di-download lebih sering. Tentu saja, segar kembali menjelajah halaman lebih sedikit daripada merangkak dalam. Kombinasi dari dua jenis merangkak memungkinkan Google untuk kedua memanfaatkan sumber daya yang efisien dan menjaga indeksnya cukup saat ini.

2. Google Indexer

Googlebot indexer memberikan teks lengkap dari halaman yang ditemukan. Halaman-halaman ini disimpan dalam database indeks Google. Indeks ini diurutkan menurut abjad istilah pencarian, dengan setiap entri indeks menyimpan daftar dokumen di mana istilah itu muncul dan lokasi dalam teks mana itu terjadi. Struktur data ini memungkinkan akses cepat ke dokumen yang mengandung kata permintaan pengguna.
Untuk meningkatkan performa pencarian, Google mengabaikan (tidak indeks) kata-kata umum yang disebut kata-kata berhenti (seperti, yang, pada, atau, dari, bagaimana, mengapa, serta digit tunggal tertentu dan huruf tunggal). Hentikan kata-kata sangat umum bahwa mereka berbuat banyak untuk mempersempit pencarian, dan karena itu mereka dapat dibuang dengan aman. Indexer juga mengabaikan beberapa tanda baca dan beberapa ruang, serta mengkonversi semua huruf untuk huruf kecil, untuk meningkatkan kinerja Google.

3. Google Query Processor

Prosesor query memiliki beberapa bagian, termasuk user interface (kotak pencarian), "mesin" yang mengevaluasi permintaan dan pertandingan mereka untuk dokumen yang relevan, dan formatter hasil.
PageRank adalah sistem Google untuk halaman web peringkat. Sebuah halaman dengan PageRank yang lebih tinggi dianggap lebih penting dan lebih mungkin tercantum di atas halaman dengan PageRank rendah.
Google menganggap lebih dari seratus faktor dalam komputasi PageRank dan menentukan dokumen mana yang paling relevan dengan query, termasuk popularitas halaman, posisi dan ukuran istilah pencarian di dalam halaman, dan kedekatan istilah pencarian satu sama lain pada halaman.
Google juga berlaku mesin-belajar teknik untuk meningkatkan kinerjanya secara otomatis dengan mempelajari hubungan dan asosiasi di dalam data yang tersimpan. Sebagai contoh, sistem ejaan-koreksi menggunakan teknik tersebut untuk mengetahui kemungkinan ejaan alternatif. Google erat penjaga menggunakan rumus untuk menghitung relevansi; mereka tweak untuk meningkatkan kualitas dan kinerja, dan mengecoh teknik licik terbaru yang digunakan oleh spammer.
Pengindeksan teks lengkap dari web memungkinkan Google melampaui hanya pencocokan istilah pencarian tunggal. Google memberikan prioritas untuk halaman yang memiliki istilah pencarian dekat satu sama lain dan dalam urutan yang sama seperti query. Google juga bisa mencocokkan multi-kata frasa dan kalimat. Karena kode HTML Google indeks selain teks pada halaman, pengguna dapat membatasi pencarian berdasarkan kata-kata mana permintaan muncul, misalnya, dalam judul, di URL, di dalam tubuh, dan di link ke halaman, opsi yang ditawarkan oleh Formulir Pencarian Lanjutan Google dan Menggunakan Operator Pencarian (Operator Advanced).

Mari kita lihat bagaimana Google memproses query.


Bukankah itu menarik? BTW,nama 'Google' adalah sebuah kecelakaan. Kesalahan ejaan yang dibuat oleh para pendiri asli yang mengira mereka pergi untuk 'Googol' ..

0 komentar:

Posting Komentar

My blog is dofollow...

pengunjung yang baik adalah pengunjung yang selalu memberi apresiasi dengan meninggalkan pesan komentar...

facebook comment

Twitter Delicious Facebook Digg Stumbleupon Favorites More