Secara konseptual Algoritma (algorithms) merupakan penelusuran mengambil kueri (biasanya sekumpulan kata) dan mengembalikan sekumpulan hasil yang terkait dengan kata tersebut.
F (Query) = hasil (results)
Dalam kasus Google, rangkaian hasil tersebut adalah tautan ke laman web yang, diharapkan, menjawab atau memberikan informasi yang relevan dengan kueri Anda.
Keajaiban terjadi dalam fungsi pseudoscientific ‘F’.
Bagaimana Mengakses Query dan Mendapatkan Hasil?
Hal pertama yang harus dipahami adalah bahwa penelusuran tidak terjadi dalam waktu nyata. Saat mengetik pencarian di Google, situs web yang dikembalikan (diakses) telah dimasukkan ke dalam database. Ini berarti bahwa Google tidak benar-benar ‘menelusuri web’ di semua laman setiap kali Anda mengetik dalam penelusuran. [1]
Sebenarnya dilakukan adalah mengirimkan kueri ke server Google, yang mengambil data yang sudah mereka miliki, membuat beberapa tebakan atau prediksi tentang apa yang diminati, dan mengembalikan apa yang mereka yakini sebagai hasil terbaik.
Cakupan pencarian yang sebenarnya terletak pada jutaan langkah kecil, tetapi kita dapat mengabstraksikannya menjadi 4 langkah sederhana untuk jawaban ini.
1. Membangun perpustakaan situs web yang sangat besar: Anda perlu melakukan ini untuk memiliki ‘sesuatu’ untuk ditelusuri. Karena di Google Anda mencari situs web (kebanyakan), Anda perlu memahami apa yang ada di web
2. Memahami kueri: untuk menelusuri dengan baik, Anda harus memiliki pemahaman tentang apa yang diminta penelusur
3. Memperkaya Kueri: terlebih lagi, memahami kueri yang sebenarnya mungkin tidak memberi semua informasi yang dibutuhkan, jadi perlu menggunakan petunjuk lain untuk mencari tahu apa yang mereka inginkan
4. Mengembalikan Hasil yang Relevan: setelah ditahui apa yang inginkan, perlu mengirim kembali materi yang relevan. Di sinilah peran ‘algoritme’.
Membangun Pustaka (Pusat Data) Web dan Situs
Segala sesuatu di web merupakan file di beberapa komputer di berbagai tempat. Anda menggunakan ‘internet’ (yang, disederhanakan, adalah sekumpulan koneksi kabel antara komputer-komputer ini) untuk mengakses file-file ini.
Cara Anda mengakses file-file ini adalah dengan URI (Universal Resource Indicator), yang sering disebut sebagai URL (Universal Resource Locator), yang hanya menambahkan cara untuk menemukan sumber daya itu), tetapi yang mungkin Anda sebut sebagai ‘alamat web’ atau tautan.
Google tidak memberikan informasi utuh tentang sebuah web. Artinya, tidak benar-benar memberikan informasi untuk memahami apa yang seharusnya ada di laman atau hal seperti apa web tersebut secara detil. Karena itu, kita harus benar-benar mengunjungi URI untuk memahami apa yang ada di laman itu. Google (dan mesin pencari lainnya) membuat perangkat lunak yang melakukan ini, yang disebut Spiders atau Crawlers (Laba-Laba atau Perayap).
Setiap Spiders atau Crawlers harus mulai di tempat tertentu di web, dan mengunjungi setiap tautan yang mereka bisa. Bahasa web (HTML) memiliki cara praktis untuk mendapatkan informasi dari laman di web, asalkan digunakan dengan benar. Anda dapat menemukan hal-hal seperti judul, apa yang penting di halaman, dan link yang dimiliki halaman tersebut serta cara mendeskripsikan link tersebut.
Google’s Spiders mengambil informasi situs web dan mencoba mengunjungi setiap laman di web, yang jumlahnya mencapai miliaran. Spider mengulas dan membuat katalog semua jenis informasi, tetapi misalnya:
1. judul halaman
2. seberapa baru ini diperbarui
3. seberapa cepat itu memuat
4. kata-kata apa yang ada di halaman
5. berapa banyak dan jenis gambar apa yang ada di halaman
6. topik apa yang dicakup halaman
Hal tersebut dilakukan dengan cara yang cepat, skalabel, dan memberikan hasil yang konsisten sangatlah rumit. Setelah laba-laba merayapi suatu halaman, ia akan mengunjungi semua tautan lain di halaman tersebut, bercabang sampai ia melihat setiap halaman yang mungkin dapat dikunjungi, menambahkannya ke perpustakaan. Terakhir, Google dengan kebijaksanaannya yang tak terbatas telah mengindeks banyak jenis hal lain dengan tautan khusus: tempat, gambar, artikel ilmiah, item untuk dibeli, dll. Google menggunakan perayap khusus untuk memahami hal-hal ini, tetapi jangan terlalu mendalaminya. .
Beberapa orang tidak ingin informasi situs web mereka diklacak/dirayapi. Yang lainnya secara aktif mencegah Google mengakses halaman mereka dengan menggunakan perangkat lunak yang cukup cerdas. Akibatnya, tidak semua halaman dimasukkan ke dalam ‘perpustakaan’ halaman web yang dapat diakses Google.
Memahami Kueri (Query)
Memahami bahasa sangatlah kompleks. Kueri Itu hanya satu kata. Namun teknisi Google mendapat bantuan dari miliaran kueri per hari. Jadi seiring waktu, mereka membuat prediksi yang cukup kuat tentang hal-hal yang diinginkan orang. Mereka menerima umpan balik berdasarkan apa yang Anda klik dan seberapa sering Anda kembali ke laman penelusuran dengan kueri yang sama untuk mencari tahu seberapa baik kinerja mereka.
Singkatnya, google membuat kamus kueri penelusuran yang sangat besar, dan jenis atribut halaman apa yang mungkin mereka rujuk sebagai bagian dari bisnis inti mereka.
Dengan demikian Google tidak hanya tahu tentang kata-kata yang ditanyakan. Awalnya Google hanya tahu apa yang Anda tanyakan, tetapi sekarang menjadi tahu SANGAT BANYAK.
Google dapat dengan mudah mengetahui:
1. lokasi Anda yang seharusnya (dari alamat IP Anda, waktu ping, atau secara harfiah informasi lokasi di ponsel Anda)
2. riwayat penelusuran Anda (apakah Anda masuk atau tidak)
3. jenis perangkat yang Anda gunakan
4. apakah Anda akan pindah
5. hal-hal lain yang Anda ketik sebelum Anda menekan ‘telusuri’
6. halaman yang Anda buka sebelum membuka Google
7. browser, sistem operasi, dll. yang Anda jalankan
8. Google mengambil informasi ini (dan banyak lagi, mungkin) dan membuat tebakan tentang Anda dan apa yang Anda inginkan.
Singkatnya, Google mengambil kueri yang Anda berikan, dan menambahkan banyak data ke dalam catatan (log) untuk memastikan itu yang terbaik yang memberikan informasi paling relevan dengan hasil yang Anda inginkan.
Memberikan Hasil Yang Relevan
Google memiliki sekumpulan ‘hal’ yang komprehensif di web, dan banyak informasi tentang situs web. Selain itu, google memiliki kueri yang diajukan client, diperkaya dengan lebih banyak informasi tentang siapa yang bertanya. Google kemudian menerjemahkan kueri itu menjadi sesuatu yang dapat dipahami oleh mesin yang memelihara pusat data informasi tentang laman situs web.
Mesin yang beroperasi dengan cepat untuk mencoba dan menemukan rangkaian hasil terbaik. Proses yang digunakan mesin tersebut (yang akan Anda sebut ‘Google’) disebut algoritme.
Apa Algoritma itu ?
Algoritma adalah urutan langkah logis yang digunakan untuk menyelesaikan suatu masalah. Singkatnya, sebuah masalah harus diselesaikan dengan beberapa langkah yang logis. Dalam kehidupan sehari-hari, contoh algoritma bisa digambarkan dengan berbagai macam hal. Salah satu contohnya adalah aktivitas memasak air. Algoritmanya tentu saja berhubungan dengan aktivitas dalam memasak air.
Misalnya saja yaitu siapkan panci yang sesuai, masukkan air ke dalam panci tersebut, tutup panci, letakkan panci pada kompor, hidupkan kompor dengan nyala api sedang, apabila air mendidih, matikan kompor, angkat panci dari kompor. Deretan langkah tersebut merupakan algoritma dari akitivitas memasak air. Karena urutan yang jelas, langkah diatas dianggap proses yang logis.
Sementara itu, di dalam ilmu komputer dan matematika, algoritma didefinisikan sebagai prosedur dari berbagai macam langkah penghitungan, penalaran secara otomatis, sampai pemrosesan data. Algoritma juga diartikan sebagai metode yang diekspresikan lewat rangkaian dan instruksi yang dijabarkan untuk menghitung. Secara garis besar, algoritma dimulai dengan imput dan kondisi awal, deskripsi, eksekusi, dan menghasilkan output.
Dapat dikatakan Algoritma adalah semacam resep atau rumus. Algoritma menjelaskan cara melakukan sesuatu. Algoritme penelusuran, dari waktu ke waktu, telah berpindah dari yang kurang rumit ke yang lebih kompleks. Hal pertama yang perlu diperhatikan, Google tidak memiliki 1 ‘algoritme penelusuran’, ia memiliki banyak algoritme, yang digabungkan dengan sangat cepat untuk menghasilkan hasil.
Untuk sementara, sebagian besar algoritme penelusuran tidak terlalu handal. Ini karena algoritme penelusuran mengandalkan informasi yang cukup mendasar. Berdasarkan pemahaman kami di atas, Anda mungkin hanya melakukan penelusuran dasar. Page Rank (dinamai menurut Larry Page, bukan halaman web), adalah algoritme pertama yang memperhitungkan perilaku manusia dalam mencari tahu atau melakukan penelusuran. Seperti yang telah kita ketahui, Google terus membuat lebih banyak data, lebih banyak kueri, lebih banyak informasi tentang situs web.
Potongan-potongan data ini dimasukkan kembali ke ‘mesin’ yang menemukan hasil penelusuran untuk membantu mereka ‘mempelajari’ jenis hasil yang berguna. Cukup sederhana, teknik ini secara luas disebut sebagai ‘pembelajaran mesin’. Teknisi Google bekerja sama dengan pemberi skor kualitas manusia untuk mencari cara baru dalam mengumpulkan data dari crawler, cara baru untuk menilai hasil ini, dan cara baru untuk menentukan apakah hasil tersebut relevan, membantu, atau berhasil.
KESIMPULAN
Algoritma ‘Penelusuran’ Google terlalu rumit untuk dijelaskan secara memadai oleh manusia mana pun (bahkan Larry Page sendiri). Ini dihasilkan dari data terstruktur yang dimasukkan ke dalam pustaka yang dikumpulkan dari spider yang terus-menerus melihat halaman web, data terstruktur yang dikumpulkan dari kueri, dan diperkaya dengan data yang diketahui Google tentang Anda.
Catatan kaki :
[1] The Internet: How Search Works
[2] http://heard from Tim Berners-Lee himself
[3] Elasticsearch: RESTful, Distributed Search & Analytics
[4] The PageRank Citation Ranking: Bringing Order to the Web
[5] A Complete Guide to the Google Panda Update