搜索引擎的工作流程對于外界來說神秘而高不可測,其實搜索引擎的工作流程非常簡單。當作為一般用戶在使用搜索引擎的時候,很難去想象或者了解搜索引擎的工作原理是怎么樣的?所以正是因為對搜索引擎的工作流程不是很了解,導(dǎo)致現(xiàn)在很多人都認為搜索引擎返回的結(jié)果是動態(tài)的,也就是當用戶輸入一個語句進行關(guān)鍵字查詢的時候,搜索引擎馬上從互聯(lián)網(wǎng)上抓取篩選結(jié)果,然后把查詢的關(guān)鍵字結(jié)果反饋給用戶。其實搜索引擎返回的結(jié)果是提前就已經(jīng)抓取好了的,然后經(jīng)過了一系列算法篩選之后放入數(shù)據(jù)庫。當用戶查詢時就立即對索引數(shù)據(jù)庫進行查找,然后反饋給用戶準確的關(guān)鍵字查詢結(jié)果。
搜集信息形成快照網(wǎng)頁快照收錄是搜索引擎通過蜘蛛程序在互聯(lián)網(wǎng)上抓取頁面并進行存儲形成快照的過程,他為搜索引擎開展各項工作提供了數(shù)據(jù)支持,搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛(spider)的自動搜索機器人程序來連上每一個網(wǎng)頁上的超鏈接。機器人程序根據(jù)網(wǎng)頁鏈到其他網(wǎng)頁中的超鏈接,就像日常生活中所說的“一傳十,十傳百……”一樣,從少數(shù)幾個網(wǎng)頁開始,連到數(shù)據(jù)庫上所有到其他網(wǎng)頁的鏈接。理論上,若網(wǎng)頁上有適當?shù)某溄,機器人便可以遍歷絕大部分網(wǎng)頁。
整理信息分析頁面普通用戶看頁面,看到的都是文字、圖片等直觀信息,但是搜索引擎看的是網(wǎng)頁的源代碼,而且會根據(jù)這些源代碼來確定網(wǎng)頁的重要信息。在看一個頁面的時候,會發(fā)現(xiàn)一些粗體、斜體、加色等樣式的文字,還有一些比較大的字體,有些文字還像標題一樣被隔開,這些設(shè)置不光是讓用戶在瀏覽信息的時候要特別注意,還有一點就是它們可能是網(wǎng)頁的重點。在搜索引擎看來,源代碼頭部或者靠近頭部的信息往往是比其他位置的文字重要,大家可以很形象的將一個網(wǎng)頁和一張報紙的頁面比較著看。確定重要文字或詞語,這是搜索引擎建立網(wǎng)頁索引過程的一個步驟。搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息就能迅速找到用戶所需要的資料。想象一下,如果信息是不按任何規(guī)則地隨意堆放在搜索引擎的數(shù)據(jù)庫中,那么它每次找資料都得把整個資料庫完全翻查一遍,如此一來,再快的計算機系統(tǒng)也沒有用。
接受查詢處理關(guān)鍵詞搜索引擎還會根據(jù)同義詞典和潛在語義進行拓展查詢檢索項。如搜索引擎會將“寵物”和“狗狗”,“藏獒”和“犬”,“人民”和“百姓”當做同一個概念進行處理。另外,搜索引擎在查詢的時候,還會根據(jù)主題來進行歸類,如當查詢SEO的時候,系統(tǒng)會自動將“網(wǎng)絡(luò)營銷”、“搜索引擎優(yōu)化”、“網(wǎng)站優(yōu)化”之類的都歸為一個主題來處理。當用戶使用搜索引擎進行查詢的時候,在搜索框中輸入一個關(guān)鍵詞,當索引中有這樣一個完全匹配的結(jié)果的時候,就會顯示出來。對于英文來說,相對就比較簡單了,只要對英文的單復(fù)數(shù),時態(tài)、詞根、組合詞等進行分析即可。不過對于中文,則一定要進行分詞,然后對關(guān)鍵詞進行向量計算,得出哪個網(wǎng)站的哪個關(guān)鍵詞的權(quán)重比較高,就顯示在索引中。用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶的幾乎是同時發(fā)出的查詢,它按照每個用戶的要求檢查自己的索引,在極短時間內(nèi)找到用戶需要的資料,并返回給用戶。目前,搜索引擎返回主要是以網(wǎng)頁鏈接的形式提供的,通過這些鏈接,用戶便能到達含有自己所需資料的網(wǎng)頁。通常搜索引擎會在鏈接下提供一小段來自這些網(wǎng)頁的摘要信息以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。