什么是搜索引擎及搜索引擎工作原理
編者按:本文由本站編輯 鐘麗 原創,轉載請保留本頁鏈接。
我們平常用來搜索的百度就是中國最大的搜索引擎,其它還有雅虎、新浪等推出的搜索引擎,不過量小得多,一般只有百分之幾。那搜索引擎有沒有科學的定義呢。
一般說來,搜索引擎是指以一定的策略搜集互聯網上的信息,在對信息進行組織和處理后,為用戶提供檢索服務的系統。
從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎后,搜索引擎就會返回跟用戶輸入的內容相關的信息列表。
也有人把互聯網發展早期,以雅虎為代表的網站分類目錄查詢非常流行。網站分類目錄由人工整理維護,精選互聯網上的優秀網站,并簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網站,這種基于目錄的檢索服務網站成為搜索引擎,但從嚴格意義上,它并不是搜索引擎。
搜索引擎必須具備抓取和處理網頁,提供檢索服務這三大功能。
抓取網頁一般稱為網絡機器人,其實是一個網頁抓取程序,英語叫spider。它是怎么工作的呢。
Spider順著網頁中的超鏈接,連續地抓取網頁。由于互聯網中超鏈接的應用很普遍,從理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。
抓取網頁后,還必須進行處理,處理內容包括四個方面,其中最重要的就是提取關鍵詞,建立索引文件,其次還得去除重復網頁、分析網頁中的超鏈接、計算網頁的重要度。
這一技術還在不斷發展中,這就是為什么大家有時假輸入的關鍵詞卻找不到想要的內容,這就是收索引擎處理網頁時精度不高造成的。
處理網頁后,就是與我們直接相關的檢索服務了,我們輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;一般情況下為了用戶便于判斷,除提供網頁標題和URL外,還會提供一段網頁摘要及其他信息。
相關作品:計算機之父──馮·諾依曼簡介