平特心水报图
新網絡營銷基礎與實踐

你的位置:首頁 >網絡營銷 >搜索引擎蜘蛛

搜索引擎蜘蛛

現代意義上的搜索引擎的祖先,是1990年由蒙特利爾大學學生Alan Emtage發明的Archie。雖然當時World Wide Web還未出現,但網絡中文件傳輸還是相當頻繁的,而且由于大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage想到了開發一個可以以文件名查找文件的系統,于是便有了Archie。   Archie工作原理與現在的搜索引擎已經很接近,它依靠腳本程序自動搜索網上的文件,然后對有關信息進行索引,供使用者以一定的表達式查詢。由于Archie深受用戶歡迎,受其啟發,美國內華達System Computing Services大學于1993年開發了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網頁。   當時,“機器人”一詞在編程者中十分流行。電腦“機器人”(Computer Robot)是指某個能以人類無法達到的速度不間斷地執行某項任務的軟件程序。由于專門用于檢索信息的“機器人”程序象蜘蛛一樣在網絡間爬來爬去,因此,搜索引擎的“機器人”程序就被稱為“蜘蛛”程序。

蜘蛛程序如何抓取網頁

  互聯網就是由一個個鏈接構成的,蜘蛛程序順著這些鏈接爬行并發現網頁信息,蜘蛛程序爬行每一個頁面,當這個頁面不再有新的鏈接信息的時候,它就返回,下次再到這個頁面的時候,再去爬行。
    當給它足夠的時間,他就會找到互聯網所有的網頁信息(至少是被鏈接的),在爬行的時候,它還會不斷的向服務器提供信息,所以我們在進行網站日志分析的時候,如果發現某一個網頁被某個搜索引擎的蜘蛛程序程序爬行并成功抓取數據,那么,這個網頁就很有可能被索引,所以提高網頁的索引數據(收錄量)對于一個網站的搜索引擎優化(SEO)是非常有利的。   鏈接信息處理   當蜘蛛程序在爬行鏈接的過程中,它還會對爬行過的鏈接進行處理,因為鏈接需要載體,查看描述這些鏈接的載體(文字、圖片或其他信息)。
發現鏈接載體,存儲鏈接數據,蜘蛛程序處理網頁更新,互聯網上存在在網頁太多太多,一些是經常更新的,一些是一年半載都沒有變化的,那么,如果網頁更新了,如果等到蜘蛛回到這里發現更新信息,可能要等上幾天甚至幾周的時間了,這也是為什么我們有時候在搜索引擎點擊一個搜索結果,會發現“網頁無法打開”、“你所查找的頁面已經被刪除”等等情況,這是因為蜘蛛程序上次成功抓取并存放在搜索引擎索引中的信息,而現在這個頁面的地址或內容現在發生了變化。   

      所以這里我們要做的,就是努力增加蜘蛛爬行頁面的頻率,以保證我們網頁在搜索引擎數據庫中的索引是最新的。   比如蜘蛛程序今天訪問了網站的兩個網頁并成功抓取,隔了兩個星期,它再來訪問這兩個頁面的時候,這兩個網頁其中一個更新了,另一個確沒有,那么,蜘蛛程序可能會在一個星期內再次回訪更新過的那個網頁,而在一個月后才去訪問沒有更新的那個網頁,隨著時間的推移,蜘蛛程序會更加頻繁是爬行經常更新的網頁,以達到更新服務器中的索引數據,向用戶提供最新的網頁信息

網絡蜘蛛基本原理

  搜索引擎主要是由蜘蛛程序(網頁爬行器爬蟲)、切詞器、索引器、查詢器幾個部分組成。蜘蛛程序主要負責頁面的抓取,與切詞器、索引器一起共同對網頁內容進行分詞處理,建立索引數據庫。查詢器主要是根據用戶的查詢條件檢索索引數據庫,并對索引結構進行計算和排名,并提取簡要摘要反饋給用戶。

  網絡蜘蛛即Web Spider,是一個很形象的名字。把互聯網比喻成一個蜘蛛網,那么Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。如果把整個互聯網當成一個網站,那么網絡蜘蛛就可以用這個原理把互聯網上所有的網頁都抓取下來。

  對于搜索引擎來說,要抓取互聯網上所有的網頁幾乎是不可能的,從目前公布的數據來看,容量最大的搜索引擎也不過是抓取了整個網頁數量的百分之四十左右。這其中的原因一方面是抓取技術的瓶頸,100億網頁的容量是100×2000G字節,即使能夠存儲,下載也存在問題(按照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才能把所有網頁下載完畢)。同時,由于數據量太大,在提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網絡蜘蛛只是抓取那些重要的網頁,而在抓取的時候評價重要性主要的依據是某個網頁的鏈接深度。(鏈接深度通俗點講就是網站內部頁面與對方網站內部頁面的鏈接,或本網站內頁之間的鏈接。對于不同站點,這種鏈接可以是單向的內部頁面鏈接,也可以是雙向的內部頁面鏈接。)

  在抓取網頁的時候,網絡蜘蛛一般有兩種策略:廣度優先和深度優先。廣度優先是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式,因為這個方法可以讓網絡蜘蛛并行處理,提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續跟蹤鏈接。這個方法有個優點是網絡蜘蛛在設計的時候比較容易。

網絡營銷詞典內容均由網友提供,僅供參考。

平特心水报图 双色球中奖分布 上海时时最快开奖网站 刘伯温六肖 万彩网合法吗 七星彩开奖视频今天的 北京赛pk10免费计划软件 三肖平特准 后二组选包胆 计划 黑龙江时时组选走势 北京塞车pk10