平特心水报图
新網絡營銷基礎與實踐

你的位置:首頁 >網絡營銷 >全文搜索引擎

全文搜索引擎

     在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。   
      另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定向向你的網站派出“蜘蛛”程序,掃描你的網站并將有關信息存入數據庫,以備用戶查詢。由于近年來搜索引擎索引規則發生了很大變化,主動提交網址并不保證你的網站能進入搜索引擎數據庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網站收錄。   
      當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,如果找到與用戶要求內容相符的網站,便采用特殊的算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然后根據關聯度高低,按順序將這些網頁鏈接返回給用戶。   這種引擎它的特點是搜全率比較高。

采用的技術

      搜索引擎面臨大量的用戶檢索需求(幾十~幾千點擊/秒),要求搜索引擎在檢索程序的設計上要高效,盡可能的將大運算量的工作在索引建立時完成,使檢索時的運算壓力能夠承受,一般的數據庫查詢技術無法實現全文搜索的時間要求,因此,目前全文搜索引擎通常使用倒排索引技術:

  倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。

  有兩種不同的反向索引形式:

  一條記錄的水平反向索引(或者反向檔案索引)包含每個引用單詞的文檔的列表。 一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。后者的形式提供了更多的兼容性(比如短語搜索),但是需要更多的時間和空間來創建。

全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然后按一定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。  從搜索結果來源的角度,全文搜索引擎又可細分為兩種,一種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,并自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上面提到的7家引擎;另一種則是租用其他引擎的數據庫,并按自定的格式排列搜索結果,如Lycos引擎。

定義  全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。

編輯本段分類介紹

  全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢索是指對于文章中的每一個字都建立索引,檢索時將詞分解為字的組合。對于各種不同的語言而言,字有不同的含義,比如英文中字與詞實際上是合一的,而中文中字與詞有很大分別。按詞檢索指對文章中的詞,即語義單位建立索引,檢索時按詞檢索,并且可以處理同義項等。英文等西方文字由于按照空白切分詞,因此實現上與按字處理類似,添加同義處理也很容易。中文等東方文字則需要切分字詞,以達到按詞索引的目的,關于這方面的問題,是當前全文檢索技術尤其是中文全文檢索技術中的難點。

  全文檢索系統是按照全文檢索理論建立起來的用于提供全文檢索服務的軟件系統。一般來說,全文檢索需要具備建立索引和提供查詢的基本功能,此外現代的全文檢索系統還需要具有方便的用戶接口、面向WWW的開發接口、二次應用開發接口等等。功能上,全文檢索系統核心具有建立索引、處理查詢返回結果集、增加索引、優化索引結構等等功能,外圍則由各種不同應用具有的功能組成。結構上,全文檢索系統核心具有索引引擎、查詢引擎、文本分析引擎、對外接口等等,加上各種外圍應用系統等等共同構成了全文檢索系統。

  最常用的全文搜索引擎有百度、谷歌(Google)等。與之相對應的是目錄索引類搜索引擎。

編輯本段采用的技術

  搜索引擎面臨大量的用戶檢索需求(幾十~幾千點擊/秒),要求搜索引擎在檢索程序的設計上要高效,盡可能的將大運算量的工作在索引建立時完成,使檢索時的運算壓力能夠承受,一般的數據庫查詢技術無法實現全文搜索的時間要求,因此,目前全文搜索引擎通常使用倒排索引技術:

  倒排索引(英語:Inverted index),也常被稱為反向索引、置入檔案或反向檔案,是一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。它是文檔檢索系統中最常用的數據結構。

  有兩種不同的反向索引形式:

  一條記錄的水平反向索引(或者反向檔案索引)包含每個引用單詞的文檔的列表。 一個單詞的水平反向索引(或者完全反向索引)又包含每個單詞在一個文檔中的位置。[1] 后者的形式提供了更多的兼容性(比如短語搜索),但是需要更多的時間和空間來創建。

網絡營銷詞典內容均由網友提供,僅供參考。

平特心水报图 赛车8码滚雪球图倍投方法 11选5前三胆拖投注表 北京幸运28稳赚技巧 幸运飞艇5码计划免费软件 安徽时时平台注册码 双色球中奖人 山东体彩手机在线投注 重庆时时彩2.1版本安卓 大乐透中奖规则 大乐透有什么规律