平特心水报图
新網絡營銷基礎與實踐

你的位置:首頁 >網絡營銷 >深入搜索引擎——海量信息的壓縮、索引和查詢

深入搜索引擎——海量信息的壓縮、索引和查詢

圖書信息

作  者:(新)威頓(Witten,I.H.),(澳)莫夫特(Moffat,A.),(新)貝爾(Bell,T.C.) 著,梁斌 譯

出 版 社:電子工業出版社

出版時間:2009-6-1

版  次:1

頁  數:540

字  數:574000

印刷時間:2009-6-1

開  本:16

紙  張:膠版紙

印  次:1

I S B N:9787121084911

包  裝:平裝

定 價:79.00元

內容簡介

本書是斯坦福大學信息檢索和挖掘課程的首選教材之一,并已成為全球主要大學信息檢索的主要教材。本書理論和實踐并重,深入淺出地給出了海量信息數據處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在于不僅僅滿足信息檢索理論學習的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。
  本書作為斯坦福大學信息檢索課程的教材之一,具有一定的閱讀難度,主要面向信息檢索專業高年級本科 生和研究生、搜索引擎業界的專業技術人員和從事海量數據處理相關專業的技術人員。

作者簡介

Ian H.Witten 是新西蘭Waikato大學計算系科學系教授,是ACM、新西蘭皇家學會會員。是英國、美國、加拿大和新西蘭的專業計算、信息檢索和工程協會會員。他是 《The Reactive Keyboard》和《Text Compression》的作者之一,這兩本書分別出版于1992年和1990年。各大會議和期刊論文都能看到他的論文。
  Alistair Moffat是墨爾本大學計算科學系的副教授。在各大會議和期刊中發表了大量論文,這些論文包括的領域有:關于文本和圖像壓縮的算法和數據結構,字典和優先級隊列的自適應數據結構,以及自適應搜索和排序算法。
  Timothy C.Bell是Canterbury大學計算機科學系系主任。是出版于1990年的《Text Compression》一書的作者。在各大期刊和會議上發表了多篇論文,這些論文涉及文本和圖像壓縮,計算機和音樂,計算機教育等。

本書目錄

第1章 概覽
1.1 文檔數據庫(DOCUMENT DATABASES)
1.2 壓縮(COMPRESSION)
1.3 索引(INDEXES)
1.4 文檔索引
1.5 MG海量文檔管理系統
1.6 進一步閱讀
第2章 文本壓縮
2.1 模型
2.2 自適應模型
2.3 哈夫曼編碼
范式哈夫曼編碼
計算哈夫曼編碼長度
總結
2.4 算術編碼
算術編碼是如何工作的
實現算術編碼
保存累積計數
2.5 符號模型
部分匹配預測
塊排序壓縮
動態馬爾科夫壓縮
基于單字的壓縮
2.6 字典模型
自適應字典編碼器的LZ77系列
LZ77的Gzip變體
自適應字典編碼器的LZ78系列
LZ78的LZW變體
2.7 同步
創造同步點
自同步編碼
2.8 性能比較
壓縮性能
壓縮速度
其他性能方面的考慮
2.9 進一步閱讀
第3章 索引
3.1 樣本文檔集合
3.2 倒排文件索引
3.3 壓縮倒排文件
無參模型(Nonparameterized models)
全局貝努里模型
全局觀測頻率模型(Global observed frequency model)
局部貝努里模型(Local Bernoulli model)
有偏貝努里模型(Skewed Bernoulli model)
局部雙曲模型(Local hyperbolic model)
局部觀測頻率模型(Local observed frequency model)
上下文相關壓縮(Context-sensitive compression)
3.4 索引壓縮方法的效果
3.5 簽名文件和位圖
簽名文件
位片簽名文件(Bitsliced signature files)
簽名文件分析
位圖
簽名文件和位圖的壓縮
3.6 索引方法的比較
3.7 大小寫折疊、詞根化和停用詞
大小寫折疊
詞根化
影響索引長度的因素
停用詞(stop word)
3.8 進一步閱讀
第4章 查詢
4.1 訪問字典的方法
訪問數據結構
前端編碼(Front coding)
最小完美哈希函數
完美哈希函數的設計
基于磁盤的字典存儲
4.2 部分指定的查詢術語
字符串暴力匹配(Brute-force string matching)
用n-gram索引
循環字典(Rotated lexicon)
4.3 布爾查詢(BOOLEAN QUERY)
合取查詢(conjunctive query)
術語處理順序
隨機訪問和快速查找
分塊倒排索引
非合取查詢(Nonconjunctive query)
4.4 信息檢索和排名
坐標匹配(Coordinate matching)
內積相似度
向量空間模型
4.5 檢索效果評價
召回率和精確率
召回率-精確率曲線
TREC項目 208
萬維網搜索(World Wide Web Searching)
其他有效性評價方法
4.6 余弦法實現
文檔內頻率
余弦值的計算方法
文檔權重所需的內存
累加器內存
快速查詢處理
按頻率排序的索引
排序
4.7 交互式檢索
相關性反饋
概率模型
4.8 分布式檢索
4.9 進一步閱讀
第5章 索引構造
第6章 圖像壓縮
第7章 文本圖像
第8章 混合圖文
第9章 系統實現
第10章 信息爆炸
附錄A MG系統指南
附錄B 新西蘭圖書館

網絡營銷詞典內容均由網友提供,僅供參考。

平特心水报图 双色球中奖 重庆时时彩彩开奖时间 幸运一分快三计划软件下载 北京pk10冠亚和值大小 排三不赔钱万能7码 三分pk10在线计划网站 手机苹果彩票APP 赛车稳赚不亏的注码法 安徽时时开奖 印尼分分彩计划app