搜索引擎

（美）克罗夫特 机械工业出版社

出版时间：

2009-10

出版社：

机械工业出版社

作者：

（美）克罗夫特

页数：

520

Tag标签：

无

前言

This book provides an overview of the important issues in information retrieval, and how those issues affect the design and implementation of search engines. Not every topic is covered at the same level of detail. We focus instead on what we consider to be the most important alternatives to implementing search engine components and the information retrieval models underlying them. Web search engines are obviously a major topic, and we base our coverage primarily on the technology we all use on the Web,l but search engines are also used in many other applications. That is the reason for the strong emphasis on the information retrieval theories and concepts that underlie all search engines.The target audience for the book is primarily undergraduates in computer science or computer engineering, but graduate students should also find this useful. We also consider the book to be suitable for most students in information science programs. Finally, practicing search engineers should benefit from the book, whatever their background. There is mathematics in the book, but nothing too esoteric. There are also code and programming exercises in the book, but nothing beyond the capabilities of someone who has taken some basic computer science and programming classes.

内容概要

本书介绍了信息检索（1R）中的关键问题。以及这些问题如何影响搜索引擎的设计与实现，并且用数学模型强化了重要的概念。对于网络搜索引擎这一重要的话题，书中主要涵盖了在网络上广泛使用的搜索技术。本书适用于高等院校计算机科学或计算机工程专业的本科生、研究生，对于专业人士而言，本书也不失为一本理想的入门教材。

作者简介

W.Bruce Croft马萨诸塞大学阿默斯特分校计算机科学特聘教授、ACM会士。他创建了智能信息检索研究中心，发表了200余篇论文，多次获奖，其中包括2003年由ACM SIGIR颁发的Gerard Salton奖。

书籍目录

1 Search Engines and Information Retrieval 　1.1 What Is Information Retrieval?　1.2 The Big Issues　1.3 Search Engines　1.4 Search Engineers2 Architecture of a Search Engine　2.1 What Is an Architecture ?　2.2 Basic Building Blocks　2.3 Breaking It Down 2.3.1 Text Acquisition　　2.3.2 Text Transformation　　2.3.3 Index Creation　　2.3.4 User Interaction　　2.3.5 Ranking　　2.3.6 Evaluation　2.4 How Does It Really Work?3 Crawls and Feeds　3.1 Deciding What to Search　3.2 Crawling the Web　　3.2.1 Retrieving Web Pages　　3.2.2 The Web Crawler　　3.2.3 Freshness　　3.2.4 Focused Crawling 　　3.2.5 Deep Web　 3.2.6 Sitemaps　 3.2.7 Distributed Crawling 3.3 Crawling Documents and Email 3.4 Document Feeds 3.5 The Conversion Problem　 3.5.1 Character Encodings 3.6 Storing the Documents　 3.6,1 Using a Database System 　 3.6.2 Random Access　 3.6.3 Compression and Large Files 　 3.6.4 Update　 3.6.5 BigTable　3.7 Detecting Duplicates　3.8 Removing Noise4 Processing Text　4.1 From Words to Terms　4.2 Text Statistics　 4.2.1 Vocabulary Growth 　 4.2.2 Estimating Collection and Result Set Sizes 4.3 Document Parsing　 4.3.1 Overview 　 4.3.2 Tokenizing　 4.3.3 Stopping　 4.3.4 Stemming 　 4.3.5 Phrases and N-grams 4.4 Document Structure and Markup 4.5 Link Analysis　 4.5.1 Anchor Text　 4.5.2 PageRank 　 4.5.3 Link Quality 4.6 Information Extraction　 4.6.1 Hidden Markov Models for Extraction 4.7 Internationalization5 Ranking with Indexes6 Queries and Interfaces7 Retrieval Models8 Evaluating Search Engines9 Classification and Clustering10 Social Search11 Beyond Bag of WordsReverencesIndex

章节摘录

插图：After documents have been converted to some common format, they need to bestored in preparation for indexing. The simplest document storage is no document storage, and for some applications this is preferable. In desktop search, for example, the documents are already stored in the file system and do not need to be copied elsewhere. As the crawling process runs, it can send converted documents immediately to an indexing process. By not storing the intermediate converted documents, desktop search systems can save disk space and improve indexing latency.Most other kinds of search engines need to store documents somewhere. Fast access to the document text is required in order to build document snippetsz for each search result. These snippets of text give the user an idea of what is inside the retrieved document without actually needing to click on a link.Even if snippets are not necessary, there are other reasons to keep a copy of each document. Crawling for documents can be expensive in terms of both CPU and network load. It makes sense to keep copies of the documents around instead of trying to fetch them again the next time you want to build an index. Keeping old documents allows you to use HEAD requests in your crawler to save on bandwidth, or to crawl only a subset of the pages in your index.Finally, document storage systems can be a starting point for information extraction （described in Chapter 4）. The most pervasive kind of information extraction happens in web search engines, which extract anchor text from links to store with target web documents. Other kinds of extraction are possible, such as identifying names of people or places in documents. Notice that if information extraction is used in the search application, the document storage system should support modification of the document data.

编辑推荐

《搜索引擎:信息检索实践(英文版)》：经典原版书库。

图书封面

图书标签Tags

无

下载页面

搜索引擎 PDF格式下载

这书不错，由于要覆盖整个搜索领域的各个专题，相比Introduction to Information Retrival来说，是详细了一些，实践性强一些，但是我更希望能够有一本包括设计搜索引擎到编码这整个过程的一本书啊，还好，此书还是很赞的，可惜galago里面没有crawl模块

应该是搜索引擎领域比较新的一本书了，内容比较全面，比较新。而且内容流畅，英文水平不高也可以阅读。

三位作者把搜索引擎的各个模块讲的很透彻。原版的书在阅读上比中文版的顺畅很多，是一本好书。

此书乃搜检索领域的经典，只是没想到英文的比中文还便宜，学习需要，对得起经典二字

还没读完，不过讲的基本比较时候英文搜索

内容不必说了，买来做技术入门用。
当当的服务不错，送货很快。
书籍的印刷业很好。
希望继续坚持。

是课程推荐的教材，英文原版太贵了，这本书便宜很多，内容完整，质量有保证，尺寸再大些就完美了

买的第一本英文原版专业书籍。看着就舒服。

非常好的一本书，

书不错携带方便。正在阅读感觉读起来很流畅写的不错。

收到的书还未拆封，不过之前已在同学那看过了内容，觉得是学这个领域值得买的书！而且像这样的书，能读原著最好，译本是次优选择。

英文书，阅读起来速度很慢。不建议买英文

老师推荐的还不错，英文原版的比较好

More up to date than Modern Information Retrieval, Love that

本书作为研究生信息检索的课本，本书对搜索引擎以及信息检索方面做了阶段性的分析

对搜索引擎各方面介绍的还是比较详细的

书很不错，很基础，内容也很新，后边的文献也很新，估计是目前最新有关搜索引擎的书了吧~

书质量还行，没让我太失望，配送也很好

纸张比较老，不太清楚。

好的，就是又点少，内容很简练

当今社会，人们对效率的要求越来越高，如果一项技术可以加快他们获取信息的效率，他们会对这项技术乐此不疲。而网络搜索引擎的出现，大大的改善了检索相关信息的效率，最终促成的一句口头禅就可见一斑：“百度一下，你就知道”（起码是中国如此）。而网络搜索仅仅是搜索引擎应用的一个小方面。你可以在其他许多应用里发现引擎的影子，不管是桌面应用级的还是企业应用级的。《搜索引擎——信息检索实践》是一本由浅入深的讲述搜索引擎知识的教材，作者W.Bruce Croft是一位著名的计算机教授，现任马萨诸塞大学阿莫特斯分校计算机科学特聘教授、ACM会士；同时，作为智能信息检索研究中心的创建者和领导者，他对搜索引擎的见解精辟而又独到。该书是W.Bruce Croft教授2009年的又一力作，结合开源的基于Java的Galago搜索引擎，通过深入的分析搜索引擎的各个部件，深入浅出的对最前沿的搜索技术进行的全方位的展示，不失为一本上佳的学习资料。本书前六章对流行的搜索引擎的业务过程进行了详细的剖析。从第一章引入搜索引擎的概念到第二章对搜索引擎各个功能模块进行详细的划分，再到第三章介绍爬虫技术获得网络资源，而后进入第四第五章分别对获取的资源进行处理和创建信息索引，最后在第六章作者介绍了如何识别用户输入的查询语句，并根据用户的模糊需求获得相对精确地输出。作者像是一位导游一样，引领着读者在宏观上观摩了...搜索引擎。接下来的章节里，作者对搜索引擎的关键技术，诸如排序算法、机器学习、信息过滤聚合、服务器分配等等，进行了详细的描述，其中当然既有深入的数学层次的公式也有计算机应用层次的算法。合上书本，细细品味着大师的谆谆教导；闭上双眼，体味经典知识的熏陶。感谢机械工业出版社引入此本经典好书。阅读更多 ›

首先，十分感谢华章图书这次试读活动，让我有机会接触到《搜索引擎——信息检索实践》这本书，开始时，编辑还确认了我是否要这本全英文的经典原著。开始时还有点踌躇，后来下决心要英文的原版，也感受一下经典原版书的魅力。书是那种32开的小本，不像通常那种大厚书，但里面的英文还是让我有些许的压力。后来安下心来开始读书，本书主要的目标群里是计算机方面的大学生，已经毕业的学生，已经从事相关领域的工程师。总的来说本书主要是讲搜索引擎的实施，侧重于信息检索的实践应用方面。本书条理清楚。第一章，总的介绍了搜索引擎和信息检索，还有两者之间的关系，第二章介绍了搜索引擎的框架，主要是：一、信息搜集存储，索引建立的模块，它包括文本获取，文本特征提取，索引建立，数据存储等；二、回答问题模块，包括用户接口，评估，排序，相关存储等，对于每个过程进行了细分。三到九章就这些过程中应用的技术进行了详细的介绍，第十章介绍了社会搜索，最后一章对现有的先进技术进行了简单的说明以及展望。条理清楚，可以让我们清楚地找到自己想要的找的相应技术，同时由总到分的模式较适合我们学习。至于英语的问题，毕竟不是英语，我读起来还是比较慢，但书中的句子不像英语考试中的句子那么复杂，结构比较简单，生僻的单词也较少，所以大家不用有太大的负担，毕竟看英文才是做研究必经的道路，也是学习先进技术的必要条件。书中每...一章后面都有一个reference and further reading 我们可以了解到书中所引用的文献原出处，以及以后可以进行的扩展性阅读，对于整个搜索引擎方面有一个把握，书中还介绍了一些权威的回忆，可以指引我们看到搜索引擎的发展方向，以及取得的成果，这对初学者是很有帮助的。很有趣的是书中多次提到中国，中文在搜索引擎实施中的区别于英文的地方及要注意的方面，同时也可以看到中国在科学领域中的地位有所提高。书中的加粗以及斜体让我们对重点概念有一个重点的把握。例外值得一提的是书中数学公式以及图应用的也很广泛，这些都是通用的语言，图文并茂，让人易于理解。令附了不少通俗易懂的例子，以及部分算法的实现。本文的作者是在搜索引擎方面的权威人士，不仅在学术上很有造诣，在实践中也是很有成就的。不到三周的时间，因为还有课程安排，我看的还不是很深，上面是我对整本书大概的把握跟理解，希望对你有用。阅读更多 ›

个人感觉理论的东西还是很需要的，在你编程的时候你就会体会到，有些会豁然开朗的。所以推荐大家阅读之。

大师的作品, 从爬虫, 到索引的原理和介绍, 到检索, 都说的很详细. 建议买英文版的, 中文的翻译的太烂了. 推荐

质量很高的入门书籍，这学期用作教材。

书是全新，封面一角有个折痕。不太满意的是书晚了两天才到。书的质量还可以，值得购买

这本书的内容丰富，知识含量多，讲解的详细，很好~~

其实书中讲的是一些基本的概念和应用，但是不等于说基本就不重要，相反基本的概念是非常重要的，我觉得这本书的优点就在于它给你一个比较正确的对于Information Retrieval是什么一个东西做了很详细的描述。里的一些对概念的应用也非常的到位。让你可以很容易理解到。本书是适合Information Retrieval的初学者的，如果在这方面已经有比较深入的了解，可能本书给你的信息不会很多。但可以当作一本平时的参考书。之所以给4分，1分是扣在出版社上。文字比较小，纸张和印刷质量都比较次。希望能有比较好的材质才对得起书的内容，也便于保存参考。

书的内容很充实，对于学习搜索引擎是很好的学习与参考资料，但书的纸张与字体实在不怎样。

字迹挺清楚的，就是感觉纸张似乎不像是正品呀。

很好的书。还没来得及看呢。是导师极力推荐的一本。

不错的一本书，很经典，适合入门

老师让我买的，很好的一本书

IR方面入门级的书，内容很不错。

书的纸比较薄

书很有历史感

第一图书网

搜索引擎

相关图书