第一图书网

智能Web算法

Haralambos Marmanis,Dmitry Babenko 电子工业出版社
出版时间:

2011-11  

出版社:

电子工业出版社  

作者:

Haralambos Marmanis,Dmitry Babenko  

页数:

400  

译者:

阿稳,陈钢  

Tag标签:

无  

内容概要

  本书涵盖了五类重要的智能算法:搜索、推荐、聚类、分类和分类器组合,并结合具体的案例讨论了它们在Web应用中的角色及要注意的问题。除了第1章的概要性介绍以及第7章对所有技术的整合应用外,第2~6章以代码示例的形式分别对这五类算法进行了介绍。

作者简介

Haralambos (Babis) Marmanis
博士是一位把机器学习技术应用于工业界的先行者,也是供应管理的世界级专家。Dmitry
Babenko曾经为银行、保险、供应链管理与商务智能公司设计过应用与基础架构。

书籍目录

1 什么是智能Web?
 1.1 智能Web应用实例
 1.2 智能应用的基本要素
 1.3 什么应用会受益于智能?
  1.3.1 社交网络
  1.3.2 Mashup
  1.3.3 门户网站
  1.3.4 维基
  1.3.5 文件分享网站
  1.3.6 网络游戏
 1.4 如何构建智能应用?
  1.4.1 检查功能和数据
  1.4.2 获取更多的数据
 1.5 机器学习、数据挖掘及其他
 1.6 智能应用中八个常见的误区
  1.6.1 误区1:数据是可靠的
  1.6.2 误区2:计算能马上完成
  1.6.3 误区3:不用考虑数据规模
  1.6.4 误区4:不考虑解决方案的可扩展性
  1.6.5 误区5:随处使用同样的方法
  1.6.6 误区6:总是能知道计算时间
  1.6.7 误区7:复杂的模型更好
  1.6.8 误区8:存在无偏见的模型
 1.7 小结
 1.8 参考资料
2 搜索
 2.1 用Lucene实现搜索
  2.1.1 理解Lucene代码
  2.1.2 搜索的基本步骤
 2.2 为什么搜索不仅仅是索引?
 2.3 用链接分析改进搜索结果
  2.3.1 PageRank简介
  2.3.2 计算PageRank向量
  2.3.3 alpha:网页间跳转的影响
  2.3.4 理解幂方法
  2.3.5 结合索引分值和PageRank分值
 2.4 根据用户点击改进搜索结果
  2.4.1 用户点击初探
  2.4.2 朴素贝叶斯分类器的使用
  2.4.3 整合Lucene索引、PageRank和用户点击
 2.5 Word、PDF等无链接文档的排序
  2.5.1 DocRank算法简介
  2.5.2 DocRank的原理
 2.6 大规模实现的有关问题
 2.7 用户得到了想要的结果吗?精确度和查全率
 2.8 总结
 2.9 To Do
 2.10 参考资料
3 推荐系统
 3.1 一个在线音乐商店:基本概念
  3.1.1 距离与相似度的概念
  3.1.2 走近相似度的计算
  3.1.3 什么才是最好的相似度计算公式?
 3.2 推荐引擎是怎么工作的
  3.2.1 基于相似用户的推荐
  3.2.2 基于相似条目的推荐
  3.2.3 基于内容的推荐
 3.3 推荐朋友、文章与新闻报道
  3.3.1 MyDiggSpace.com简介
  3.3.2 发现朋友
  3.3.3 DiggDelphi的内部工作机制
 3.4 像Netflix.com那样推荐电影
  3.4.1 电影数据集的介绍及推荐器
  3.4.2 数据标准化与相关系数
 3.5 大规模的实现与评估
 3.6 总结
 3.7 To Do
 3.8 参考资料
4 聚类:事物的分组
 4.1 聚类的需求
  4.1.1 网站中的用户组:案例研究
  4.1.2 用SQL order by子句分组
  4.1.3 用数组排序分组
 4.2 聚类算法概述
  4.2.1 基于分组结构的聚类算法分类
  4.2.2 基于数据类型和结构的聚类算法分类
  4.2.3 根据数据规模的聚类算法分类
 4.3 基于链接的算法
  4.3.1 树状图:基本的聚类数据结构
  4.3.2 基于链接的算法概况
  4.3.3 单链接算法
  4.3.4 平均链接算法
  4.3.5 最小生成树算法
 4.4 k-means算法
  4.4.1 初识k-means算法
  4.4.2 k-means的内部原理
 4.5 鲁棒的链接型聚类(ROCK)
  4.5.1 ROCK简介
  4.5.2 为什么ROCK这么强大?
 4.6 DBSCAN
  4.6.1 基于密度的算法简介
  4.6.2 DBSCAN的原理
 4.7 超大规模数据聚类
  4.7.1 计算复杂性
  4.7.2 高维度
 4.8 总结
 4.9 To Do
 4.10 参考资料
5 分类:把事物放到它该在的地方
 5.1 对分类的需求
 5.2 分类器的概述
  5.2.1 结构分类算法
  5.2.2 统计分类算法
  5.2.3 分类器的生命周期
 5.3 邮件的自动归类与垃圾邮件过滤
  5.3.1 朴素贝叶斯分类
  5.3.2 基于规则的分类
 5.4 用神经网络做欺诈检测
  5.4.1 交易数据中关于欺诈检测的一个用例
  5.4.2 神经网络概览
  5.4.3 一个可用的神经网络欺诈检测器
  5.4.4 神经网络欺诈检测器剖析
  5.4.5 创建通用神经网络的基类
 5.5 你的结果可信吗?
 5.6 大数据集的分类
 5.7 总结
 5.8 To Do
 5.9 参考资料
6 分类器组合
 6.1 信贷价值:分类器组合案例研究
  6.1.1 数据的简要说明
  6.1.2 为真实问题生成人工数据
 6.2 用单分类器做信用评估
  6.2.1 朴素贝叶斯的基准线
  6.2.2 决策树基准线
  6.2.3 神经网络基线
 6.3 在同一个数据集中比较多个分类器
  6.3.1 McNemar检验
  6.3.2 差额比例检验
  6.3.3 Cochran Q检验与F检验
 6.4 Bagging: bootstrap聚合(bootstrap aggregating)
  6.4.1 bagging实例
  6.4.2 bagging分类器底层细节
  6.4.3 分类器集成
 6.5 Boosting:一种迭代提高的方法
  6.5.1 boosting分类器实例
  6.5.2 boosting分类器底层细节
 6.6 总结
 6.7 To Do
 6.8 参考资料
7 智能技术大汇集:一个智能新闻门户
 7.1 功能概览
 7.2 获取并清洗内容
  7.2.1 各就位、预备、开抓!
  7.2.2 搜索预备知识回顾
  7.2.3 一个抓取并处理好的新闻数据集
 7.3 搜索新闻
 7.4 分配新闻类别
  7.4.1 顺序问题
  7.4.2 使用NewsProcessor类进行分类
  7.4.3 分类器
  7.4.4 分类策略:超越底层的分类
 7.5 用NewsProcessor类创建新闻分组
  7.5.1 聚类全部文章
  7.5.2 在一个新闻类别中聚类文章
 7.6 基于用户评分的动态内容展示
 7.7 总结
 7.8 To Do
 7.9 参考资料
附录A BeanShell简介
 A.1 什么是BeanShell?
 A.2 为什么使用BeanShell?
 A.3 运行BeanShell
 A.4 参考资料
附录B 网络采集
 B.1 爬虫组件概况
  B.1.1 采集的步骤
  B.1.2 我们的简单爬虫
  B.1.3 开源Web爬虫
 B.2 参考资料
附录C 数学知识回顾
 C.1 向量和矩阵
 C.2 距离的度量
 C.3 高级矩阵方法
 C.4 参考资料
附录D 自然语言处理
 D.1 参考资料
附录E 神经网络
 E.1 参考资料
索引


编辑推荐

算法是解决问题的一系列步骤。为实现有价值的Web应用(如推荐引擎、智能化搜索、内容组织系统等),本书提供了清晰的、精心组织过的算法模式。利用这些技术,你可以捕获用户原始而重要的信息,并把它们应用于实践中以获取相应的收益。 用户数据中包含大量有价值的关联信息,它们往往无法通过人工观察而直观地获取,对于希望从这些数据中挖掘信息的Web开发者来说,玛若曼尼斯、巴宾寇编著的《智能Web算法》是一本很好的手册。作者作为一名Web开发者,拥有丰富的实践经验,加上多年来对机器学习领域技术的专研,使得本书对技术的解释清晰明了,读者可快速将其用于解决自己的问题。同时,本书提供的Java程序展示了如何搭建一个智能的应用,以及如何从用户的行为中进行学习,这是一笔现成的财富。

图书封面

图书标签Tags

广告

下载页面


智能Web算法 PDF格式下载



看看可以完全的颠覆传统的对数据库增删改操作的过程。
主要讲了以下四点web智能应用:搜索引擎,推荐系统,事物分组,分类器


主要的WEB应用算法都涉及到了


难得的一本web算法人们的好书


呵呵。这本书介绍了很多方面的算法。值得一看。


算法很重要,经典


需要有一定的算法基础才能看哦


算法很全。


尚未看,感觉挺多算法知识的,同志任需努力


智能技术的入门书,还有不少的网络资源,喜欢。


人工智能的书很少


一句话,本书介绍的技术可操作性强。很适合对搜索引擎感兴趣的朋友。


书真的挺好的,适合网络挖掘入门者学习与收藏。


研究这方面内容,看上去不错,希望有所收获~~


这本书内容上比较容易懂,不想一般的翻译过来的书那样晦涩和恶心,但是在阅读本书之前建议先读一下《Lucene in Action》或者其他有关Lucene的书籍。


翻了下,感觉挺好的,只是自己还木有时间深入的看


介绍的很清楚,值得看


内容丰富,浅显易懂,文笔还行啊~


我的专业需要这个,希望能有用


这本书写得不错,值得一看。


这本书比较不错,慢慢看,细细品。


和我想的不太一样,貌似是我想差了,不过内容还不错。


内容新颖,翻译还有待提高


但是纸张也太对不起书的内容了吧


主要的WEB应用算法都涉及到了,值得细读


不错的书,只是还没有看


给老公买的工具书,还不错


刚收到书,大致翻了一下,应该很对胃口


很不错,阿稳翻译的,看看!


很不错,可惜本人水平有限,看得不太懂。翻译的质量有待进一步的提高。


找了很久,终于找到了,很好


高级程序员必要书籍


很好,比较深入,细节也不错


我只想说这是一本有用的书


书真心是好书。但是封面刮破半厘米的口子。


实用,有例子


入门还是挺不错的


书本质量不鏎


其它的不说了,难得一见的好书


书刚到,还没看,感觉还行!!


对于智能web来说,算法的选择很重要


对于初学者来说,看完此书,会对搜索,智能推荐有明显的认识和提高。书中,还有核心算法的部分实现。对于想继续钻研此领域的人来说,是本好书


书不错,里边主要是java实现,智能算法讲的也很不错,比较推荐。


这本书适合之前没有过相关经验,然后需要用最快的速度完成一个智能系统的人。这各系统只是模型,离实际应用还有相当的距离。


很有用,常用算法都有介绍,学习中。


推荐算法部分的内容太单薄,离我的要求太远。


买本看看,web编程不再是增删改。


有了人工智能的基础看这个可能比较轻松,没有相关经验可能看起来比较难。


这本书还不错,但是代码占篇幅较多,可以作为一本不错的概述型书。


纸张不错,拿起来很轻。
还只看了序言,译者对学习方法很有心得


我上午下的订单,晚上就拿到书了,很棒的物流。
书质量也不错,很好的初级启蒙式读本


里面的内容比较一般


看起来挺高深的,内容不太好理解。


内容很深奥,需要慢慢研究。


总体不错,但是使用的Lucene版本比较老,需要对Lucene有比较深入的理解。


书不错,但是感觉文字部分偏多


还未看,感觉一般


讲的很有启发


我还没有时间照书练习


翻译的不错,看了后很有启发!


目前还在看,有点难度


书不错 ,个人能力有限


智能Web算法


比较适合专业的算法研发人员


书内容不错,不过涉及不够深入;翻译也还算可以,虽非业界权威,但也下了功夫。看懂应该是没为题的。
总的来说,这是一本适合入门者学习的书。


相对内容来说,定价偏贵,博文视点的书没几本好的


入门介绍性,帮助不大。


书中的**,大家不要买


感觉名实其副。。。。


感觉还好, 不算很佳, 但也比较平平。


跟大帮的事情,都是国外的牙慧


书一般,比较适合科普;
纸质比较差,很轻。


什么时候,给反券???


速度还可以,但是书好像不是很新。


盗版!
鉴定完毕


1:《SQL Server 2008商业智能完美解决方案》,对商业智能做了一个概括的介绍。个人看法比较适合于已经熟悉微软商业智能原理与实现的人阅读,比如熟悉sql server 2005商业智能实现的人可以了解一下2008下的情况。不熟悉的人通过这本书可以了解商业智能的基础理论。涉及到具体的操作,书中虽然有许多截图,但是不够详细,没法用这本书来学习具体的操作。个人看法这本书要么再详细一些,要么再简略一些,都会比现在要好。2:《数据挖掘导论(完整版)》是国外大学的教材,看译者序许多国内高线也用它作为教材。因此这本书讲原理比较多。比较透彻,充满了数学符号和公式。详细讲述了分类、关联分析、聚类分析三种数据挖掘算法的原理。我发现有些数据挖掘的参数在微软的帮助文档中没说明白,看这本书说的比较清楚。我想看的是能指导实际的数据挖掘操作的书,因此对书中的公式基本跳过。只看了看书中讲到的算法解决的各种问题及其思路。3:《数据挖掘原理与应用(第2版)》,讲解Excel2007的数据挖掘插件做数据挖掘的部分不错,后面讲数据挖掘的各种算法,详细列出了各种参数和DMX脚本,但是没有透彻的讲解,给我的感觉就像微软的bookonline,适合作为工具书去查阅,但是不适合作为入门书去阅读。书的最后部分给出了用.net实现数据挖掘编程的例子,应该还可以实例代码在实际项...目中做参考。4:《精通sql server 2008程序设计》,全书分了四个部分,第四部分讲商业智能。限于篇幅问题在数据挖掘方面只讲了一种算法(聚类分析)的实现,如果想了解商业智能与数据挖掘,这本书也不够实用。5:《智能Web算法》:所谓智能web,书中是指能根据用户在网站的行为作出针对用户的响应的网站。常见的应用就是推荐系统。另外作者认为google的搜索也是智能web的例子。书中讨论了Google搜索原理、推荐系统原理、聚类算法、分类算法。本书附有Java实现书中算法的源代码,书中有不少篇幅是针对源代码讲算法。读者也可以使用源代码做测试。当然作者声明给出的代码都是经过刻意简化,目的是为了让读者快速明白算法的基本原理。感觉本书的翻译还比较专业,读起来比较流畅。值得夸一夸的是本书的印刷用纸。不知道业内名词,但是书拿在手里明显比同体积的书要轻,感觉很舒服。我在amazon.com上买过几本美国出的书,也是感觉明显比较轻。6:《深入浅出数据分析》:深入不够,浅出做的不错。适合技术人员与业务人员作为统计学入门读物来阅读《深入浅出数据分析》是美国O’REILLY出版社的“深入浅出”系列之一。这个系列的特点是花了不少心思琢磨如何让读者更舒服地阅读、记住书中更多内容,书虽然都比较厚,但是插图非常多。插图与正文经常混在一起,没有明显的界限。读起来确实比较轻松,相对文字多图少的书来说,也确实更容易记住书中的内容。由于图多字少,读起来很快,也能让人感觉比较有成就感。不过这个系列的书都比较贵。这本书的主要内容我认为是统计学入门。不懂技术但是用过excel的人就可以看。讲了讲统计学的基本概念和贝叶斯统计、直方图、回归、误差等概念,使用了excel和一个专门的统计工具R做演示。作者比较推荐R。因为这个工具在统计学应用方面比excel更灵活。是一个开源软件,还有相关的社区在为这个软件不停的增加功能。7:《可视化数据》专讲Process这个软件的使用,网络书店对这本书的介绍都提及了这个问题。对这个软件不感兴趣的就不用买了。我买的时候没注意到网页上介绍,看的时候才发现。书中充斥着process的代码。没有学习和使用process的计划,因此也就大概翻了翻,看看process解决的问题及其思路。8:《业务建模与数据挖掘》是05年出版的。与《数据模型资源手册》卷一卷二同属机械工业出版社的数据库技术系列丛书。后者早就卖光了,这本书还有。看来还是比较冷僻。翻译同样的比较专业。同样是偏学术性的。不过作为专业书来说,公式、图表偏少。个人看法想研究具体的数据挖掘算法可以看《数据挖掘导论(完整版)》。9:《数据之美》:概括描述了20个数据挖掘、数据可视化、云存储及其他数据处理相关项目这本书相对来说还算比较新,是从英文版翻译过来的。英文版2009年出版。中文版2010年10月出版。由20篇相互独立的文章组成。每篇讲一个数据处理相关的项目。不涉及具体的技术细节,仅仅是概括说明原理、思路、过程、结果。总体来说,阅读起来有点晦涩。感觉作者基本都明白英文版的意思,不过有些地方中文表达上不够通顺。这在IT业的翻译书中已经算不错的组合了,强过中文过关但是不懂技术的情况。10:《超级数字天才》讲数据挖掘给人类带来的好处。比较详细,给出了具体的例子和实现的思路。书中列也在使用“数据分析”这个词,基本也在指“数据挖掘”。书中列举了数据挖掘在政府政策、教育、医疗等许多方面的实际应用的例子,都比较有意思。想了解数据挖掘的具体应用,可以看看这本书。书中给我印象比较深刻的是例子中政府与教育行业的数据挖掘应用。一项政策的好坏,一个教育方法的好坏,美国人都试图用数据说话。11:《数据分析竞争法》是商务印书馆的哈佛经管系列之一,名头比较大,先看它。不过有些失望。不是给技术人员看的。题目中的数据分析大约是说商业智能中的数据挖掘。作者把企业利用数据挖掘的程度分为由低到高的五级。全书反复论述每个级别的方法、工具、流程、对企业的好处,还举了一些的例子。在我看来这些例子不够详细,太笼统。所以我认为这本书适合于不了解商业智能与数据挖掘的管理人员阅读。 阅读更多 ›


本意是为了了解推荐引擎算法的。一读才发现太简单。真的是普及性读物。不如集体智慧编程那本书


感觉内容介绍的太浅显了,尤其是分类那一章,5分钟就翻完了,根本没有什么实际的内容,很失望


完全陌生于这个数据挖掘领域,看这书收获颇多。书本身就写得不错,没什么数学公式,其次要赞的是译者,翻译的还是非常不错的,书籍很贴心的注明了英文原版书的相应页码,刚好我电脑里面有英文的pdf,看起来就更爽了。推荐新手入门吧。已经入门数据挖掘的有经验的大牛完全可以忽略此书。


书中每个章节所讲的例子过于简单了,适合扫盲


对相关领域人员来说太浅,只能作为非相关领域人员的扫盲读物。


属于及其基础读物,没什么太大价值。


送货速度,书的质量都没得说,麻烦把发票大清晰点吧 都看不清打的啥


书好像被动过,虽然没有什么痕迹,但是肯定被动过。不过肯定是正版的,从纸的质感就知道。


老外写书的思路就是和国内不太一样,简单易懂,思路清晰,是很好的能让人看懂的书。


纸张稍厚了一点,还没看完呢


写的有点简略,适合了解。。


目录书,浅尝辄止,内容涵盖的范围大,但是都没有深入,适合做目录书。对于刚接触的人来说可以起到指导作用。


个人感觉作者不太适合写书,全书1/3都是破碎的代码片段,而且缺乏直观的图示。读起来比较吃力,而且内容的价值也不大。


最初读过《集体智慧编程》第一次感到老外写的书就是好,却是用心思在写书,简单易懂,容易上手,不像国内人们写的书八股,读完了,也知道点概念但是不知道如何使用,如何而在程序上去实现。后来发现《智能Web算法》立刻买了,大概读了下,思路和《集体智慧编程》类似,但是有些其他的东西,这本书没有细读,但是应该不失为一本不错的书,什么时候国人也能像老外们一样做事?


现在没仔细研究,整本书讲理论还是从工程上讲,比较好容易让人接受~~


要不是内容不错,我就把书给退了,垃圾印刷,能值10块钱就不错了,二手书买着都比这“正版书”强,第一次打差评,很郁闷!


挺凑合的一本书


算法是必不可少的


专业书籍,单位同事推荐的。


书不错,好好学习天天向上


相关图书