第一图书网

网络机器人Java编程指南

美 Heaton J. 电子工业出版社
出版时间:

2002-7  

出版社:

电子工业出版社  

作者:

美 Heaton J.  

页数:

420  

字数:

700000  

Tag标签:

无  

内容概要

这是一本研究如何实现具有Web访问能力的网络机器人的书。该书从Internet编程的基本原理出发,深入浅出、循序渐进地阐述了网络机器人程序Spider、Bot、Aggregator的实现技术,并分析了每种程序的优点及适用场合。本书提供了大量的有效源代码,并对这些代码进行了详细的分析。通过本书的介绍,你可以很方便地利用这些技术,设计并实现网络蜘蛛或网络信息搜索器等机器人程序。
读者对象:适合于具有一定Java编程基础的软件开发人员阅读,也可供Web开发人员作为技术参考资料使用。

书籍目录

目 录
第1章 Java套接字编程技术
套接字家族
网络编程
Java I/O编程技术
代理的问题
Java中的套接字编程
客户端套接字
服务器套接字
小结
第2章 分析超文本传输协议
地址格式
使用套接字进行HTTP编程
Bot包的HTTP类组
实现细节
小结
第3章 通过HTTPS访问加密站点
HTTP与HTTPS
通过Java使用HTTPS
HTTP用户认证
安全访问
实现细节
小结
第4章 解析HTML
使用HTML
Bot关心的标签
需要特殊处理的HTML
使用Bot类解析HTML
使用Swing类解析HTML
Bot包HTML解析例子
实现细节
小结
第5章 发送表单
使用表单
用于普通发送的Bot类
实现细节
小结
第6章 解释数据
CSV文件的结构
QIF文件的结构
XML文件格式
小结
第7章 探索Cookie
分析Cookie
用于Cookie处理的Bot类
实现细节
小结
第8章 编写Spider程序
网站的结构
Spider程序的结构
构造Spider程序
小结
第9章 编写大型Spider程序
多线程
用Java实现多线程
线程同步
使用数据库
高性能的Spider程序
实现细节
小结
第10章 编写Bot程序
构造典型的Bot程序
使用CatBot程序
CatBot实例
实现细节
小结
第11章 编写Aggregator程序
在线汇总与离线汇总
构造底层Bot
构造气象Aggregator程序
小结
第12章 负责任地使用Bot程序
与网站协商
Web站点管理员的措施
负责任的Spider程序
实现细节
小结
第13章 Bot程序的未来
Internet信息的传送
理解XML
传送XML数据
Bot和SOAP
小结
附录A Bot包
附录B 各种与HTTP相关的字符
附录C 故障诊断
附录D 安装Tomcat系统
附录E 在Windows下编译实例
附录F 在Unix下编译实例
附录G 重新编译Bot包
术语表


图书封面

图书标签Tags

广告

下载页面


网络机器人Java编程指南 PDF格式下载



  这学期去图书馆借书,无意间看到一本书《网络机器人Java编程指南》。看了下感觉如获至宝。
  市面上讲爬虫的书可以说是没有,基本上只有在搜索引擎类的书里有提到,而且只是讲个思想,没有可以用的代码。
  而《网络机器人Java编程指南》是彻头彻尾讲解web爬虫的书籍,2002年出版的,目前已绝版。此书可说是非常珍贵
  这是china-pub的链接http://www.china-pub.com/6565
  
  进了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代码,作者一直在更新,所以源代码可以在JDK6.0上正常运行。速度很快。
  相比如其他几款开源爬虫,本书的bot程序无疑更加简单,灵活,快速。
  heritrix太复杂,设计的比较乱。当时自己配置了很久。
  nutch自己的定制性不够好,url以二进制形式保存,管理起来很不方便。
  
  书中的bot通过实现IWorkloadStorable接口的类来管理url链接,书中也给出了两个实例SpiderSQLWorkload和SpiderInternalWorkload,一个在数据库中管理url,另一个在内存中管理url。
  
  很佩服作者,那时还没有HTML Parsers,所以作者自己写了个实现。如果现在自己用的话,可以做个小小的修改,用更好的开源html解析工具。。
  另外书中也提到了基于表单、https、Cookies的爬虫,大开眼界。以前自己也写过很多爬虫,但在设计中总是缺少扩展性。
  书中的bot程序也可以放在Hadoop运行,变成更加强大的分布式爬虫。比如:基于ProActive的分布式并行Web Spider的设计与实现
  http://blog.csdn.net/Java2King/archive/2010/07/02/5709951.aspx
  
  看这本书的时候也发现自己学的网络知识终于派上了用场,多线程也显得很重要,需要有更多的考虑,而不是一味的run。
  本书更像是通过编写网络爬虫来提高自己的编程技术和相关知识,不管是不是搜索方面的开发者,都值得一读。
  
  我的原帖在这里,还有爬虫的类图
  http://blog.csdn.net/Java2King/archive/2010/07/07/5718476.aspx


相关图书