大数据挑战与NoSQL数据库技术
2013-4
电子工业出版社
陆嘉恒
无
为什么写本书计算机技术已经深刻地影响了我们的工作、学习和生活。大数据及NoSQL技术是当下IT领域最炙手可热的话题,其发展非常迅速,潜力巨大,悄然改变着整个行业的面貌。随着Web 2.0技术的发展,微博、社交网络、电子商务、生物工程等领域的不断发展,各领域数据呈现爆炸式的增长,传统关系型数据库越来越显得力不从心。NoSQL数据库技术的出现为眼下的问题提供了新的解决方案,它摒弃了传统关系型数据库ACID的特性,采用分布式多节点的方式,更加适合大数据的存储和管理。政府和高校都十分重视对大数据及NoSQL技术的研究和投入;在产业界,各大IT公司也在投入大量的资源研究和开发相关的NoSQL产品,与之相应的新兴技术和产品正在不断涌现。这一切都极大地推动了NoSQL技术的发展。大数据处理和NoSQL技术涉及的内容繁多,目前不同公司也有不同的NoSQL数据库产品,而且某一产品往往是为特定的应用而设计的,并不一定能够适用于所有的场景。很多人在学习的初始阶段需要进行大量的摸索和实践,然而目前这方面系统的参考资料却非常少。为了便于所有想了解和掌握NoSQL技术的朋友学习并在学习的过程中少走弯路,笔者将自己在该领域的经验和积累凝聚成了这本书,希望能够推动大数据处理及NoSQL相关技术在国内的发展。本书面向的读者在编写本书时,我们力图使不同背景和职业的读者都能从其中获益。如果你是专业技术人员,本书将带领你快速度进入大数据处理及NoSQL的世界,全面掌握NoSQL及其相关技术,能帮助你使用NoSQL技术解决当前面临的问题或提供必要的参考。如果你是高等院校计算机及相关专业的学生,本书为你在课堂之外了解最新的IT打开一扇窗户,能帮助你拓宽视野,完善知识结构,为迎接未来的挑战做好知识准备。在学习本书之前,应具有如下的基础:有一定的Linux操作系统的基础知识。有较好的编程基础和阅读代码的能力。对数据库知识有一定的了解。如何阅读本书本书一共包括16章,分为三个部分。其中第一部分为理论篇,包括:大数据产生的背景,数据一致性理论、数据存储模型、数据分区与防治策略、海量数据处理方法、数据复制与容错技术、数据压缩技术和数据缓存技术。此部分重点从理论上介绍、分析大数据管理过程中遇到的各方面问题。第二部分为系统篇,包括:键值数据库、列存数据库、文档数据库、图存数据库、基于Hadoop的数据库管理系统、NoSQL数据库以及分布式缓存系统。该部分以理论篇为基础,根据数据存储模型对数据库类型进行划分,每一部分以具体开源数据库为实例进行介绍,涉及系统的架构、安装以及使用等方面,力图使读者对NoSQL数据库有具体的认识。第三部分为应用篇,包括企业应用以及总结和展望。该部分介绍企业如何使用NoSQL数据库解决自身遇到的问题。在阅读本书时,读者可以先系统地学习理论篇的知识,目的是对海量数据处理方法有一个很好的理解,在此基础之上,读者可以对后面的章节进行选择性的学习。本书涉及内容较多,从开源数据库方面讲,包括了Dynamo、Redis、Voldemort、Cassandra、Hypertable、CouchDB、MongoDB、Neo4j、GraphDB、OrientDB、HBase、Hive、Pig、MySQL Cluster、VolteDB、MS-Velocity、Memcached等将近20个数据库。因此,建议读者可以重点学习感兴趣或有一定需求的数据库系统。当然,如果时间允许,还是建议读者系统地学习本书的内容。另外,在系统篇的学习过程中,建议读者能够一边阅读,一边根据书中的指导动手实践,亲自实践本书中所给出的编程范例。致谢在本书的编写过程中,还有很多NoSQL领域的实践者和研究者为本书做了大量的工作,他们是张林林、许翔、程明、王海涌、顾向楠、吴少辉、杨宁、杨华、吴梦迪、任乔意、於洋、张轩等,在此特别感谢。在线资源及勘误本书官方网站为:http://datasearch.ruc.edu.cn/NoSQL/。本书的勘误、讨论以及相关资料等都会在该网站上发布和更新。在本书的撰写和相关技术的研究中,尽管笔者投入了大量的精力,付出了艰辛的努力,然而受知识水平所限,错误和疏漏之处在所难免,恳请大家批评指正。如果有任何问题和建议,可发送邮件至jiahenglu@gmail.com或jiahenglu@ruc.edu.cn。陆嘉恒
本书共分为三部分。理论篇重点介绍大数据时代下数据处理的基本理论及相关处理技术,并引入NoSQL数据库;系统篇主要介绍了各种类型NoSQL数据库的基本知识;应用篇对国内外几家知名公司在利用NoSQL数据库处理海量数据方面的实践做了阐述。
本书对大数据时代面临的挑战,以及NoSQL数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。
陆嘉恒,中国人民大学教授,博士生导师。2006年毕业于新加坡国立大学计算机科学系,获博士学位;2006-2008年在美国加利福尼亚大学尔湾分校(University of California, Irvine)进行博士后研究;2008年加入中国人民大学,2012年破格晋升为教授。主要研究领域包括数据库技术和云计算技术。先后在SIGMOD、VLDB、ICDE、WWW等国际重要会议和期刊上发表数据库方向的论文40多篇,主编多本云计算和大数据的教材和著作。
第1章概论1 1.1引子2 1.2大数据挑战3 1.3大数据的存储和管理5 1.3.1并行数据库5 1.3.2NoSQL数据管理系统6 1.3.3NewSQL数据管理系统8 1.3.4云数据管理11 1.4大数据的处理和分析11 1.5小结13 参考文献13 理论篇 第2章数据一致性理论16 2.1CAP理论17 2.2数据一致性模型21 2.3ACID与BASE22 2.4数据一致性实现技术23 2.4.1Quorum系统NRW策略23 2.4.2两阶段提交协议24 2.4.3时间戳策略27 2.4.4Paxos30 2.4.5向量时钟38 2.5小结43 参考文献43 第3章数据存储模型45 3.1总论46 3.2键值存储48 3.2.1Redis49 3.2.2Dynamo49 3.3列式存储50 3.3.1Bigtable51 3.3.2Cassandra与HBase51 3.4文档存储52 3.4.1MongoDB53 3.4.2CouchDB53 3.5图形存储54 3.5.1Neo4j55 3.5.2GraphDB55 3.6本章小结56 参考文献56 第4章数据分区与放置策略58 4.1分区的意义59 4.1.1为什么要分区59 4.1.2分区的优点60 4.2范围分区61 4.3列表分区62 4.4哈希分区63 4.5三种分区的比较64 4.6放置策略64 4.6.1一致性哈希算法65 4.6.2容错性与可扩展性分析66 4.6.3虚拟节点68 4.7小结69 参考文献69 第5章海量数据处理方法70 5.1MapReduce简介71 5.2MapReduce数据流72 5.3MapReduce数据处理75 5.3.1提交作业76 5.3.2初始化作业78 5.3.3分配任务78 5.3.4执行任务79 5.3.5更新任务执行进度和状态80 5.3.6完成作业81 5.4Dryad简介81 5.4.1DFSCosmos介绍82 5.4.2Dryad执行引擎84 5.4.3DryadLINQ解释引擎86 5.4.4DryadLINQ编程88 5.5Dryad数据处理步骤90 5.6MapReducevsDryad92 5.7小结94 参考文献95 第6章数据复制与容错技术96 6.1海量数据复制的作用和代价97 6.2海量数据复制的策略97 6.2.1Dynamo的数据库复制策略97 6.2.2CouchDB的复制策略99 6.2.3PNUTS的复制策略99 6.3海量数据的故障发现与处理101 6.3.1Dynamo的数据库的故障发现与处理101 6.3.2CouchDB的故障发现与处理103 6.3.3PNUTS的故障发现与处理103 6.4小结104 参考文献104 第7章数据压缩技术105 7.1数据压缩原理106 7.1.1数据压缩的定义106 7.1.2数据为什么可以压缩107 7.1.3数据压缩分类107 7.2传统压缩技术[1]108 7.2.1霍夫曼编码108 7.2.2LZ77算法109 7.3海量数据带来的3V挑战112 7.4Oracle混合列压缩113 7.4.1仓库压缩114 7.4.2存档压缩114 7.5Google数据压缩技术115 7.5.1寻找长的重复串115 7.5.2压缩算法116 7.6Hadoop压缩技术118 7.6.1LZO简介118 7.6.2LZO原理[5]119 7.7小结121 参考文献121 第8章缓存技术122 8.1分布式缓存简介123 8.1.1分布式缓存的产生123 8.1.2分布式缓存的应用123 8.1.3分布式缓存的性能124 8.1.4衡量可用性的标准125 8.2分布式缓存的内部机制125 8.2.1生命期机制126 8.2.2一致性机制126 8.2.3直读与直写机制129 8.2.4查询机制130 8.2.5事件触发机制130 8.3分布式缓存的拓扑结构130 8.3.1复制式拓扑131 8.3.2分割式拓扑131 8.3.3客户端缓存拓扑131 8.4小结132 参考文献132 系统篇 第9章key—value数据库134 9.1key—value模型综述134 9.2Redis135 9.2.1Redis概述135 9.2.2Redis下载与安装135 9.2.3Redis入门操作136 9.2.4Redis在业内的应用143 9.3Voldemort143 9.3.1Voldemort概述143 9.3.2Voldemort下载与安装144 9.3.3Voldemort配置145 9.3.4Voldemort开发介绍[3]147 9.4小结149 参考文献149 第10章Column—Oriented数据库150 10.1Column—Oriented数据库简介151 10.2Bigtable数据库151 10.2.1Bigtable数据库简介151 10.2.2Bigtable数据模型152 10.2.3Bigtable基础架构154 10.3Hypertable数据库157 10.3.1Hypertable简介157 10.3.2Hypertable安装157 10.3.3Hypertable架构163 10.3.4基本概念和原理164 10.3.5Hypertable的查询168 10.4Cassandra数据库175 10.4.1Cassandra简介175 10.4.2Cassandra配置175 10.4.3Cassandra数据库的连接177 10.4.4Cassandra集群机制180 10.4.5Cassandra的读/写机制182 10.5小结183 参考文献183 第11章文档数据库185 11.1文档数据库简介186 11.2CouchDB数据库186 11.2.1CouchDB简介186 11.2.2CouchDB安装188 11.2.3CouchDB入门189 11.2.4CouchDB查询200 11.2.5CouchDB的存储结构207 11.2.6SQL和CouchDB209 11.2.7分布式环境中的CouchDB210 11.3MongoDB数据库211 11.3.1MongoDB简介211 11.3.2MongoDB的安装212 11.3.3MongoDB入门215 11.3.4MongoDB索引224 11.3.5SQL与MongoDB226 11.3.6MapReduce与MongoDB229 11.3.7MongoDB与CouchDB对比234 11.4小结236 参考文献237 第12章图存数据库238 12.1图存数据库的由来及基本概念239 12.1.1图存数据库的由来239 12.1.2图存数据库的基本概念239 12.2Neo4j图存数据库240 12.2.1Neo4j简介240 12.2.2Neo4j使用教程241 12.2.3分布式Neo4j——Neo4jHA251 12.2.4Neo4j工作机制及优缺点浅析256 12.3GraphDB258 12.3.1GraphDB简介258 12.3.2GraphDB的整体架构260 12.3.3GraphDB的数据模型264 12.3.4GraphDB的安装266 12.3.5GraphDB的使用268 12.4OrientDB276 12.4.1背景276 12.4.2OrientDB是什么276 12.4.3OrientDB的原理及相关技术277 12.4.4Windows下OrientDB的安装与使用282 12.4.5相关Web应用286 12.5三种图存数据库的比较288 12.5.1特征矩阵288 12.5.2分布式模式及应用比较289 12.6小结289 参考文献290 第13章基于Hadoop的数据管理系统291 13.1Hadoop简介292 13.2HBase293 13.2.1HBase体系结构293 13.2.2HBase数据模型297 13.2.3HBase的安装和使用298 13.2.4HBase与RDBMS303 13.3Pig304 13.3.1Pigr的安装和使用304 13.3.2PigLatin语言306 13.3.3Pig实例311 13.4Hive315 13.4.1Hive的数据存储316 13.4.2Hive的元数据存储316 13.4.3安装Hive317 13.4.4HiveQL简介318 13.4.5Hive的网络接口(WebUI)328 13.4.6Hive的JDBC接口328 13.5小结330 参考文献331 第14章NewSQL数据库332 14.1NewSQL数据库简介333 14.2MySQLCluster333 14.2.1概述334 14.2.2MySQLCluster的层次结构336 14.2.3MySQLCluster的优势和应用337 14.2.4海量数据处理中的sharding技术339 14.2.5单机环境下MySQLCluster的安装343 14.2.6MySQLCluster的分布式安装与配置指导348 14.3VoltDB350 14.3.1传统关系数据库与VoltDB351 14.3.2VoltDB的安装与配置351 14.3.3VoltDB组件354 14.3.4HelloWorld355 14.3.5使用Generate脚本361 14.3.6Eclipse集成开发362 14.4小结365 参考文献365 第15章分布式缓存系统366 15.1Memcached缓存技术367 15.1.1背景介绍367 15.1.2Memcached缓存技术的特点368 15.1.3Memcached安装[3]374 15.1.4Memcached中的数据操作375 15.1.5Memcached的使用376 15.2Micros of Velocity分布式缓存系统378 15.2.1Micros of Velocity简介378 15.2.2数据分类379 15.2.3Velocity核心概念380 15.2.4Velocity安装382 15.2.5一个简单的Velocity客户端应用385 15.2.6扩展型和可用性387 15.3小结388 参考文献388 应用篇 第16章企业应用392 16.1Instagram393 16.1.1Instagram如何应对数据的急剧增长395 16.1.2Instagram的数据分片策略398 16.2Facebook对Hadoop以及HBase的应用400 16.2.1工作负载类型401 16.2.2为什么采用ApacheHadoop和HBase403 16.2.3实时HDFS405 16.2.4HadoopHBase的实现409 16.3淘宝大数据解决之道411 16.3.1淘宝数据分析412 16.3.2淘宝大数据挑战413 16.3.3淘宝OceanBase数据库414 16.3.4淘宝将来的工作422 16.4小结423 参考文献423
版权页: 插图: 1.2大数据挑战 什么是大数据?多大的数据量可以称为大数据?不同的年代有不同的答案[2]。20世纪80年代早期,大数据指的是数据量大到需要存储在数千万个磁带中的数据;20世纪90年代,大数据指的是数据量超过单个台式机存储能力的数据;如今,大数据指的是那些关系型数据库难以存储、单机数据分析统计工具无法处理的数据,这些数据需要存放在拥有数千万台机器的大规模并行系统上。大数据出现在日常生活和科学研究的各个领域,数据的持续增长使人们不得不重新考虑数据的存储和管理。 随着社会计算的兴起,人们习惯于在网上分享和交流信息。比如,社交网站Facebook拥有庞大的用户群,而且在不断增长。这些用户每天发出的日志以及分享的资料更是不计其数,其数据量已经达到PB级别,传统的解决方案已经不能很好地处理这些数据。Facebook自己开发了Cassandra系统,现在又采用HBase,这些针对海量数据的管理系统能够较好地为用户提供服务,而且具有可扩展性和容错性,这是解决大数据问题所需要的性能。微博服务商Twitter也面临大数据的挑战,消息的发送量达到每天数亿条,而查询量则达到每天数十亿次,这要求存储管理系统不仅能够存储大规模数据,而且能够提供高吞吐的读/写服务。Twitter原先使用MySQL数据库,之后由于用户暴增便将数据迁移到NoSQL系统上,尽管NoSQL系统还未成熟,但却是解决海量数据的较为有效的方案。其他的互联网公司同样面临着大数据带来的问题,如Goolge搜索引擎需要处理大规模的网页信息,YouTube则需要存储和提供用户分享的视频数据,维基百科提交用户分享的知识等,这些都涉及大规模数据信息存储与管理。 随着电子商务的发展,越来越多的人在网上选购商品,商务网站需要存储大量的商品信息和用户的交易信息,涉及大规模的数据。同时网站需要提供迅速的请求响应,以提高用户体验来吸引客户。而且网站还要对这些海量数据进行处理和分析,以便更有针对性地向用户推荐商品,海量数据成为系统构建和业务成败的关键因素。中国商业网站淘宝使用HBase来存储数据,同时不断探索自己的解决之路,开发了支持大数据的数据库系统OceanBase来实现部分在线应用。全球最大的线上拍卖和购物网站eBay也积极寻求海量数据的解决方案,其基于Hadoop建立了自己的集群系统Athena来处理大规模数据,同时开发了自己的开源云平台项目Turmeric来更好地开发和管理各种服务。同时,各大零售公司无论是在线销售还是实体销售,都会注意收集客户的消费信息以便有针对性地提供服务或推荐商品,这些都涉及大规模数据的应用。
《大数据挑战与NoSQL数据库技术》从理论、系统、应用三个方面详细讲述了大数据的技术知识,并针对NoSQL数据库技术做了深入的分享,是学习大数据技术的地图、指南手册。帮助读者跳出迷局,厘清思路,系统地做好相关知识储备,拥抱大数据时代!
无
垃圾到不能再垃圾的骗钱的书。只看目录没看页数,结果都是只讲个一点点。不管是入门还是深入,请千万不要买!
全是从网上找的介绍性东西,没有一点点哪怕深入的知识点,很多都是讲怎么装这个软件,尼妈竟然还是在xp上装。。。 负分!
看了李智慧的《大型网站技术架构》之后,再看这本书,感觉不是很好,里面有些基本概念都没弄清楚,比如“可扩展性”和“可伸缩性”的区别,在本书里基本上混着用的。另外一点让人吐槽的就是,例子基本上都是asp.net的例子,显然作者对java不是太熟悉,很多例子都勉强吧。很多实用的技术估计是作者临时抱佛脚先学先卖的。写的比较好的一部分是关于paxos协议这部分,之前看论文看了好几遍都不是很懂,教授举得例子很形象。
可以作为概述类,纸张不太好
挑选了这么多的关于大数据的书,还是这本最喜欢
NoSQL数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。理解清楚这句话很重要,这本书基本上都是简单介绍了各种数据库的基本知识,了解这些基本知识后更有针对性、有选择地深入学习相关知识。
对基础理论CAP的描述比较简单易懂!!作者自己观点,不是抄来的,难得可贵
内容很完整,显然作者下了功夫,但是感觉实战的透彻理解差一些,但是也算不容易了,毕竟是个新东西