第一图书网

数据挖掘

Jiawei Han 机械工业出版社
出版时间:

2006-4  

出版社:

机械工业出版社  

作者:

Jiawei Han  

页数:

770  

Tag标签:

无  

前言

We are deluged by data——scientific data, medical data, demographic data, financial data, and marketing data. People have no time to look at this data. Human attention has become the precious resource. So, we must find ways to automatically analyze the data, to automatically classify it, to automatically summarize it, to automatically discover and characterize trends in it, and to automatically flag anomalies. This is one of the most active and exciting areas of the database research community. Researchers in areas includ- ing statistics, vis..

内容概要

我们产生和收集数据的能力正在快速增长。除了大多数商业、科学和政府事务的日益计算机化会产生数据之外,数码相机、发布工具和条码的广泛应用也会产生数据。在数据收集方面,扫描的文体和图像平台、卫星遥感系统和国际互联网已经使我们的生活被巨大的数据量所包围。这种爆炸性的数据增长促使我们比以往更迫切地需要新技术和自动化工具来帮助我们将这些数据转换为有用的信息和知识。 本书第1版曾被KDnuggets的读者评选为最受欢迎的数据挖掘专著,是一本可读性极佳的教材。它从数据库角度全面系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的技术研究进展,重点关注其可行性、有用性、有效性和可伸缩性问题。但是,自第1版出版之后,数据挖掘领域的研究又取得了很大的进展,开发出了新的数据挖掘方法、系统和应用。第2版在这一方面进行了加强,增加了多个章节讲述最新的数据挖掘方法,以便能够挖掘出复杂类型的数据,包括流数据、序列数据、图结构数据、社群网络数据和多重关系数据。 本书适合作为高等院校计算及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材,同时也可供从事数数据挖掘研究和应用开发工作的相关人员作为必备的参考书。 本书主要特点是:全面实用地论述了从实际业务数据中抽取出的读者需要知道的概念和技术。更新并结合了来自读者的反馈、数据挖掘领域的技术变化以及统计和机器学习方面的更多资料。包含了许多算法和实际示例,全部以易于理解的伪代码编写,适用于实际的大规模数据挖掘项目。

作者简介

韩家炜,伊利诺伊大学厄巴纳一尚佩恩分校计算机科学系教授。由于在数据挖掘和数据库系统领域卓有成效的研究工作,他曾多次获得各种荣誉和奖励,其中包括2004年ACM SIGKDD颁发的创新奖。同时,他还是《ACM Trarlsactiorls on Krlowledge Discovery fronl Data》杂志的主编,以

书籍目录

Foreword vii Preface ix Chapter1 Introduction 1.1 What Motivated Data Mining? Why Is It Important? 1.2 So, What Is Data Mining? 1.3 Data Mining-On What Kind of Data? 1.3.1 Relational Databases 1.3.2 Data Warehouses 1.3.3 TransactionalDatabases 1.3.4 Advanced Data and Information Systems and Advanced Applications 1.4 Data Mining Functionalities---What Kinds of Patterns Can Be Mined? 1.4.1 Concept/Class Description: Characterization and Discrimination 1.4.2 Mining Frequent Patterns, Associations, and Correlations 1.4.3 Classification and Prediction 24 1.4.4 Cluster Analysis 1.4.5 Outlier Analysis 26 1.4.6 Evolution Analysis 1.5 Are All of the Patterns Interesting? 1.6 Classification of Data Mining Systems 1.7 Data Mining Task Primitives 1.8 Integration of a Data Mining System with a Database or Data Warehouse System 1.9 Major Issues in Data Mining 1.10 Summary Exercises Bibliographic Notes Chapter2 Data Preprocessing 2.1 Why Preprocess the Data? 2.2 Descriptive Data Summarization 2.2.1 Measuring the Central Tendency 2.2.2 Measuring the Dispersion of Data 2.2.3 Graphic Displays of Basic Descriptive Data Summaries 2.3 Data Cleaning 2.3.1 Missing Values 2.3.2 Noisy Data 2.3.3 Data Cleaning as a Process 2.4 Data Integration and Transformation 2.4.1 Data Integration 2.4.2 Data Transformation 2.5 Data Reduction 2.5.1 Data Cube Aggregation 2.5.2 Attribute Subset Selection 2.5.3 DimensionalityReduction 2.5.4 Numerosity Reduction 2.6 Data Discretization and Concept Hierarchy Generation 2.6.1 Discretization and Concept Hierarchy Generation for Numerical Data 2.6.2 Concept Hierarchy Generation for Categorical Data 2.7 Summary 97 Exercises 97 Bibliographic Notes Chapter3 Data Warehouse and OLAP Technology: An Overview 3.1 What Is a Data Warehouse? 3.1.1 Differences between Operational Database Systems and Data Warehouses 3.1.2 But, Why Have a Separate Data Warehouse? 3.2 A Multidimensional Data Model 3.2.1 From Tables and Spreadsheets to Data Cubes 3.2.2 Stars, Snowflakes, and Fact Constellations: Schemas for Multidimensional Databases 3.2.3 Examples for Defining Star, Snowflake, and Fact Constellation Schemas……Chapter4 Data Cube Computation and Data GeneralizationChapter5 Mining Frequent Patterns, Associations, and CorrelationsChapter6 Classification adn PredidctionChapter7 Cluster AnalysisChapter8 Mining Stream, Time-Series, and Sepuence DataChapter9 Graph Mining, Social Network Analysis, and MultirelationalChapter10 Mining Object, Spatial, Multimedia, Test, and Wed DataChapter11 Applications and Trends in Data MiningAn Introduction to Microsoft's OLE DB forBibliographyIndex

媒体关注与评论

一本面向中高级读者的数据挖掘好书- 评 《数据挖掘:概念与技术》左荣国rongguo.zuo@gmail.com近几年来,随着信息技术的飞速发展,计算机领域积累了大量的数据。从元数据的角度考虑,这些数据仅仅是数据,数据产生后,后续对元数据的再次利用却很少。长此下去,这些数据慢慢就会变成没有用的垃圾数据。人们越来越认识到这个问题的严重性,由此逐渐产生了知识发现技术,也就是数据挖掘的前身。知识发现源自于人工智能的机器学习领域其实质是在一个已知状态的数据集上,通过设定一定的学习算法,从数据集中获取所谓的知识。而与此同时数据库技术也已经发展到一定的阶段,并得到了广泛应用,各个企业都已经积累了无数的数据资源,迫切需要有一种技术能够帮助他们从数据中发掘出其内在的规律。数据挖掘技术正好能满足这一需求,它实质上就是知识发现技术在数据库领域中的应用,其主要应用领域涵盖了商务管理、生产管理、市场分析、工程设计和科学探索等。因此,可以说数据挖掘是一个从数据到知识的过程。谈到学习数据挖掘,《数据挖掘:概念与技术》就是一本全面而深入地介绍数据挖掘实用技术的经典教材。本书作者美籍华人韩家炜教授有着丰富的理论和实际经验。在本书中,他从数据库的角度针对数据挖掘是什么、数据挖掘能解决什么问题、数据挖掘的关键问题和数据挖掘涉及的相关技术等问题做了深入的分析,由浅入深地把读者引入数据挖掘这个未知领域。首先,数据挖掘是什么。书中指出,数据挖掘是指从大量数据中提取或挖掘知识的过程。用通俗的语言说,数据挖掘就像淘金者从石头或沙子中寻找金子的过程。另外一个非常重要的同时也在本书中进行了详细说明的是数据挖掘的对象(也就是大量数据)在什么地方?书中指出,数据挖掘主要针对关系型数据库、数据仓库、高级数据库等。对于数据库开发人员,这些都是已经比较熟悉的领域了。而本书中的数据挖掘主要针对的是数据库系统。其次,数据挖掘能解决什么问题。挖掘来的数据是用来解决企业中的问题的,否则挖掘就没有任何意义了。书中指出,数据挖掘可以被用来进行市场分析和管理、风险分析和管理、缺陷分析和管理等。具体来讲,比如对大学里的学生课程数据,可以用数据挖掘的方式来获得学生姓名、地址、状态和相关课程等信息及其相互关系。再次,数据挖掘的关键问题。本书从数据挖掘方法和用户交互、数据挖掘的性能以及不同数据库类型的数据挖掘等多角度出发,把数据挖掘做了非常透彻的分解,并对分解后的问题逐一解决。第四方面,数据挖掘涉及的技术。对于数据挖掘涉及的OLAP和数据仓库、数据清理、数据集成和变换、数据简化、数据挖掘查询语言、数据库支持的数据挖掘规则、数据挖掘分类和预测、数据聚合方法、对多媒体数据库和万维网的数据库挖掘方法等技术,本书作者都从理论和实践的角度做了深入的剖析,让读者不仅知其然,而且还知其所以然。数据挖掘是可以由多个层面来提供支持的,包括数据库层面、应用程序层面等。当前,包括Oracle、IBM、Sybase和Microsoft等在内的多家数据库提供商都从数据库层面提供了数据挖掘的支持。对于应用层面讲,包括SAS、SPSS、COGNOS等软件在内的应用程序都对数据挖掘提供了很好的支持。本书从理论和实际相结合的角度出发,在书中提供了大量的理论、模型、算法和实际的应用例子,包括多维数据模型、三层数据仓库架构、数据立方体的实际查询例子等。借助本书,读者可以理论联系实际,把数据挖掘的应用提高一个层次。另外,书中提供了大量的例子、习题以及一些基本概念的比较。如数据库与数据仓库的区别、用于数据挖掘的OLAP与数据仓库技术等。所以,即使您对数据库比较陌生,也能根据本书内容的安排,循序渐进地领悟到数据挖掘的真谛。同时,您可以根据书中提供的习题,检验自己对书中内容的理解。“实践是检验真理的唯一标准”,书中提供的例子在实际开发应用中都会用到,让您不会为了读书而读书。总之,该书图文并茂,理论联系实际,非常适合作为从事数据挖掘研究和应用开发工作的相关人员的参考书,也特别适合作为高年级本科生和研究生的专业课教材。


编辑推荐

《数据挖掘概念与技术》(英文版)(第2版)适合作为高等院校计算机及相关专业高年级本科生的选修课教材,特别适合作为研究生的专业课教材,同时也可供从事数据挖掘研究和应用开发工作的相关人员作为必备的参考书。本书更新和改进了原本已十分丰富和全面的第1版内容,并增添了新的重要课题,例如挖掘流数据、挖掘社群网络和挖掘空间、多媒体和其他复杂数据。本书将是一本适用于数据挖掘和知识发现课程的优秀教材。             --Gregory Piatetsky-Shapiro, KDnuggets的总裁  本书第2版最完整、最全面地讲述了数据挖掘领域的重要知识和技术创新。相比内容已经相当全面的第1版,第2版展示了该领域的最新研究成果,例如挖掘流、时序数据和序列数据以及挖掘空间、多媒体、文本和Web数据。本书是数据挖掘和知识发现领域内所有教师、研究人员、开发人员和用户都必读的一本书。               --Hans-Peter Kriegel, 德国慕尼黑大学  我们产生和收集数据的能力正在快速增长。除了大多数商业、科学和政府事务的日益计算机化会产生数据之外,数码相机、发布工具和条码的广泛应用也会产生数据。在数据收集方面,扫描的文本和图像平台、卫星遥感系统和国际互联网已经使我们的生活被巨大的数据量所包围。这种爆炸性的数据增长促使我们比以往更加迫切地需要新技术和自动化工具来帮助我们将这些数据转换为有用的信息和知识。

图书封面

图书标签Tags

广告

下载页面


数据挖掘 PDF格式下载



数据挖掘,商业智能领域,甚至是数据仓库方面的必读图书。英文写作之流畅,用例解释之详尽真实让人感触良深。但是这不是专著,比如你想深入了解某一算法比如神经网络或者支持向量机等,书中只是提出思路和框架,深入了解要看专著辅导。但是这本书对主流的数据挖掘算法解释都很好,尤其是关联算法和聚类解释的已经很详细了。希望所有的技术类图书有这样的风范,内容翔实而且非常人性化,通过用例将技术阐述的非常透彻!


学习数据挖掘的朋友 强力建议看看 经典教材


这本书不错,韩老师的书就是好,推荐学习数据挖掘的人购买


朋友强烈推荐的数据挖掘的入门书,一定要好好看


数据挖掘经典书籍,搞数据挖掘的必读。


搞好挖掘的先看算法,要看算法,读此书。比看论文来的快。


此书系统,详细,权威。是研究datamining必须买的参考书之一。


尽管下了pdf的,但这么厚的书,还是纸质的看起来舒服
内容可以算是与时俱进了
虽然平时基本看论文,但是涉及到新的研究方向,论文中不会详细介绍基础方法,书上的就比较系统


朋友推荐的,打算好好研究一下这本书


很不错的书,英文版的。讲得很细致,比较容易理解。


内容不错,英文简单,通俗易懂。不需要太多的背景知识即可读懂它。稍微遗憾的是纸质比较薄,有点透的感觉。


作者讲得特别详细,写得很好,但纸张有点薄,字体有点小


买了原版的和翻译的,还是觉得原版的从内容上更自然,语言更容易理解~!就是书的纸张的确不太好。


非常好的一本书,值得细细的读


一本不错的英文书,值得细读,提高专业英语水平啊!


不错啊··老师推荐的


书很不错 包装也很仔细 送货速度快


读起来比较费力,能更好地理解作者的原意


翻了翻不错,没有细看呢


如题,待看~~


好书,帮着解决不少疑惑


书确实不错,很好


超经典的书,强烈推介!


很好,英文很容易懂,就是纸张感觉没中文版的好


一直都忘记评价,书质量不错,快递也很快


书是崭新的正品!就是快递不怎么负责任!送到小区门口叫我去拿的!


今天下午收到的书,速度还不错,喜欢当当网那个硬邦邦的袋子,呵呵原版英文书的印刷、纸质都很好!


老师推荐的,内容很好,值得一读


这本书跟《数据挖掘导论》都是最常用的基本教材,很经典,不必多说了。中文版翻译太差,没法看,只能买这个了,虽然看着慢些,但是更值得收藏


数据挖掘方面很权威的一本书,不错!


建议想学数据挖掘的人可以仔细研读一下这本书,英文原版,还是原汁原味的


数据挖掘很经典的一本书 外语不难 流畅易懂


英文的真费劲那,不搞数据挖掘的没有必要买这书了,搞数据挖掘的也不一定要买了,网上下载一些课件(比如周志华的主页****://cs.nju.edu***/zhouzh/index.htm#Course)来看吧,了解一下就行,


技术讲的不深不浅,适合初学者


看书就要看原版书,读这本书可以学到很多技术手段,有很多思想可以借鉴。


这一版是内容比较全的,2001年那版则是初略版,如果只是初步看看,买2001版的就可以了


英文版更权威,自己理会自己翻译


还好,只是要能更实用,像climentin的白皮书那样就好了


书很经典,没什么好说的。影印的书也不存在什么翻译问题。机械的书还是一如既往的用**纸呀,除了机械的书还真没怎么见过这么薄的纸,呵呵。


字很小,纸张很黄


纸张比较薄,感觉有点容易损坏,不过书的内容还是很不错的~


全英文的可以


thebooksaregood,buttheChinesetranslationisnotveryaccurate,theenglishlettersareverysmallnoteasytoread.thequalitytothepaperisnotasgood,itistoothin,anditisnoteasytowritenotesonthebook,orhighlight.however,thepricesaregood,sothebooksareacceptable.


书本不错,8过似乎跟室友的那本儿外观略有不同内容没对照多,应该差不多吧讲的很详细...


看看原版有好处


内容比第一般多了不少


不如数据挖掘导论好,不过作为一本经典的数据挖掘教材仍然值得看看。


没精力去看了,现在功能是做枕头用


买了近一个月了,今天才知道后面少了许多页!也不知道还能不能换??


不如china-pub 的实在


  韩家炜老师的这本书全面地讲述了数据挖掘领域的重要知识和技术创新。它从数据库角度全面系统地介绍了数据挖掘的基本概念、基本方法和基本技术以及数据挖掘的技术研究进展,重点关注其可行性、有用性、有效性和可伸缩性问题。极大地加强了我们对数据挖掘的理解!


这本书介绍的面非常广,有些地方只是点到为止,让人看不明白,可以当一本综述性的书来看。但若要深入研究某个部分,还得看文章。


比较全面的介绍DM,比国内的其他书好,能看原版尽量不要看翻译版


很好的一本书~~非常深入浅出


这是我们老师推荐的一本最好的数据挖掘书


书很好,就是英语能力要比专业能力更好才行


很好的书,上课一直在用。


绝对的数据挖掘的经典教材,不错的研究生教材!


数据挖掘的经典 但是书的纸张有点薄


同学作教材用的,书应该还可以的吧,不过英文估计不太好懂。。


数据挖掘课程的老师推荐的。这本教材应当是该领域的经典了吧,涉及的内容挺全面的。包装不错,配送也及时。


结合课后的习题,会有更多收获。


等空了再读一下原版的,看看是什么原因,让我有时候没有看懂。


有时间再来好好研究这本厚书


商品挺好,只是amazon寄了平邮,得自己去取,下次不再amazon上买了


书挺厚,比较系统,由于是纯英文的,刚看起来比较费劲啦


今天收到书了,感觉书的质量还不错,但是书的边角都皱褶了,可能邮递过程不小心,如果以后邮递再小心点,就好了。


正版,不错,发货也很快


相关图书