数据仓库与数据挖掘
2004-1-1
人民邮电出版社
陈文伟
251
395000
数据仓库(DW)与数据挖掘(DM)是20世纪90年代中期兴起的新技术。数据仓库用于决策分析,数据挖掘用于从数据库中发现知识。数据仓库和数据挖掘的结合为决策支持系统(DSS)开辟了新方向,它们也是商业智能(BI)的主要技术。 本书主要介绍数据仓库系统、数据仓库的数据获取与管理、数据仓库的设计和开发、联机分析处理(OLAP)、数据挖掘与文本挖掘、决策树方法、粗糙集方法与关联规则挖掘、公式发现、神经网络与遗传算法、基于案例推理、决策支持系统与商业智能等内容。本书包含了作者多年来在数据仓库与数据挖掘中的研究成果。 本书可作大学计算机专业、管理科学与工程专业、系统工程专业等高年级本科生与研究生课程的教材,也可以作有关学科科技人员的参考书。
第1章 数据仓库与数据挖掘概述 11.1 数据仓库概念 11.1.1 数据仓库的兴起 11.1.2 数据仓库的特点 21.1.3 数据集市 31.2 知识发现和数据挖掘概念 41.2.1 知识发现和数据挖掘的定义 41.2.2 数据挖掘任务 51.2.3 数据挖掘分类 71.2.4 数据挖掘对象 81.2.5 数据挖掘的知识表示 101.3 数据挖掘方法和技术 131.3.1 归纳学习方法 131.3.2 仿生物技术 141.3.3 公式发现 151.3.4 统计分析方法 151.3.5 模糊数学方法 161.3.6 可视化技术 161.4 数据仓库和数据挖掘的发展 161.4.1 数据仓库和数据挖掘的结合 161.4.2 新决策支持系统和综合决策支持系统 181.4.3 商业智能和知识管理 19习题1 20第2章 数据仓库系统 222.1 数据仓库组织结构 222.1.1 数据仓库结构 222.1.2 数据仓库系统结构 232.1.3 数据仓库的运行结构 242.1.4 数据集市结构 252.2 数据仓库存储的数据模型 262.2.1 星型模型 272.2.2 雪花模型 282.2.3 星网模型 282.3 元数据 282.3.1 元数据概念 282.3.2 关于数据源的元数据 292.3.3 关于数据模型的元数据 302.3.4 关于数据仓库映射的元数据 302.3.5 关于数据仓库使用的元数据 32习题2 32第3章 数据仓库的数据获取与管理 333.1 数据仓库的数据获取 333.1.1 数据质量 333.1.2 数据变换 343.1.3 数据清理 353.1.4 数据集成 353.1.5 聚集和概括 363.1.6 装载数据 373.2 数据管理 373.2.1 数据管理概述 373.2.2 脏数据的产生和清理 393.2.3 休眠数据 393.2.4 元数据管理 403.3 系统管理 413.3.1 服务水平 423.3.2 性能监控 433.3.3 存储器管理 463.3.4 网络管理 473.3.5 安全管理 47习题3 48第4章 数据仓库的设计、开发与应用 504.1 数据仓库设计 504.1.1 “数据驱动”的系统设计方法 504.1.2 概念模型设计 514.1.3 逻辑模型设计 524.1.4 物理模型设计 544.2 多维表设计 554.2.1 主题与多维表 554.2.2 多维表设计步骤 554.2.3 多维表设计示例 564.3 数据仓库的查询与索引技术 584.3.1 数据仓库查询 584.3.2 位索引技术 594.3.3 标识技术 614.3.4 广义索引 634.4 数据仓库开发 644.4.1 数据仓库规划 644.4.2 定义体系结构 644.4.3 数据仓库设计 654.4.4 源系统分析与数据变换设计 664.4.5 建立数据仓库 674.4.6 用户访问方法的设计和开发 674.5 数据仓库发展阶段与应用实例 684.5.1 数据仓库的5个发展阶段 684.5.2 数据仓库的应用实例 71习题4 77第5章 联机分析处理 785.1 OLAP概念 785.1.1 OLAP的定义 785.1.2 OLAP准则 795.1.3 OLAP的基本概念 825.1.4 OLAP与OLTP的关系与比较 835.2 OLAP的数据组织 845.2.1 关系数据组织ROLAP 855.2.2 多维数据组织MOLAP 855.2.3 两种数据组织的比较 855.3 OLAP的多维数据分析 865.3.1 基本功能 865.3.2 广义OLAP功能 885.3.3 OLAP实例 895.4 OLAP的体系结构 905.4.1 OLAP的多层结构 905.4.2 OLAP的Web结构 915.5 OLAP工具及评价 945.5.1 Oracle OLAP工具 945.5.2 OLAP工具评价指标 98习题5 100第6章 文本数据挖掘与Web挖掘 1016.1 文本数据挖掘概述 1016.1.1 文本挖掘出现 1016.1.2 文本挖掘的基本概念 1016.1.3 文本挖掘与信息检索 1026.2 文本特征表示与提取 1036.2.1 文本特征的表示 1036.2.2 文本的特征提取 1046.3 文本挖掘 1056.3.1 文本分类 1056.3.2 关联分析 1066.3.3 文档聚类 1066.4 Web挖掘 1076.4.1 Web信息的特点 1076.4.2 Web挖掘分类 1086.4.3 Web结构的挖掘 1096.4.4 Web使用记录的挖掘 110习题6 112第7章 决策树方法 1137.1 决策树方法综述 1137.1.1 决策树概念 1137.1.2 信息论原理 1137.2 ID3方法 1177.2.1 ID3基本思想 1177.2.2 ID3算法 1187.2.3 实例计算 1197.2.4 对ID3的讨论 1207.3 C4.5方法 1217.3.1 构造决策树 1217.3.2 连续属性的处理 1227.3.3 决策树剪枝 1237.3.4 从决策树抽取规则 1237.4 IBLE方法 1257.4.1 IBLE算法 1257.4.2 简例和实例 129习题7 135第8章 粗糙集方法与关联规则挖掘 1378.1 粗糙集理论 1378.1.1 粗糙集概念 1378.1.2 最小属性集 1388.2 粗糙集的规则获取与应用 1398.2.1 获取规则 1398.2.2 应用实例 1408.3 关联规则挖掘算法 1438.3.1 关联规则的挖掘原理 1438.3.2 关联规则的种类 1458.3.3 关联规则价值的衡量方法 1468.4 关联规则挖掘算法 1478.4.1 Apriori算法 1478.4.2 示例 1498.5 基于FP-tree的关联规则挖掘算法 1508.5.1 算法描述 1508.5.2 示例说明 151习题8 151第9章 公式发现 1539.1 机器发现概述 1539.2 BACON系统 1549.2.1 BACON系统简介 1549.2.2 BACON系统的应用 1559.3 FDD公式发现算法 1569.3.1 FDD.1 1569.3.2 FDD.2 1639.3.3 FDD.3 167习题9 172第10章 神经网络与遗传算法 17310.1 神经网络的概念及几何意义 17310.1.1 神经网络概念 17310.1.2 神经网络的几何意义 17410.2 反向传播模型(BP) 17610.2.1 BP网络结构 17610.2.2 BP网络学习公式推导 17710.2.3 实例分析 18010.3 超曲面神经网络 18310.3.1 超曲面神经网络概念 18310.3.2 超圆神经元模型CC 18310.4 遗传算法原理 19010.4.1 遗传算法处理流程 19110.4.2 遗传算子 19210.4.3 遗传算法的特点 19610.5 基于遗传的分类学习系统 19710.5.1 概述 19710.5.2 遗传分类学习系统GCLS的基本原理 19710.5.3 遗传分类器学习系统GCLS的应用 201习题10 202第11章 基于案例推理 20411.1 基于案例推理(CBR)的概念与原理 20411.1.1 CBR概念 20411.1.2 CBR的一般过程 20411.2 案例表示和案例库 20611.2.1 案例表示 20611.2.2 案例库 20811.3 案例检索与相似匹配 20911.3.1 案例检索 20911.3.2 案例相似匹配 21011.4 专家系统原理与CBR的比较 21111.4.1 专家系统(ES)原理 21111.4.2 ES与CBR的比较 21311.4.3 ES与CBR的结合 21311.5 医疗事故辅助鉴定与管理系统实例 21411.5.1 系统综述 21411.5.2 医疗事故鉴定专家系统 21511.5.3 基于案例推理(CBR)的医疗事故鉴定 216习题11 217第12章 决策支持系统与商业智能 21812.1 传统决策支持系统 21812.1.1 传统决策支持系统概念 21812.1.2 传统决策支持系统的进展 21912.1.3 传统决策支持系统的关键技术和开发的困难 22012.2 基于数据仓库、联机分析处理和数据挖掘的新决策支持系统 22112.2.1 新决策支持系统 22112.2.2 新决策支持系统实例 22212.3 综合决策支持系统 22412.3.1 传统决策支持系统与新决策支持系统的比较 22412.3.2 综合决策支持系统结构和原理 22512.4 商业智能和知识管理 22712.4.1 商业智能 22712.4.2 知识管理 23512.4.3 商业智能是知识管理的基础 24412.5 小结 247习题12 248参考文献 249