数据预处理
2011-3
厦门大学出版社
刘云霞
130
120000
无
数据归约是数据挖掘过程的关键环节,因此对数据归约技术的研究具有重要的意义。当前已有的数据归约方法多偏重于有监督学习,而无监督情形下归约方法的研究还相对不够丰富。鉴于这种情况,刘云霞编著的《数据预处理——数据归约的统计方法研究及应用》的重点内容是尝试对无监督数据归约的统计方法及其应用进行研究。
在《数据预处理——数据归约的统计方法研究及应用》第一章中,首先阐述了选题的研究背景和研究意义。之后,在概述相关背景知识和总结国内外数据归约研究方法现状的基础上,明确了本书的研究内容及创新之处。
数据归约两项重要的基础工作——缺失值填补和异常值探测是第二章探讨的内容。在本章,根据对统计学中常用的各种缺失值填补和异常值探测方法的分析,总结出了一些适合数据挖掘使用的方法。此外,通过将几种异常值探测方法应用在某地区移动通信用户缴费数据库上,对手机用户的消费行为进行了实证分析。
数据归约包括元组的归约和属性的归约。本书在第三章探讨了元组归约的两种主要方法——连续属性离散化和概念分层。在对当前的离散化方法和概念分层中面向属性归纳方法综述的基础上,提出了两种从独立性角度考虑的连续属性离散化方法,分别是基于可辨识矩阵的离散化方法和基于似然比假设检验的离散化方法。并通过在Iris样本集上对这两种方法进行模拟,验证了它们的有效性。
属性重要性排序以及属性的提取和属性子集的选择是属性归约的两类方法。本书在第四章探讨了属性重要性的排序问题。数据挖掘中目前常见的排序问题是有监督属性的排序,本章首先对它们作了介绍和比较。然后在无监督属性重要性的排序方面,提出了单向有序列联资料的属性排序方法——改进秩和法和基于因子分析的无监督属性排序方法,这两种方法分别在一份调查问卷的列联资料和全国居民人均消费支出样本集的模拟中,取得了较为满意的结果。
第五章探讨的是属性的提取和属性子集的选择问题。首先对目前在数据挖掘中用于属性线性提取的几种统计学和其他学科的方法作了介绍和评价。然后是本章的重点内容——属性子集的选择,在对属性子集选择的基本知识及目前已有的研究成果详细阐述和分析之后,提出了逐步向前的无监督属性选择方法,并通过实例验证了该方法的有效性。
第六章对全书的主要工作进行了总结,并指出了有待进一步改进和完善的地方。
本书的创新之处主要有以下四个方面:
(1)提出了分别基于可辨识矩阵和基于似然比假设检验的两种连续属性离散化方法。
(2)提出了单向有序列联资料属性排序的方法——改进秩和法。
(3)提出了基于因子分析的无监督属性重要性的排序方法。
(4)提出了逐步向前的无监督属性选择方法。
摘要
第一章 绪论
第一节 选题的研究背景和研究意义
第二节 相关背景知识
一、数据挖掘的发展概况
二、数据归约的主要内容
三、数据归约的重要作用
第三节 国内外研究现状
一、属性离散化方法研究的现状
二、属性排序和属性子集选择方法研究的现状
第四节 本书的研究内容及创新点
一、本书的研究内容和结构
二、本书的创新点
第二章 缺失值的填补与异常值的探测
第一节 缺失值的填补
一、单一填补法和多重填补法
二、基于距离的填补方法
三、贝叶斯填补方法
第二节 异常值的探测
一、异常值及形成原因
二、异常值的探测方法
三、异常值探测的步骤及应用
第三节 移动通讯用户消费行为的分析
一、单个属性异常值探测的应用及分析
二、多个属性的异常值探测方法的应用及分析
第三章 数据挖掘中元组的归约
第一节 面向属性归纳
一、面向属性归纳
二、面向属性归纳的步骤
三、面向属性归纳的算法
第二节 连续属性离散化方法及分类
一、离散化方法的分类
二、典型离散化的过程及结果评价
三、相关的离散化方法
第三节 基于可辨识矩阵的连续属性离散化方法
一、基于可辨识矩阵离散化方法的基本思路
二、基于可辨识矩阵离散化方法的框架
三、基于可辨识矩阵离散化方法的统计模拟
第四节 基于似然比假设检验的连续属性离散化方法
一、基于似然比假设检验的离散化方法
二、基于似然比假设检验离散化方法的步骤
三、基于似然比假设检验离散化方法的验证
四、两种离散化方法结果的比较
第四章 属性重要性的排序
第一节 有监督属性重要性的排序
一、粗糙集理论中属性重要性的排序方法
二、信息论和决策树中属性重要性的排序方
三、神经网络中属性重要性的排序方法
四、三种方法的比较
第二节 单向有序列联资料的属性重要性的排序
一、单向有序列联表
二、以秩效应为标准的方法
三、改进秩和法
四、改进秩和法对一份调查问卷的分析
五、以秩效应为标准的方法和改进秩和法的比较
第三节 基于因子分析的无监督属性重要性的排序
一、基于因子分析的属性重要性排序方法
二、基于因子分析的属性重要性排序方法的步骤
三、基于因子分析排序方法的框架
四、基于因子分析属性重要性排序方法的验证
五、值得注意的问题和局限性
第五章 属性的提取与属性子集的选择
第一节 属性的提取
一、小波变换
二、投影寻踪
三、多维标度
四、多元统计分析方法
五、几种属性提取方法的比较
第二节 属性子集的选择
一、属性子集选择方法的两个组成部分
二、属性子集选择方法的两种模式
三、基于各学科知识的属性子集选择方法
四、关于模式识别中基于距离的评价函数的思考
第三节 逐步向前无监督属性子集的选择方法
一、逐步选择方法的不足
二、逐步向前无监督属性子集选择方法的思路
三、逐步向前无监督属性子集选择方法的基本框架
四、统计模拟及方法验证
五、逐步向前无监督属性子集选择方法的合理性和局限性
第六章 全书的总结
第一节 全书的主要工作
第二节 尚需研究的问题
参考文献
后记
攻读博士学位期间发表的论文
无
这书不值这个价
主要想看缺失值处理的,不过我可能找错书了,适合统计学的人看。