数据预处理
- 聚集(aggregation):将两个或多个对象合并成单个对象。例如不同地点的事物数据集,合并。
优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。
缺点:可能会丢失模式。
- 抽样:是一种选择对象自己进行分析的常用方法。抽样长期用于数据的事先调查和最终的数据分析。
优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。
缺点:肯定没有全量数据分析准确,可能会
丢失模式
。
抽样方法:
1.简单随机抽样(simple random samping):随机取样。两种变形,无放回抽样,有放回抽样。
2.渐进抽样:随着分析数据集的大小,改变抽样策略。
- 维归约:减少维度的数量。经常通过创建新属性,将一些旧属性合并到一起的方法降低维度(例如主成分分析PCA,奇异值分解SVD;仅使用特征的一个子集,其实这里说的也就是去除不想关的维度
,不过由于子集多达2^n个,大部分情况不适用)
优点:删除不相关的特征并降低噪声,使模型更容易理解。降低数据挖掘算法的时间和内存需求。
特征子集选择方法:嵌入、过滤、包装
1.嵌入方法
(embedded approach):特征选择作为数据挖掘算法的一部分是理所当然的。特别是在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法通常以这种方式运行。
2.过滤方法
(filter approach):使用魔种独立于数据挖掘人物的方法,在数据挖掘算法运行前进行特征选择,例如我们可以选择属性的集合,它的属性对之间的相关度尽可能低。
3.包装方法
(wrapper approach):这些方法将目标数据挖掘算法作为黑河,使用类似于前面介绍的理想算法,但通常并不灭局所有可能的子集来找出最佳属性子集。
离散化:连续属性转为分类属性
二元化:暂时理解的是转为二进制方式表示,例如m个分类值,转成n=【log2 M】个二元属性标
- 变量变换(variable transformation):是指用于变量的所有值的变换。两种重要的变量变换类型:简单函数变换和规范化(标准化)。
分享到:
相关推荐
Pang-Ning Tan(陈封能)的《数据挖掘导论》的习题答案,不过是E文的。
数据挖掘导论 (英文PPT)(Pang-Ning Tan, Michael Steinbach, Vipin Kumar) 原书第四章(Introduction to Data Mining CH4)高清:http://download.csdn.net/detail/flyingpoops/9406233 原书第六章...
数据挖掘导论 学习课件 ch2 非常好的资源 欢迎大家下载 Numpy。 Python并没有提供数组功能。虽然列表可以完成基本的数组功能 ,但它不是真正的数组,而且在数据量较大时,使用列表的速度 就会慢得难以接受。 ...
《数据挖掘导论》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题...
Introduction to data mining
数据挖掘导论 完整版 数据挖掘导论 完整版。 大数据。
数据挖掘第二版答案,纯英文,Pang-Ning Tan
中科大-机器学习-课程ppt-课后习题答案-往年考试试卷-数据挖掘导论-推荐系统ppt-陈恩红
《数据挖掘导论(完整版)》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外...
完整版数据挖掘导论 课后习题答案(中文版)。 数据挖掘导论(完整版)课后习题答案(中文版)
数据挖掘导论(完整版)涵盖了五个主题:数据,分类,关联分析,聚类和异常检测
2. ARMA模型识别 3. 模型中参数的估计 4. 模型检验 5. 模型优化 6. 模型应用
背景集成学习目录神经网络深度学习回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物
数据挖掘导论 完整版 Introduction to Data Mining 陈封能,斯坦巴赫,库玛尔 著,范明,范宏建 等 译 详解数据挖掘概念与技术 为数据化运营实战打好基础 信息管理专家 科技作家涂子沛倾情推荐 带你进入真正的大数据...
背景回归目录神经网络深度学习集成学习的动机单模型的局限性:High bias or high variance误差的期望值 = 噪音的方差 + 模型预测值的方差
背景回归目录集成学习深度学习大脑大脑及神经系统神经元神经元树突:有多个,主要用来接受传入信息细胞核:对信号进行计算轴突:只有一条,用于信号传递突触:轴突末梢跟其
数据挖掘导论(第二版)第3章:分类-基础.pptx
《数据挖掘导论》(完整版)习题答案,答案有详细解题过程。
数据挖掘导论(完整版)中文版课本+中文版课后习题答案+英文版课后习题答案+英文版PPT
《数据挖掘导论》(英文版)对数据挖掘进行了全面介绍,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论》(英文版)涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题...