`

数据挖掘导论学习笔记(2)----- 数据(2)

 
阅读更多

数据预处理

  •           聚集(aggregation):将两个或多个对象合并成单个对象。例如不同地点的事物数据集,合并。               

                              优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。

                              缺点:可能会丢失模式。

  •           抽样:是一种选择对象自己进行分析的常用方法。抽样长期用于数据的事先调查和最终的数据分析。    

                              优点:减少分析的数据可以减少占用空间和处理时间,可以使用更大开销的挖掘算法。

                              缺点:肯定没有全量数据分析准确,可能会 丢失模式

                    抽样方法:

                             1.简单随机抽样(simple random samping):随机取样。两种变形,无放回抽样,有放回抽样。

                             2.渐进抽样:随着分析数据集的大小,改变抽样策略。

 

 

  •           维归约:减少维度的数量。经常通过创建新属性,将一些旧属性合并到一起的方法降低维度(例如主成分分析PCA,奇异值分解SVD;仅使用特征的一个子集,其实这里说的也就是去除不想关的维度 ,不过由于子集多达2^n个,大部分情况不适用)

                            优点:删除不相关的特征并降低噪声,使模型更容易理解。降低数据挖掘算法的时间和内存需求。

 

                         特征子集选择方法:嵌入、过滤、包装

                             1.嵌入方法 (embedded approach):特征选择作为数据挖掘算法的一部分是理所当然的。特别是在数据挖掘算法运行期间,算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法通常以这种方式运行。

                             2.过滤方法 (filter approach):使用魔种独立于数据挖掘人物的方法,在数据挖掘算法运行前进行特征选择,例如我们可以选择属性的集合,它的属性对之间的相关度尽可能低。

                             3.包装方法 (wrapper approach):这些方法将目标数据挖掘算法作为黑河,使用类似于前面介绍的理想算法,但通常并不灭局所有可能的子集来找出最佳属性子集。

 

                      离散化:连续属性转为分类属性

                      二元化:暂时理解的是转为二进制方式表示,例如m个分类值,转成n=【log2 M】个二元属性标

 

 

  • 变量变换(variable transformation):是指用于变量的所有值的变换。两种重要的变量变换类型:简单函数变换和规范化(标准化)。

 

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics