数据挖掘导论学习笔记（2）----- 数据（2） -

defungo

浏览: 78266 次
性别:
来自: 北京

最近访客更多访客>>

csyfly2003

david_xu

melin

biyelei

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

数据挖掘导论学习笔记（2）----- 数据（2）

博客分类：

Data Mining

数据预处理

聚集（aggregation）：将两个或多个对象合并成单个对象。例如不同地点的事物数据集，合并。

优点：减少分析的数据可以减少占用空间和处理时间，可以使用更大开销的挖掘算法。

缺点：可能会丢失模式。

抽样：是一种选择对象自己进行分析的常用方法。抽样长期用于数据的事先调查和最终的数据分析。

优点：减少分析的数据可以减少占用空间和处理时间，可以使用更大开销的挖掘算法。

缺点：肯定没有全量数据分析准确，可能会丢失模式。

抽样方法：

1.简单随机抽样（simple random samping）：随机取样。两种变形，无放回抽样，有放回抽样。

2.渐进抽样：随着分析数据集的大小，改变抽样策略。

维归约：减少维度的数量。经常通过创建新属性，将一些旧属性合并到一起的方法降低维度（例如主成分分析PCA，奇异值分解SVD；仅使用特征的一个子集，其实这里说的也就是去除不想关的维度，不过由于子集多达2^n个，大部分情况不适用）

优点：删除不相关的特征并降低噪声，使模型更容易理解。降低数据挖掘算法的时间和内存需求。

特征子集选择方法：嵌入、过滤、包装

1.嵌入方法（embedded approach）：特征选择作为数据挖掘算法的一部分是理所当然的。特别是在数据挖掘算法运行期间，算法本身决定使用哪些属性和忽略哪些属性。构造决策树分类器的算法通常以这种方式运行。

2.过滤方法（filter approach）：使用魔种独立于数据挖掘人物的方法，在数据挖掘算法运行前进行特征选择，例如我们可以选择属性的集合，它的属性对之间的相关度尽可能低。

3.包装方法（wrapper approach）：这些方法将目标数据挖掘算法作为黑河，使用类似于前面介绍的理想算法，但通常并不灭局所有可能的子集来找出最佳属性子集。

离散化：连续属性转为分类属性

二元化：暂时理解的是转为二进制方式表示，例如m个分类值，转成n=【log2 M】个二元属性标

变量变换（variable transformation）:是指用于变量的所有值的变换。两种重要的变量变换类型：简单函数变换和规范化（标准化）。

分享到：

数据库的细粒度访问控制 | 贝叶斯方法

2012-12-03 10:51
浏览 1556
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据挖掘导论学习笔记（2）----- 数据（2）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据挖掘导论学习笔记（2）----- 数据（2）

评论

发表评论

相关推荐

聚类分析

数据挖掘导论学习笔记（4）-决策树分类

推荐引擎-（2）推荐系统的实验方法。

推荐引擎-（1）简介

数据挖掘导论学习笔记（3）----- 汇总统计

数据挖掘导论学习笔记（2）----- 数据（3）

贝叶斯方法

数据挖掘导论学习笔记（2）----- 数据（1）

数据挖掘导论学习笔记（1）-----基本概念

最近访客更多访客>>