数据挖掘导论学习笔记（1）-----基本概念 -

defungo

浏览: 77978 次
性别:
来自: 北京

最近访客更多访客>>

csyfly2003

david_xu

melin

biyelei

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

数据挖掘导论学习笔记（1）-----基本概念

博客分类：

Data Mining

数据挖掘是什么

数据挖掘时数据库中知识发现（knowledge discovery in database,KDD）不可缺少的一部分，而KDD是将未加工的数据转换为有用信息的整个过程。

数据预处理：将未加工的输入数据转换成适合分析的形式。涉及的步骤包括融合来自多个数据源的数据，清晰数据以及消除噪声和重复的观测值，选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样，数据预处理可能是整个KDD中最耗时、最费力的步骤。

数据挖掘面临的问题

可伸缩：主要是由于海量数据导致，不能光在内存中处理，可能就需要不同的算法，这样就要求算法必须是可伸缩的（scalable）。例如使用抽样技术或开发并行和分布算法提高可伸缩程度。
高维性：顾名思义，维度的大幅提高，导致计算的复杂性迅速增加。
异种数据和复杂数据：异种数据的关联处理。例如含有半结构化文本和超链接的Web页面集。
数据的所有权与分布：优势，需要分析的数据并非存放在一个站点，或属于一个机构，而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。分布式挖掘算法面临的主要挑战包括：1.如何降低执行分布式计算所需要的通信量？2.如何有效地统一从多个资源得到的数据挖掘结果？3.如何处理数据安全性问题。
非传统的分析：传统的统计方法基于一种假设-检验模式。这个过程非常麻烦，这促使人们开发了一些数据挖掘技术。此外被分析数据通常代表数据的时机性样本（opportunistic sample），而不是随机样本（random sample）。而且，这些数据集常常设计非传统的数据类型和数据分布

数据挖掘任务

预测性任务：预测特定属性的值。
描述性任务：导出概括数据中潜在练习的模式（相关、趋势、聚类、轨迹和异常）

这本书主要介绍的是：聚类分析、关联分析、预测建模、异常检测。

预测建模：分为两类分类和回归，分类用于预测离散变量，回归用于预测连续变量。
关联分析：发现描述数据中强关联特征的模式，所发现的模式通常用讯韩规则或特征自己的形式表示。
聚类分析：发现紧密相关的观测值组群，可以用于数据压缩。
异常检测：好的异常检测器必须具有高检测率和低误报率。

分享到：

数据挖掘导论学习笔记（2）----- 数据（1 ... | 微博请问你是怎么优化数据库的？

2012-11-14 11:02
浏览 1131
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据挖掘导论学习笔记（1）-----基本概念

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

数据挖掘导论学习笔记（1）-----基本概念

评论

发表评论

相关推荐

聚类分析

数据挖掘导论学习笔记（4）-决策树分类

推荐引擎-（2）推荐系统的实验方法。

推荐引擎-（1）简介

数据挖掘导论学习笔记（3）----- 汇总统计

数据挖掘导论学习笔记（2）----- 数据（3）

贝叶斯方法

数据挖掘导论学习笔记（2）----- 数据（2）

数据挖掘导论学习笔记（2）----- 数据（1）

最近访客更多访客>>