`

数据挖掘导论学习笔记(1)-----基本概念

 
阅读更多

       数据挖掘是什么

                     数据挖掘时数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。

 

 

   

  •  数据预处理 :将未加工的输入数据转换成适合分析的形式。涉及的步骤包括融合来自多个数据源的数据,清晰数据以及消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样,数据预处理可能是整个KDD中最耗时、最费力的步骤。

 

     数据挖掘面临的问题

  • 可伸缩 :主要是由于海量数据导致,不能光在内存中处理,可能就需要不同的算法,这样就要求算法必须是可伸缩的(scalable)。例如使用抽样技术或开发并行和分布算法提高可伸缩程度。
  • 高维性 :顾名思义,维度的大幅提高,导致计算的复杂性迅速增加。
  • 异种数据和复杂数据 :异种数据的关联处理。例如含有半结构化文本和超链接的Web页面集。
  • 数据的所有权与分布 :优势,需要分析的数据并非存放在一个站点,或属于一个机构,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。分布式挖掘算法面临的主要挑战包括:1.如何降低执行分布式计算所需要的通信量?2.如何有效地统一从多个资源得到的数据挖掘结果?3.如何处理数据安全性问题。
  • 非传统的分析 :传统的统计方法基于一种假设-检验模式。这个过程非常麻烦,这促使人们开发了一些数据挖掘技术。此外被分析数据通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。而且,这些数据集常常设计非传统的数据类型和数据分布

 

     数据挖掘任务

  •   预测性任务:预测特定属性的值。
  •   描述性任务:导出概括数据中潜在练习的模式(相关、趋势、聚类、轨迹和异常)

 

 

  这本书主要介绍的是:聚类分析、关联分析、预测建模、异常检测。

 

  • 预测建模:分为两类分类和回归,分类用于预测离散变量,回归用于预测连续变量。
  • 关联分析:发现描述数据中强关联特征的模式,所发现的模式通常用讯韩规则或特征自己的形式表示。
  • 聚类分析:发现紧密相关的观测值组群,可以用于数据压缩。
  • 异常检测:好的异常检测器必须具有高检测率和低误报率。

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics