数据挖掘是什么
数据挖掘时数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。
- 数据预处理
:将未加工的输入数据转换成适合分析的形式。涉及的步骤包括融合来自多个数据源的数据,清晰数据以及消除噪声和重复的观测值,选择与当前数据挖掘任务相关的记录和特征。由于收集和存储数据的方式多种多样,数据预处理可能是整个KDD中最耗时、最费力的步骤。
数据挖掘面临的问题
-
可伸缩
:主要是由于海量数据导致,不能光在内存中处理,可能就需要不同的算法,这样就要求算法必须是可伸缩的(scalable)。例如使用抽样技术或开发并行和分布算法提高可伸缩程度。
-
高维性
:顾名思义,维度的大幅提高,导致计算的复杂性迅速增加。
-
异种数据和复杂数据
:异种数据的关联处理。例如含有半结构化文本和超链接的Web页面集。
-
数据的所有权与分布
:优势,需要分析的数据并非存放在一个站点,或属于一个机构,而是地理上分布在属于多个机构的资源中。这就需要开发分布式数据挖掘技术。分布式挖掘算法面临的主要挑战包括:1.如何降低执行分布式计算所需要的通信量?2.如何有效地统一从多个资源得到的数据挖掘结果?3.如何处理数据安全性问题。
-
非传统的分析
:传统的统计方法基于一种假设-检验模式。这个过程非常麻烦,这促使人们开发了一些数据挖掘技术。此外被分析数据通常代表数据的时机性样本(opportunistic sample),而不是随机样本(random sample)。而且,这些数据集常常设计非传统的数据类型和数据分布
数据挖掘任务
- 预测性任务:预测特定属性的值。
- 描述性任务:导出概括数据中潜在练习的模式(相关、趋势、聚类、轨迹和异常)
这本书主要介绍的是:聚类分析、关联分析、预测建模、异常检测。
- 预测建模:分为两类分类和回归,分类用于预测离散变量,回归用于预测连续变量。
- 关联分析:发现描述数据中强关联特征的模式,所发现的模式通常用讯韩规则或特征自己的形式表示。
- 聚类分析:发现紧密相关的观测值组群,可以用于数据压缩。
- 异常检测:好的异常检测器必须具有高检测率和低误报率。
分享到:
相关推荐
Pang-Ning Tan(陈封能)的《数据挖掘导论》的习题答案,不过是E文的。
数据挖掘导论 (英文PPT)(Pang-Ning Tan, Michael Steinbach, Vipin Kumar) 原书第四章(Introduction to Data Mining CH4)高清:http://download.csdn.net/detail/flyingpoops/9406233 原书第六章...
《数据挖掘导论》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题...
数据挖掘导论 学习课件 ch2 非常好的资源 欢迎大家下载 Numpy。 Python并没有提供数组功能。虽然列表可以完成基本的数组功能 ,但它不是真正的数组,而且在数据量较大时,使用列表的速度 就会慢得难以接受。 ...
数据挖掘导论 完整版 数据挖掘导论 完整版。 大数据。
Introduction to data mining
数据挖掘第二版答案,纯英文,Pang-Ning Tan
中科大-机器学习-课程ppt-课后习题答案-往年考试试卷-数据挖掘导论-推荐系统ppt-陈恩红
《数据挖掘导论(完整版)》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外...
2. ARMA模型识别 3. 模型中参数的估计 4. 模型检验 5. 模型优化 6. 模型应用
背景集成学习目录神经网络深度学习回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物
背景回归目录神经网络深度学习集成学习的动机单模型的局限性:High bias or high variance误差的期望值 = 噪音的方差 + 模型预测值的方差
完整版数据挖掘导论 课后习题答案(中文版)。 数据挖掘导论(完整版)课后习题答案(中文版)
数据挖掘导论(完整版)涵盖了五个主题:数据,分类,关联分析,聚类和异常检测
《数据挖掘导论》(英文版)对数据挖掘进行了全面介绍,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论》(英文版)涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题...
背景回归目录集成学习深度学习大脑大脑及神经系统神经元神经元树突:有多个,主要用来接受传入信息细胞核:对信号进行计算轴突:只有一条,用于信号传递突触:轴突末梢跟其
背景集成学习目录神经网络深度学习主要分类与预测算法简介:分类与预测——常用的分类与预测算法算法名称算法描述决策树它采用自顶向下的递归方式,在决策树的内部结点进行
数据挖掘导论 完整版 Introduction to Data Mining 陈封能,斯坦巴赫,库玛尔 著,范明,范宏建 等 译 详解数据挖掘概念与技术 为数据化运营实战打好基础 信息管理专家 科技作家涂子沛倾情推荐 带你进入真正的大数据...
《数据挖掘导论》(完整版)习题答案,答案有详细解题过程。
数据挖掘导论(完整版)中文版课本+中文版课后习题答案+英文版课后习题答案+英文版PPT