数据类型
1.属性与度量
属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。
测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)
属性类型:我们可以定义四种属性类型,标称(nominal),序数(ordinal),区间(interval),比率(ratio)。
数据质量
注重理解和提高数据质量,将改进分析结果的质量。
通常的数据质量问题:存在噪声和利群点、数据遗漏、不一致和重复、数据有偏差。
数据更适合数据挖掘的预处理步骤:处理使之更适合于分析,目的(1)提高数据质量,2更好地适应特定的DW技术活工具(例如:连续值转离散值、数据集属性数目需减少)。
噪声:草绳是测量误差的随机部分。很多数据挖掘工作都关注鲁棒算法(robust algorithm),即在噪声干扰下也能产生可以接受的结果。
伪像(artifact ):数据错误可能是更确定性现象的结果,如一组照片在同一地方出现条纹,数据的这种确定性失常常称为伪像
精度(precision):重复测量值之间的接近程度
偏倚(bias):测量值与被测量之间的系统的变差。
准确率(accuracy):被测量的测量值与实际值之间的接近度。
数据集
维度
(dimensionality):数据集中的对象具有的属性数目。分析高维度数据有时会陷入维灾难(curse of
dimensionality)。因为如此,数据预处理一个重要动机就是减少维度,称为维归约(dimensionality reduction)
稀疏性(sparsity):有些数据集,具有非对称特征的数据集,一个对象大部分属性上都为0;在很多情况下,非0项还不到1%,实际上,稀疏性是个有点,因为只有非零值才需要存储和处理。
分辨性(resolution):常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。例如在几米的分辨率下,地球表面可能很不平坦,但在数十公里的分辨率下却相对平坦。所以要做到分辨率适合。
事务数据或购物篮数据,数据矩阵,稀疏数据矩阵
基于图形的数据
(1)捕获数据对象之间的联系(即图形化表示)
(2)具有图形对象的数据。
分享到:
相关推荐
Pang-Ning Tan(陈封能)的《数据挖掘导论》的习题答案,不过是E文的。
数据挖掘导论 (英文PPT)(Pang-Ning Tan, Michael Steinbach, Vipin Kumar) 原书第四章(Introduction to Data Mining CH4)高清:http://download.csdn.net/detail/flyingpoops/9406233 原书第六章...
数据挖掘导论 学习课件 ch2 非常好的资源 欢迎大家下载 Numpy。 Python并没有提供数组功能。虽然列表可以完成基本的数组功能 ,但它不是真正的数组,而且在数据量较大时,使用列表的速度 就会慢得难以接受。 ...
《数据挖掘导论》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题...
数据挖掘导论 完整版 数据挖掘导论 完整版。 大数据。
数据挖掘第二版答案,纯英文,Pang-Ning Tan
Introduction to data mining
中科大-机器学习-课程ppt-课后习题答案-往年考试试卷-数据挖掘导论-推荐系统ppt-陈恩红
《数据挖掘导论(完整版)》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外...
完整版数据挖掘导论 课后习题答案(中文版)。 数据挖掘导论(完整版)课后习题答案(中文版)
数据挖掘导论(完整版)涵盖了五个主题:数据,分类,关联分析,聚类和异常检测
2. ARMA模型识别 3. 模型中参数的估计 4. 模型检验 5. 模型优化 6. 模型应用
背景集成学习目录神经网络深度学习回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物
数据挖掘导论 完整版 Introduction to Data Mining 陈封能,斯坦巴赫,库玛尔 著,范明,范宏建 等 译 详解数据挖掘概念与技术 为数据化运营实战打好基础 信息管理专家 科技作家涂子沛倾情推荐 带你进入真正的大数据...
背景回归目录神经网络深度学习集成学习的动机单模型的局限性:High bias or high variance误差的期望值 = 噪音的方差 + 模型预测值的方差
数据挖掘导论(第二版)第3章:分类-基础.pptx
《数据挖掘导论》(完整版)习题答案,答案有详细解题过程。
《数据挖掘导论》(英文版)对数据挖掘进行了全面介绍,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论》(英文版)涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题...
数据挖掘导论(完整版)中文版课本+中文版课后习题答案+英文版课后习题答案+英文版PPT
背景回归目录集成学习深度学习大脑大脑及神经系统神经元神经元树突:有多个,主要用来接受传入信息细胞核:对信号进行计算轴突:只有一条,用于信号传递突触:轴突末梢跟其