`

数据挖掘导论学习笔记(2)----- 数据(1)

 
阅读更多

数据类型

1.属性与度量

属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。

测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)

属性类型:我们可以定义四种属性类型,标称(nominal),序数(ordinal),区间(interval),比率(ratio)。

 

 

数据质量

注重理解和提高数据质量,将改进分析结果的质量。
通常的数据质量问题:存在噪声和利群点、数据遗漏、不一致和重复、数据有偏差。

 

数据更适合数据挖掘的预处理步骤:处理使之更适合于分析,目的(1)提高数据质量,2更好地适应特定的DW技术活工具(例如:连续值转离散值、数据集属性数目需减少)。

 

 

噪声:草绳是测量误差的随机部分。很多数据挖掘工作都关注鲁棒算法(robust algorithm),即在噪声干扰下也能产生可以接受的结果。

伪像(artifact ):数据错误可能是更确定性现象的结果,如一组照片在同一地方出现条纹,数据的这种确定性失常常称为伪像

精度(precision):重复测量值之间的接近程度

偏倚(bias):测量值与被测量之间的系统的变差。

准确率(accuracy):被测量的测量值与实际值之间的接近度。

 

数据集

维度 (dimensionality):数据集中的对象具有的属性数目。分析高维度数据有时会陷入维灾难(curse of dimensionality)。因为如此,数据预处理一个重要动机就是减少维度,称为维归约(dimensionality reduction)

稀疏性(sparsity):有些数据集,具有非对称特征的数据集,一个对象大部分属性上都为0;在很多情况下,非0项还不到1%,实际上,稀疏性是个有点,因为只有非零值才需要存储和处理。

分辨性(resolution):常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。例如在几米的分辨率下,地球表面可能很不平坦,但在数十公里的分辨率下却相对平坦。所以要做到分辨率适合。

事务数据或购物篮数据,数据矩阵,稀疏数据矩阵


基于图形的数据
(1)捕获数据对象之间的联系(即图形化表示)
(2)具有图形对象的数据。

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics