数据探索
一般而言,数据探索是样本数据集采集到后的第一步。指的是通过检验数据集的数据质量、图表绘制、特征量计算等常见手段,对样本数据集的结构和规律进行分析的过程。常见的数据探索角度分为数据质量分析和数据特征分析。数据质量分析
数据挖掘的重要组成,数据预处理的前提,数据挖掘分析结论的有效性和准确性的基础。主要任务:分析脏数据。(缺失值,异常值,不一致值,重复值) 缺失值 出现原因 无法获取信息遗漏信息属性值不存在分析方法 统计分析解决方法 删除缺失值记录可能值插补不做处理异常值 出现原因 获取的数据问题分析方法 统计量分析(最大值最小值圈定范围)正态分布分析箱型图分析一致性分析 出现原因 数据来源问题分析方法 比对数据特征分析
质量分析的下一步。 通过图表、特征量进行特征分析。 分布分析 揭示数据的分布特征和分布类型定量数据分布分析 分组合理直方图定性数据分布分析 饼图条形图对比分析 绝对数比较相对数比较统计量分析 集中趋势度量离中趋势度量周期性分析 周期性时序图贡献度分析 80比例提升相关性分析 散点图散点图矩阵相关系数 Pearson相关系数Spearman秩相关系数判定系数关于数据探索库函数的使用,可以参考我的博客
我的博客关于数据探索测试脚本的使用,可以参考我的Github
我的GitHub如果觉得《数据分析与挖掘理论-数据探索》对你有帮助,请点赞、收藏,并留下你的观点哦!