肿瘤康复网,内容丰富有趣,生活中的好帮手!
肿瘤康复网 > 数据分析与挖掘理论-数据探索

数据分析与挖掘理论-数据探索

时间:2018-07-13 11:05:43

相关推荐

数据探索

一般而言,数据探索是样本数据集采集到后的第一步。指的是通过检验数据集的数据质量、图表绘制、特征量计算等常见手段,对样本数据集的结构和规律进行分析的过程。常见的数据探索角度分为数据质量分析和数据特征分析。

数据质量分析

数据挖掘的重要组成,数据预处理的前提,数据挖掘分析结论的有效性和准确性的基础。主要任务:分析脏数据。(缺失值,异常值,不一致值,重复值) 缺失值 出现原因 无法获取信息遗漏信息属性值不存在分析方法 统计分析解决方法 删除缺失值记录可能值插补不做处理异常值 出现原因 获取的数据问题分析方法 统计量分析(最大值最小值圈定范围)正态分布分析箱型图分析一致性分析 出现原因 数据来源问题分析方法 比对

数据特征分析

质量分析的下一步。 通过图表、特征量进行特征分析。 分布分析 揭示数据的分布特征和分布类型定量数据分布分析 分组合理直方图定性数据分布分析 饼图条形图对比分析 绝对数比较相对数比较统计量分析 集中趋势度量离中趋势度量周期性分析 周期性时序图贡献度分析 80比例提升相关性分析 散点图散点图矩阵相关系数 Pearson相关系数Spearman秩相关系数判定系数

关于数据探索库函数的使用,可以参考我的博客

我的博客

关于数据探索测试脚本的使用,可以参考我的Github

我的GitHub

如果觉得《数据分析与挖掘理论-数据探索》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。