肿瘤康复网,内容丰富有趣,生活中的好帮手!
肿瘤康复网 > 【数据挖掘】数据挖掘概述

【数据挖掘】数据挖掘概述

时间:2019-07-14 18:53:02

相关推荐

一、数据挖掘产生的背景

1、从数据分析看数据

政治算法、概率论与数理统计、数据挖掘

2、主要原因催生数据挖掘

海量数据的分析需求

应用对理论的挑战

大数据的特征

3V——Volume(海量)、Variety(多样)、Velocity(实时)

海量——数据量巨大,对TB、PB数据级的处理,已经成为基本配置。

多样——处理多样性的数据类型,结构化数据和非结构化数据,能处理Web数据,能处理语音数据甚至是图像、视频数据。

实时——在客户每次浏览页面,每次下订单的过程中都存在,都会需要对用户进行实时的推荐,决策已经变得实时。

二、什么是数据挖掘

数据挖掘(Data Mining)是从海量数据中抽取潜在的,不为人知的有用信息、模式和趋势。

(模式——标志了事物之间隐藏的规律关系)

数据挖掘过程必须是自动的或半自动的(用计算机)

数据的总量总是相当可观的,但从中发现的模式必须是有意义的,并能产生一些效益,通常是经济上的效益。

三、数据挖掘算法

从学习过程的类型划分:有指导的学习算法;无指导的学习算法。

有指导学习。

是指有结果度量(Outcome Measurement)的指导学习过程。

根据一组特征(Features)对结果度量进行预测。

通过学习已知数据集的特征和目标变量建立起预测模型。

根据目标变量是定性还是定量通常分为分类和回归。

无指导学习

在数据中探寻新的模式

归纳和总结数据

常见的数据挖掘算法

(1)分类预测算法

1、决策树算法:

C4.5、C5.0、CART、CHAID、QUEST

2、BP算法

3、回归分析方法

线性回归分析、Logistic回归

(2)探寻内部结构的算法

1、关联规则分析

Apriori算法、序列关联

2、聚类分析

K-means聚类、谱系聚类、两步聚类、Kohonen聚类

如果觉得《【数据挖掘】数据挖掘概述》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。