肿瘤康复网,内容丰富有趣,生活中的好帮手!
肿瘤康复网 > 数据挖掘--数据挖掘基本概念

数据挖掘--数据挖掘基本概念

时间:2022-12-27 22:19:36

相关推荐

1.1 数据挖掘的定义

本质概念:用最强大的硬件、最强大的编程系统和最高效的算法’来解决科学、商业、医疗健康、政府、人文以及众多人类努力探索的其他领域中的问题。

1.1.1 建模

对很多人而言’数据挖掘是从数据构建模型的过程’而该过程通常利用机器学习来实现。但是更一般地来说数据挖掘的目标是算法。当然,在很多重要的应用中,建模是难点所在。—旦模型建好,那么使用该模型的算法就直截了当了。

1.1.2 统计建模

目前,统计学家认为数据挖掘就是统计模型(statisticalmodel)的构建过程’而此处统计模型指的就是可见数据所遵从的总体分布。

1.1.3 机器学习

有些人将数据挖掘看作机器学习的同义词。毫无疑问’一些数据挖掘方法中适当使用了机器学习算法。机器学习的实践者将数据当成训练集来训练某类算法,比如贝叶斯网络、支持向量机、决策树和隐马尔可夫模型等。

在某些场景下,上述数据利用方式是合理的。机器学习适用的典型场景是人们对要在数据中寻找的目标几乎—无所知。比如“我们并不清楚到底是什么因素导致某些观众喜欢或者厌恶一部影片”。因此’在Netflix竞赛要求预测观众对影片的评分时,基于已有评分样本的机器学习算法获得了巨大成功。

不过,当能够更直接地描述挖掘的目标时,机器学习方法并不成功。

有些机器学习方法还存在另外一个问题,就是它们产生的模型虽然效果很好,但是可解释性差。

1.1.4 建模的计算方法

与统计方法不同,计算机科学家倾向于将数据挖掘看成—个算法问题。这种情况下,数据模型仅仅是复杂查询的答案。

数据建模有很多不同的方法。前面已经提到可以构造一个随机过程,并通过这个过程生成数据。其他的大部分数据建模方法可以被描述为下列两种做法之一:

(1)对数据进行简明扼要的概括;

(2)从数据中抽取出最突出的特征来代替数据并忽略剩余内容。

1.1.5 数据概括

PageRank是最有趣的数据概括形式之一。

另一种重要的数据概括形式是聚类。在聚类中,数据被看作多维空间

下的点’而且空间中相互邻近的点将被赋予相同的类别。这些类别本身也会被概括表示,比如通过类别质心以及类别中各个点到质心的平均距离来描述。这些类别的概括信息综合在—起形成了整个数据集合的数据概括结果。

1.1.6 特征抽取

下面介绍大规模数据集下的两种重要的特征抽取类型。

频繁项集:该模型适用于多个小规模项集组成的数据相似项:很多时候,数据看上去相当于—系列集合,而我们的目标是寻找那些共同元素占比较高的集合对。

1.2 数据挖掘的统计限制

一类常见的数据挖掘问题涉及在大量数据中发现隐藏的异常事件。

1.2.1 整体情报预警

现在,数据集成(information integration)往往是解决重要问题的关键步骤,它能将来自不同数据源的相关数据组合起来,以便获得无法从任何单一数据源中得到的信息。

本节期望集中关注一个特殊的技术问题:如果在数据中同时寻找过多的东西,那么可能会有看似有趣的发现,但是这实际上只是简单的统计生成物,并没有任何重要意义。

1.2.2 邦弗朗尼原理

假定人们有—定量的数据并从中寻找某个特定类型的事件.即使数据完全随机,也可以期望该类型的事件会发生。随着数据规模的增长,这类事件的出现次数也随之上升。任何随机数据都会有—些不同寻常的特征’这些特征虽然看上去很重要,但是实际上并不重要。从这个意义上说,上述事件的多次出现纯属“假象”。邦弗朗尼原理可以用于避免搜索数据时出现的大部分虚假结果。

邦弗朗尼原理:在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的任何事物几乎都是虚假的。也就是说’它们是在统计上出现的假象’而不是你所寻找事件的证据。上述观察结果是邦弗朗尼原理的非正式阐述°

1.2.3 邦弗朗尼原理的一个例子

1.3 相关知识

本节将简要介绍—些有用的主题,你可能在其他课程或研究中接触过它们’也可能根本没有听说过。这些对于数据挖掘的研究相当有益,包括:

(1)用于度量词语重要性的TPIDF指标;

(2)哈希函数及其使用;

(3)二级存储器(磁盘)及其对算法运行时间的影响;

(4)自然对数的底e及包含它的一系列恒等式;

(5)幂定律.

1.3.1 TF.IDF指标

TF.IDF指标用于度量给定词语在少数文档中反复出现程度(TF指吃词项频率,IDF指逆文档频率)。

假定文档集中有N篇文档,fij为词项i在文档j中出现频率(即次数),于是,TFij 定义为:

即词项i在文档j中出现频率的归一化结果。

假定词项i在文档集的ni篇文档中出现,那么词项i的IDF定义如下:

于是,词项i在文档j中的得分被定义为TFij×IDFi,具有最高TFIDF得分的那些词项通常是刻画文档主题的最佳词项。

1.3.2 哈希函数

首先’哈希函数h的输人是—个哈希键(hash-key),输出是—个桶编号(bucket number)。假定桶的个数为整数B,则桶编号通常是0和B-1之间的整数。哈希键可以是任何类型的数据。哈希函数的—个直观性质是将哈希键**“随机化”**(randomize)。

1.3.3 索引

给定某种对象的一个或多个元素值,索引是一种支持高效查找对象的数据结构。最常见的—种情况是对象都是记录,而索引是基于记录中的某个字段来建立的。给定该字段的值γ,根据索引能够快速返回该字段值等于γ的所有记录。

1.3.4 二级存储器

当处理大规模数据时,数据—开始在磁盘还是内存上会导致计算的时间开销相差很大。

磁盘呈块(block)结构,每个块是操作系统用于在内存和磁盘之间传输数据的最小单元。访问(将磁头移到块所在的磁道并等待磁盘块在该磁头下旋转经过)和读取一个磁盘块需要大概10毫秒的时间。相对于从内存中读取—个字的时间,磁盘的读取延迟至少要慢5个数量级(即存在因子105)。因此,如果只需要访问若干字节’那么将数据放在内存中将具压倒性优势。实际上,假如我们要简单地处理—个磁盘块中的每个字节,比如将块看成哈希表中的桶,并在桶的所有记录当中寻找某个特定的哈希键,那么将块从磁盘移到内存的时间会大大多于计算的时间。

如果觉得《数据挖掘--数据挖掘基本概念》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。