数据挖掘怎么写( 四 )


4. 什么是数据挖掘 简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识 。
该术语实际上有点用词不当 。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长 。
许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词 。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤 。
数据挖掘是一个用数据发现问题、解决问题的学科 。通常通过对数据的探索、处理、分析或建模实现 。
我们可以看到数据挖掘具有以下几个特点: 基于大量数据:并非说小数据量上就不可以进行挖掘,实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果 。但是,一方面过小的数据量完全可以通过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性 。
非平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束 为止,这届世界杯的进球数和失球数是一样的 。非常的巧合!”那种知识 。
这点看起来勿庸赘言,但是很多不懂业务知识的数据挖掘新手却常常犯这种错误 。隐含性:数据挖掘是要发现深藏在数据内部的知识,而不是那些直接浮现在数据表面的信息 。
常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息 。新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的经验而已 。
只有全新的知识,才可以帮助企业获得进一步的洞察力 。价值性:挖掘的结果必须能给企业带来直接的或间接的效益 。
有人说数据挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有 。这只是一种误解,不可否认的 是在一些数据挖掘项目中,或者因为缺乏明确的e69da5e887aae799bee5baa6e79fa5e9819331333431353331业务目标,或者因为数据质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导 致效果不佳甚至完全没有效果 。
但大量的成功案例也在证明,数据挖掘的确可以变成提升效益的利器 。
5. 什么是数据挖掘 数据挖掘简单地说就是,在大型数据库中,自动发现有用信息的过程,加以分析 。其中数据库中的知识发现是重要的环节,也就是人们说的KDD,knowledge discovery in database 。网舟科技在数据分析与可视化方面有自己独特的见解与心得,专注美国Adobe数据产品的实际应用分析 。
2KDD是什么
其实就是一个数据处理的过程,从输入数据开始,进行预处理工作,包括特征选择,维归约规范化和选择数据子集等等,随后进行分析和挖掘,再经过处理,例如模式过滤,可视化,模式表示等,最后形成可用信息的过程 。
3数据挖掘要解决什么问题
具体的讲主要是以下几个,首先是数据的可伸缩性,提高或改变数据的可伸缩度 。其次是解决数据高维性的问题 。处理异种数据和复杂数据 。解决数据所有权与分布问题 。对非传统的分析进行合理处理 。
4数据挖掘的任务
其实主要包括四个大块,可以独立运行,也可以联合操作,分别是聚类分析,预测建模,关联分析,异常检测 。
聚类分析实用的技术包括K均值,凝聚层次聚类,dbscan,簇评估等,主要目的是通过基于原型,密度,图等的聚类,发现其间的关系 。
预测建模则更多的是一种可视化角度分析方法,利用分类,回归等方法,来建立模型解决问题 。
关联分析顾名思义,更多强调数据中的特征强关联,例如说过一万次的啤酒与尿布等 。