大数据的论文怎么写( 四 )


大数据处理之二:导入和预处理 。虽然采集端本身会有很多数据库 , 但是如果要对这些海量数据进行有效的分析 , 还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库 , 或者分布式存储集群 , 并且可以在导入基础上做一些简单的清洗和预处理工作 。
也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算 , 来满足部分业务的实时计算需求 。导入与预处理过程的特点和挑战主要是导入的数据量大 , 每秒钟的导入量经常会达到百兆 , 甚至千兆级别 。
大数据处理之三:统计和分析 。统计与分析主要利用分布式数据库 , 或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等 , 以满足大多数常见的分析需求 , 在这方面 , 一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata , 以及基于MySQL的列式存储Infobright等 , 而一些批处理 , 或者基于半结构化数据的需求可以使用Hadoop 。
统计与分析这部分的主要特点和挑战是分析涉及的数据量大 , 其对系统资源 , 特别是I/O会有极大的占用 。大数据处理之四:挖掘 。
与前面统计和分析过程不同的是 , 数据挖掘一般没有什么预先设定好的主题 , 主要是在现有数据上面进行基于各种算法的计算 , 从而起到预测(Predict)的效果 , 从而实现一些高级别数据分析的需求 。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes , 主要使用的工具有Hadoop的Mahout等 。
该过程的特点和挑战主要是用于挖掘的算法很复杂 , 并且计算涉及的数据量和计算量都很大 , 常用数据挖掘算法都以单线程为主 。整个大数据处理的普遍流程至少应该满足这四个方面的步骤 , 才能算得上是一个比较完整的大数据处理 。
大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种 。数据流处理的方式适合用于对实时性要求比较高的场合中 。
并不需要等待所有的数据都有了之后再进行处理 , 而是有一点数据就处理一点 , 更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量 , 对辅助存储器的要求反而不高 。批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块 , 之后对其进行处理 。
重点在于把大化小——把划分的小块数据形成小任务 , 分别单独进行处理 , 并且形成小任务的过程中不是进行数据传输之后计算 , 而是将计算方法(通常是计算函数——映射并简化)作用到这些数据块最终得到结果 。当前 , 对大数据的处理分析正成为新一代信息技术融合应用的节点 。
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态 , 这些应用不断产生大数据 。通过对不同来源数据的管理、处理、分析与优化 , 将结果反馈到上述应用中 , 将创造出巨大的经济和社会价值 。
大数据也是信息产业持续高速增长的新引擎 。面对大数据市场的新技术、新产品、新业态会不断涌现 。
在硬件与集成设备领域 , 大数据将对芯片、存储产业产生重要影响 , 还将催生一体化数据存储处理服务器、内存计算等市场 。在软件与服务领域 , 大数据将引发数据快速处理分析、数据挖掘技术和软件产品的发展 。