Hadoop的创造者Doug Cutting在不久的将来将解开大数据的技术


Hadoop的创造者Doug Cutting在不久的将来将解开大数据的技术

文章插图
Doug Cutting:“如果你可以在内存中有一个pb级的数据,可以从周期内的任何节点访问,那么这将是几个级别的性能改进 。”
十年前,当Doug Cutting创建Hadoop框架时,他从未想过它会将大规模计算带到企业界 。
“我的预期肯定比我们看到的要温和,”他在Strata和Hadoop世界大会上说 。
如今,Hadoop被许多家喻户晓的名字所使用,帮助Facebook分析其超过16亿月度用户的流量,帮助Visa揭露价值数十亿美元的欺诈 。
Hadoop的吸引力在于它可以让大数据的处理成本更低,在某些方面也更简单 。该平台提供了一组技术,允许将非常大的数据集分散到大量的商品服务器集群中,并并行处理 。
然而,这个平台所能做的也有局限性 。今天,Hadoop集群处理非常大的数据集的速度是由数据在二级存储器(ssd或更慢的旋转磁盘)和计算机的内存和CPU之间穿梭的速度所限制的 。
出现这种I/O瓶颈是因为处理器速度和效率的增长快于存储的读写速率 。
但现在存储技术正准备进行重大转变,其中之一是削减说,这将有助于停止大数据处理的刹车 。
今年,英特尔计划发布其3D XPoint存储芯片,该芯片检索数据的速度比通常用于ssd的NAND闪存快1000倍,同时存储数据的密度也比DRAM高10倍,DRAM是目前常用的内存类型 。
虽然XPoint最初将以optane品牌的ssd的形式提供存储,但英特尔计划随后发布XPoint内存模块 。由于XPoint以比传统DRAM高得多的密度存储数据,这些模块将允许服务器拥有比现在大得多的内存 。英特尔曾表示,英特尔Xeon服务器明年将推出6TB内存,由DDR4 DRAM和XPoint组成 。也就是说XPoint在性能上无法与DDR4 DRAM相匹配 。预发布的XPoint ssd的7微秒延迟和78,000读/写IOPS比DRAM慢,一些估计比高性能ssd快不超过20倍 。
大数据最大的问题是:获取数据太难了
虽然大数据更多的是一种营销术语,而不是一种技术,但它仍有巨大的未开发潜力 。但是,首先要解决一个大问题 。
阅读更多
不管怎样,Cutting预测在Hadoop集群中使用XPoint和其他非易失性内存将为新的用途打开平台,允许用户在内存中处理更大的数据集,这将绕过从磁盘获取数据时固有的延迟 。
“如果你可以在内存中有一个pb级的数据,可以从周期内的任何节点访问,这是几个级别的性能改进,如果你在做某些类型的算法,”Cutting说,他现在是Cloudera的首席架构师,Cloudera提供自己的Hadoop分发 。
“现在非常昂贵的东西,比如图形操作、各种迭代机器学习算法、集群——这些传统上需要很长时间的事情——现在可以非常快地完成,并覆盖相当可观的数据量 。”
“数据集仍然会太大,计算速度也会太慢,但我认为它会改变很多事情,”他说,并补充说,与网络流量相关的延迟也会通过远程直接管理访问和千兆以太网交换来减少 。
2014年,英特尔向Cloudera投资约7.4亿美元 。作为两家公司合作的一部分,Intel将向Cloudera提供正在开发的新特性和硬件,以确保Cloudera的Hadoop发行版可以利用这项技术 。
“我们希望确保我们提供的工具能够利用这一点,”Cutting谈到XPoint时说 。
“我们已经非常努力地将访问内存中数据结构的CPU使用量降到最低,”他说,并补充说Cloudera已经尝试防止不必要的操作,这些操作会导致CPU在处理内存数据时遇到瓶颈 。
Cutting还希望让Hadoop更容易地在云中运行Hadoop集群,从而让更多人可以使用Hadoop 。
在各种云平台上构建Hadoop集群已经成为可能 。例如,那些运行Cloudera的Hadoop (CDH)发行版的用户,可以使用Cloudera Director来启动Amazon Web Services和谷歌云平台上的虚拟服务器集群 。