您的位置:首页 >房产频道 > 科技 >

Apache Spark的内存存储Alluxio即将发布1.0版本

导读 随着Hadoop文件系统在Spark采用者中继续失去吸引力,新的更复杂的存储框架开始取代它。最受欢迎的选择之一是开源的Alluxio(以前被称为快子)

随着Hadoop文件系统在Spark采用者中继续失去吸引力,新的更复杂的存储框架开始取代它。最受欢迎的选择之一是开源的Alluxio(以前被称为快子),它今天早上被置于一个特殊的基金会之下,因为它的第一个主要版本触及了一般可用性。

此次发布是技术领域一些知名人士支持的三年开发工作的高潮,这项工作始于加州大学伯克利分校一名博士生的工作。李浩源在2010年启动分析引擎的AMPlab的研究中见证了Spark的崛起,发现了阻碍早期实现尝试的瓶颈:当时少数能够有效支持内存处理的数据存储依赖于容错复制。

Spark Cluster中的记录将被复制到多台服务器,以确保在某个节点出现故障时仍然可以访问这些记录。尽管组织正在处理的信息量正在加速增长,但这种方法仍然是保持分析引擎可靠性的首选。因此,越来越多的带宽被用来复制数据,这使得其他任务的带宽越来越少,最终阻碍了处理。浩源预见到了这一挑战,设计了一种替代的容错技术,这将继续构成Alluxio的基础。

该平台将从Spark收到的每一个更改都记录在一个特殊的日志中,并且可以随时访问该日志。如果托管该文件的服务器在分析过程中失败,Alluxio可以让另一台机器来弥补这一漏洞,重新执行失败运行中执行的所有计算,并继续运行,就像从那里什么都没发生一样。该机制利用了企业的处理能力远比带宽丰富的事实,大大提高了集群性能。

银行业巨头巴克莱银行(Barclays PLC)声称,其数据科学家可以使用Alluxio将一些分析的持续时间从几个小时缩短到几分钟。该框架使开发人员能够更快地工作,并将其内部复杂性隐藏在编程接口后面,从而使控制信息流相对简单。记录可以从各种第三方系统导入内存,并在处理后自动移动到磁盘永久存储中。

Alluxio可以自己处理后一个任务,或者将分析后的数据重新传递到常规文件系统,如Gluster FS和Open StackSwift。该框架还提供了大量开放执行引擎的集成,以适应那些需求可能无法完全满足的组织。

免责声明:本文由用户上传,如有侵权请联系删除!