世界聚焦:分布式计算的替代框架抑制了大数据不断增长的成本

2023-02-24 09:52:44     来源:万能网

当今各个部门产生的“大数据”的绝对数量甚至开始淹没为筛选所有这些信息而开发的极其高效的计算技术。但是一个基于随机抽样的新计算框架看起来将最终把大数据不断增长的通信、内存和能源成本控制在更易于管理的范围内。

一篇描述该框架的论文发表在《大数据挖掘与分析》杂志上。


(资料图片仅供参考)

近年来,社交网络、商业交易、“物联网”、金融、医疗保健等领域产生的数据量呈爆炸式增长。这个所谓的大数据时代提供了令人难以置信的统计能力来发现模式并提供以前无法想象的洞察力。但是产生的大数据量开始达到计算极限。

在计算机集群或云计算中,复杂算法的可扩展性在大约1TB数据(或1万亿字节)时开始陷入困境。例如,纽约证券交易所每天产生大约1TB的交易数据,而Facebook用户同时产生500TB。

分布式计算在此类大数据的存储、处理和分析中起着至关重要的作用。该框架采用“分而治之”的策略来高效、快速地对其进行排序。这涉及将大数据文件划分为许多称为“数据块文件”的较小文件。

这些数据块以分布式方式存储在计算机集群的许多节点上。然后并行处理这些块中的每一个,而不是顺序处理,从根本上加快处理时间。然后将来自这些本地节点的结果反馈到中央位置并重新整合,从而产生全局结果。

这种分而治之的操作依次由分布式文件系统管理,而分布式文件系统又由编程模型管理。文件系统是将大数据文件进行划分,编程模型将算法划分成多个块,然后以分布式方式在数据块上运行。

MapReduce由Google开发,是在集群和云端运行的分布式计算中使用最广泛的编程模型。这个名字来源于它的两个基本操作。对节点中的数据块进行Map操作,生成本地结果。这是在多个节点上并行执行的,以实现处理时间的巨大加速。Reduce操作然后将所有这些局部结果整理成全局结果。

后一阶段涉及将本地结果传输到执行Reduce操作的其他主节点或中央节点,并且所有这些数据混洗在通信流量和内存方面都非常昂贵。

“这种巨大的通信成本在一定程度上是可以控制的,”该论文的第一作者、深圳大学计算机科学与软件工程学院的计算机科学家孙旭东说。“如果所需的任务只涉及一对Map和Reduce操作,例如计算一个词在大量网页中的出现频率,那么MapReduce可以非常高效地在数千个节点上运行,甚至是一个庞大的大数据文件”

“但如果所需的任务涉及Map和Reduce对的一系列迭代,那么MapReduce会变得非常缓慢,因为通信成本很高,随之而来的是内存和计算成本,”他补充道。

因此,研究人员开发了一种新的分布式计算框架,他们称之为Non-MapReduce,以通过减少这些通信和内存成本来提高集群计算对大数据的可扩展性。

为此,他们依赖于一种称为随机样本分区或RSP的新型数据表示模型。这涉及对大数据文件的分布式数据块进行随机采样,而不是对所有分布式数据块进行处理。分析大数据文件时,会随机选择一组RSP数据块进行处理,然后在全局级别进行整合,以生成对整个数据文件进行处理后的结果的近似值。

通过这种方式,该技术的工作方式与统计分析中的方式大致相同,随机抽样用于描述人口的属性。因此,非MapReduce的RSP方法是所谓的“近似计算”的一种,这是一种新兴的计算范例,旨在实现更高的能源效率,只提供近似而不是精确的结果。

近似计算在这样的情况下很有用:以低廉的计算成本获得的粗略准确的结果足以完成手头的任务,并且在尝试提供完美准确的结果方面优于计算成本高昂的工作。

Non-MapReduce计算框架将对一系列任务有相当大的好处,例如快速采样多个随机样本以进行集成机器学习;直接在本地随机样本上执行一系列算法,而不需要节点之间的数据通信;简化大数据的探索和清理。此外,该框架在云计算中节省了大量能源。

该团队现在希望将他们的Non-MapReduce框架应用于一些主要的大数据平台,并将其用于实际应用程序。最终,他们希望用它来解决分析分布在多个数据中心的超大数据的应用问题

标签: 数据文件 分布式计算 随机样本

[责任编辑:news001]

(本文章版权归凤凰网所有,未经授权,不得转载)

为您推荐