1.6 其他大数据处理框架_大数据处理框架Apache Spark设计与实现-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.6 其他大数据处理框架

除了本章介绍的分布式处理框架MapReduce、Spark和Dryad，Yahoo！还提出了Map-Reduce merge[60]框架，通过在reduce阶段后面加入merge阶段，提高了MapReduce对二维表的关系代数处理能力。UC Berkeley提出了MapReduce Online[61]，改进了从map阶段到reduce阶段的数据流动方式，使得mapper输出的数据可以更快地流入reducer中，提高MapReduce对数据的在线处理能力。UCI的Bu等提出了HaLoop[62]，提高了MapReduce迭代型任务的执行性能。NYU提出的面向内存计算应用的分布式计算编程模型Piccolo[63]可以提供Key-Value表的操作接口。与MapReduce相比，Piccolo能够轻松地访问中间状态及中间数据。Spark Structured Streaming[64]和Apache Flink统一了批式处理与流式处理的执行流程。

本周热推：

数据库应用基础教程（Visual FoxPro 9.0）数据要素安全流通云原生架构：从技术演进到最佳实践 Spark大数据分析实战计算机应用基础（微课版）