本文整理了 Spark 的核心机制,涵盖 RDD 的设计思想、存储方式、不可变性、Stage 概念,以及 Spark 相对于 MapReduce 的改进。
来源于 Spark 最核心的两篇学术论文:
Zaharia, M., et al. (2012). Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. NSDI. 这是 Spark 的“基础论文”,提出了 RDD 的概念。
Zaharia, M., et al. (2010). Spark: Cluster Computing with Working Sets. HotCloud. 这是 Spark 的早期论文,主要论证了基于内存的数据处理框架可以比 MapReduce 更快。