Introduction

Note

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
经过十多年的发展,Spark 已经由当初的“大数据新秀”成长为数据应用领域的中流砥柱,早已成为各大互联网公司的标配。
这也就意味着,数据应用开发者需要学习 Spark 🤨。为了加深记忆和便于回看,做此笔记。

这个笔记主要取材(copy)自:

  1. 课程 零基础入门 Spark,这个课程只有 scala 代码示例,因此一大工作就是把 scala 代码翻译成 python 代码。

  2. Spark 官网文档。

  3. 书籍《Learning Spark》2nd Edition.

🌶️🦁️💉💦🐮🍻