Introduction¶
Note
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
经过十多年的发展,Spark 已经由当初的“大数据新秀”成长为数据应用领域的中流砥柱,早已成为各大互联网公司的标配。
这也就意味着,数据应用开发者需要学习 Spark 🤨。为了加深记忆和便于回看,做此笔记。
这个笔记主要取材(copy)自:
课程 零基础入门 Spark,这个课程只有 scala 代码示例,因此一大工作就是把 scala 代码翻译成 python 代码。
Spark 官网文档。
书籍《Learning Spark》2nd Edition.
🌶️🦁️💉💦🐮🍻