RDD:弹性分布式数据集
累加器:分布式共享只写变量
广播变量:分布式共享只读变量
RDD
什么是RDD
RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据
处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行
计算的集合。
弹性
- 存储的弹性:内存与磁盘的自动切换;
- 容错的弹性:数据丢失可以自动恢复;
- 计算的弹性:计算出错重试机制;
- 分片的弹性:可根据需要重新分片。
分布式:数据存储在大数据集群不同节点上- 数据集:RDD 封装了计算逻辑,并不保存数据
数据抽象:RDD 是一个抽象类,需要子类具体实现
不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在
新的 RDD 里面封装计算逻辑
可分区、并行计算
图解:
avatar
五大核心属性
分区列表
RDD 数据结构中存在分区列表,用于执行任务时并行计算,是实现分布式计算的重要属性。分区计算函数
Spark 在计算时,是使用分区函数对每一个分区进行计算RDD 之间的依赖关系
RDD 是计算模型的封装,当需求中需要将多个计算模型进行组合时,就需要将多个 RDD 建
立依赖关系分区器(可选)
当数据为 KV 类型数据时,可以通过设定分区器自定义数据的分区首选位置(可选)
计算数据时,可以根据计算节点的状态选择不同的节点位置进行计算
转载请注明:XAMPP中文组官网 » spark:RDD五大核心属性?