最新消息:XAMPP默认安装之后是很不安全的,我们只需要点击左方菜单的 "安全"选项,按照向导操作即可完成安全设置。

spark:RDD五大核心属性?

XAMPP新闻 admin 704浏览 0评论
Spark计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。三大数据结构分别是:

RDD:弹性分布式数据集
累加器:分布式共享只写变量
广播变量:分布式共享只读变量

RDD

什么是RDD

RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据
处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行
计算的集合。

弹性

  • 存储的弹性:内存与磁盘的自动切换;
  • 容错的弹性:数据丢失可以自动恢复;
  • 计算的弹性:计算出错重试机制;
  • 分片的弹性:可根据需要重新分片。
    分布式:数据存储在大数据集群不同节点上
  • 数据集:RDD 封装了计算逻辑,并不保存数据
    数据抽象:RDD 是一个抽象类,需要子类具体实现
    不可变:RDD 封装了计算逻辑,是不可以改变的,想要改变,只能产生新的 RDD,在
    新的 RDD 里面封装计算逻辑
    可分区、并行计算

图解:

dra0006

avatar

五大核心属性

分区列表
RDD 数据结构中存在分区列表,用于执行任务时并行计算,是实现分布式计算的重要属性。

分区计算函数
Spark 在计算时,是使用分区函数对每一个分区进行计算

RDD 之间的依赖关系
RDD 是计算模型的封装,当需求中需要将多个计算模型进行组合时,就需要将多个 RDD 建
立依赖关系

分区器(可选)
当数据为 KV 类型数据时,可以通过设定分区器自定义数据的分区

首选位置(可选)
计算数据时,可以根据计算节点的状态选择不同的节点位置进行计算

转载请注明:XAMPP中文组官网 » spark:RDD五大核心属性?

您必须 登录 才能发表评论!