Spark架构角色及基本运行流程

1. 集群角色

Application：基于spark的用户程序，包含了一个Driver program 和集群中多个Executor
Driver Program：运行application的main()函数并自动创建SparkContext。Driver program通过一个SparkContext对象来访问Spark，通常用SparkContext代表Driver。
SparkContext: Spark的主要入口点，代表对计算集群的一个连接，是整个应用的上下文，负责与ClusterManager通信，进行资源申请、任务的分配和监控等。
ClusterManager：在集群上获得资源的外部服务（spark standalone，mesos，yarm），Standalone模式：Spark原生的资源管理，由Master负责资源，YARN模式：Yarn中的ResourceManager
Worker Node：集群中任何可运行Application代码的节点，负责控制计算节点，启动Executor或者Driver（Standalone模式：Worder，Yarn模式：NodeManager）
Executor：为某个Application在worker node上执行任务的一个进程，该进程负责运行task并负责将数据存储在内存或者硬盘上，每个application都有自己独立的一组Executors。
RDD：弹性分布式数据集，是spark 的基本运算单元，通过scala集合转化读取数据集生成或者由其他RDD进过算子操作得到
Job：可以被拆分成Task并行计算的单元，一般为Spark Action触发的一次执行作业
Stage：每个Job会被拆分成很多组Task，每组任务被称为Stage，也可称TaskSet，该属于经常在日志中看到
Task：被送到executor上执行的工作单元

2. 基本运行流程

SparkContext的初始化过程中，Spark会分别创建DAGScheduler作业和TaskScheduler任务调度两级调度模块：

DAG Scheduler：根据作业（Job）构建基于Stage的DAG，并将DAG分解成Stage以TaskSets（任务组）的形式提交给任务调度模块Task Scheduler来具体执行
Task Scheduler：将任务（Task）分发给Executor执行

详细的流程为：

Application启动

启动一个Driver进程

初始化SparkContext

构建出DAGScheduler、TaskScheduler

注册Application

启动Executor并进行资源的分配

将Executor注册到TaskScheduler

启动StandaloneExecutorBackend

Executor运行情况将随着心跳发送到资源管理器

DAGScheduer 先按照Action将程序划分为一至多个job

将job划分为多个Stage

将Taskset交给TaskScheduler

Executor

申请Task

将Task发放给Executor运行

SparkContext将应用程序代码发放给Executor

Task在Executor上运行

释放所有资源

Spark架构角色及基本运行流程

Spark架构角色及基本运行流程的相关教程结束。

相关推荐

vivo积分任务体系的架构演进-平台产品系列05

最新linux运维高级架构课13期架构师课程

Linux（13）：期中架构（5）--- 前端部分：keepalived高可用 & HTTPS & iptables防火墙

系统架构以及需要导入的jar包

MySQL的sql语句执行流程（简述）

2023-05-20：go语言的slice和rust语言的Vec的扩容流程是什么？

Terraform 改善基础架构的十个最佳实践

MVC 三层架构案例详细讲解

Spark架构角色及基本运行流程

Spark架构角色及基本运行流程的相关教程结束。

相关推荐

vivo积分任务体系的架构演进-平台产品系列05

最新linux运维高级架构课13期 架构师课程

Linux（13）：期中架构（5）--- 前端部分：keepalived高可用 & HTTPS & iptables防火墙

系统架构以及需要导入的jar包

MySQL的sql语句执行流程（简述）

2023-05-20：go语言的slice和rust语言的Vec的扩容流程是什么？

Terraform 改善基础架构的十个最佳实践

MVC 三层架构案例详细讲解

最新linux运维高级架构课13期架构师课程