首页文章正文

Spark,整个mapreduce的过程

大数据spark 2023-08-28 21:06 890 墨鱼
大数据spark

Spark,整个mapreduce的过程

Spark 应用程序作为独立的进程集运行在集群上,通过Driver Program 中的SparkContext 对象来进行调度。一旦连接上Cluster Manager(YARN,Spark 自带的Standalone Cluster),Spark使用spark-submit脚本可以把应用提交到集群,详情参考应用提交指南。监控每个驱动程序【driver program】都有一个Web UI,默认使用4040端口,界面会展示一些信息包括正在运行的task

>0< 而Driver进程要做的第一件事情,就是向集群管理器Cluster Manager(可以是Spark Standalone集群,也可以是其他的资源管理集群,常用的集群管理器还有Yarn Mesos等等)申请运行Spark作业第一代:Hadoop 承载的MapReduce第二代:支持DAG(有向无环图)框架的计算引擎Tez 和Oozie,主要还是批处理任务第三代:支持Job 内部的DAG(有向无环图),以Spark 为代表第

Spark Core:Spark 的核心计算引擎,它提供了分布式任务调度、内存管理和数据共享等功能。Spark SQL:Spark 的结构化数据处理模块,它可以将结构化数据转换为SQL ·Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN)。·Spark是处理海量数据的快速通用引擎。Spark发展历程·Hadoop在2003年从Nu

后台-插件-广告管理-内容页尾部广告(手机)

标签: 整个mapreduce的过程

发表评论

评论列表

蓝灯加速器 Copyright @ 2011-2022 All Rights Reserved. 版权所有 备案号:京ICP1234567-2号