容器云计算,Devops,DBA,网络安全。

Hadoop3.x 作业提交全过程-尚硅谷资料作业提交全过程详解（1）作业提交第 1 步：Client 调用 job.waitForCompletion 方法，向整个集群提交 MapReduce 作业。第 2 步：Client 向 RM 申请一个作业 id。第 3 步：RM 给 Client 返回该 job 资源的提交路径和作业 id。第 4 步：Client 提交 jar 包、切片信息和配置文件到指定的资源提交路径。第 5 步：Client 提交完资源后，向 RM 申请运行 MrAppMaster。（2）作业初始化第 6 步：当 RM 收到 Client 的请求后，将该 job 添加到容量调度器中。第 7 步：某一个空闲的 NM 领取到该 Job。第 8 步：该 NM 创建 Container，并产生 MRAppmaster。第 9 步：下载Client 提交的资源到本地。（3）任务分配第 10 步：MrAppMaster 向 RM 申请运行多个 MapTask 任务资源。第 11 步：RM 将运行 MapTask 任务分配给另外两个NodeManager，另两个 NodeManager 分别领取任务并创建容器。（4） ...

Tags：

[阅读全文...]

0

Hadoop3.x DataNode工作机制-尚硅谷资料

发表者：admin分类：大数据2021-07-14 09:34:20 阅读[896]

Hadoop3.x DataNode工作机制-尚硅谷资料 DN 向 NN 汇报当前解读信息的时间间隔，默认 6 小时； <property> <name>dfs.blockreport.intervalMsec</name> <value>21600000</value> <description>Determines block reporting interval in milliseconds.</description> </property> DN 扫描自己节点块信息列表的时间，默认 6 小时 <property> <name>dfs.datanode.directoryscan.interval</name> <value>21600s</value> <description>Interval in seconds for Datanode to scan data directories and reconcile the difference between blocks in memory and on the disk. Support multiple time unit suffix(case insensitive), as described in dfs.heartbeat.interval. </description...

Tags：

[阅读全文...]

0

Redhat7.7中安装CDP DC7.0.3

发表者：admin分类：大数据2021-07-06 16:43:25 阅读[1074]

如何在Redhat7.7中安装CDP DC7.0.3 一：关于CDP DC 7.0.3 概述二：系统环境初始化三：构建CDP DC 7.0.3 一：关于CDP DC 7.0.3 概述 1.1 CDP dc 7.0.3CDP DC7.0.3是Cloudera与Hortonworks合并后，第一个融合CDH和HDP全部组件的on-premise版本，CDP Data Center主要由Cloudera Runtime构成，Cloudera Runtime由超过35个开源项目组成，固然CDP Data Center还包括其它功能如管理功能Cloudera Manager，Key Management，专业支持等，以下图所示： 1.2 Cloudera Runtime的主要组件版本以下图所示：二：系统环境初始化 2.1 系统环境介绍OS: rhel7.7x64 cat /etc/hosts --- 192.168.100.21 rhel01.flyfish 192.168.100.22 rhel02.flyfish 192.168.100.23 rhel03.flyfish 192.168.100.24 rhel04.flyfish 192.168.100.25 rhel05.flyfish 192.168.100.26 rhel06.flyfish --- 本次采用前四台机器 2.2 无密钥登陆配置作...

Tags：

[阅读全文...]

0

hadoop3.x-Yarn基础架构与工作机制

发表者：admin分类：大数据2021-05-25 09:38:07 阅读[2599]

hadoop3.x-Yarn基础架构与工作机制Yarn 基础架构YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。（1）MR 程序提交到客户端所在的节点。（2）YarnRunner 向 ResourceManager 申请一个 Application。（3）RM 将该应用程序的资源路径返回给 YarnRunner。（4）该程序将运行所需资源提交到 HDFS 上。（5）程序资源提交完毕后，申请运行 mrAppMaster。（6）RM 将用户的请求初始化成一个 Task。（7）其中一个 NodeManager 领取到 Task 任务。（8）该 NodeManager 创建容器 Container，并产生 MRAppmaster。（9）Container 从 HDFS 上拷贝资源到本地。（10）MRAppmaster 向 RM 申请运行 MapTask 资源。（11）RM 将运行 MapTask 任务分配给另外两个 NodeManager，另两个 NodeManager 分别领取任务并创建容器。（12）MR 向两个接收到任务的 NodeManager 发送程序启动脚本，这两个 NodeManager分别启动 MapTask，MapTask 对数据分区排序。（13）MrAppMaster 等待所有 MapTask 运行完毕后，向 RM 申请容器，运行 ReduceTask。（14）ReduceTask 向 MapTask 获取相应分区的数据。（15）程序运行完毕后，MR 会向 RM 申请注销自己。

Tags：

[阅读全文...]

0

Hadoop3.x 数据压缩-尚硅谷资料

发表者：admin分类：大数据2021-05-24 11:28:03 阅读[2520]

Hadoop3.x 数据压缩-尚硅谷资料

Tags：

[阅读全文...]

0

Hadoop3 NameNode 和 SecondaryNameNode工作流程原理

发表者：admin分类：大数据2021-04-28 16:52:48 阅读[3589]

Hadoop3 NameNode 和 SecondaryNameNode工作流程 NN 和 2NN 工作机制思考：NameNode 中的元数据是存储在哪里的？首先，我们做个假设，如果存储在 NameNode 节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新 FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦 NameNode 节点断电，就会产生数据丢失。因此，引入 Edits 文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到 Edits 中。这样，一旦 NameNode 节点断电，可以通过 FsImage 和 Edits 的合并，合成元数据。但是，如果长时间添加数据到 Edits 中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行 FsImage 和 Edits 的合并，如果这个操作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryName...

Tags：

[阅读全文...]

搜索

日志分类

系统导航

友情链接

最新文章

最新评论

日志同步发布到QQ微博

Centos7安装CDP/CDH7.1.1

基于Ambari搭建大数据平台

CDP/CDH 7.1.4 大数据平台搭建

Hadoop3.x 作业提交全过程-尚硅谷资料

Hadoop3.x DataNode工作机制-尚硅谷资料

相关CDH/CM资源网盘下载

Redhat7.7中安装CDP DC7.0.3

hadoop3.x-Yarn基础架构与工作机制

Hadoop3.x 数据压缩-尚硅谷资料

Hadoop3 NameNode 和 SecondaryNameNode工作流程原理

©2009-2024 Designed by 联系站长