0

尚硅谷YYDS (课件资料)

发表者:admin分类:大数据2024-02-02 12:42:54 阅读[107]
尚硅谷YYDS (课件资料)面试大保健链接:https://pan.baidu.com/s/1duUHb4AwOnW9jycDnUCRVA提取码:undf尚硅谷大数据技术之 StarRocks链接:https://pan.baidu.com/s/1mrW115g6fp_rb-BK9e1lcg提取码:yrh7尚硅谷大数据技术之数据湖 Hudi链接:https://pan.baidu.com/s/1tSR8wVo6ZjZCEmgYA3--Fg提取码:mi3d尚硅谷大数据技术之 Doris链接:https://pan.baidu.com/s/1zKC8DWdV8KhLzSH3Wf6v-w提取码:za93尚硅谷大数据技术之数据湖 Iceberg链接:https://pan.baidu.com/s/1ad6jaqWlTcMfsqNBxaRmvg提取码:w1ru尚硅谷大数据之 CDH6.3.2 安装链接:https://pan.baidu.com/s/1gnTJBm51_dDDLyzeq6HxWg提取码:b97t尚硅谷大数据技术之流批一体 Streamxmx链接:https://pan.baidu.com/s/1wc3iD7zO_-bKsWykpB4bog提取码:cj3i尚硅谷大数据技术之 Linux链接:https://pan.baidu.com/s/1_y1wtOO3b3vFSWOQjCnB5Q提取码:1ahq尚硅谷大数据技术之 Shell链接:https://pan.baidu.com/s/1CHbBvXlrNc2BAl7Bzp0O0Q提取码:11x2尚硅谷大数据技术之 Hadoop链接:https://pan.baidu.com/s/1XzrB7USWcwX1bIVC8MKPeQ提取码:xoor尚硅谷大数据技术之 Zookeeper链接:https://pan.baidu.com/s/1rMEhbYJ9d...
Openeuler2203系统zookeeper+kafka集群部署一,具体环境 1,云主机前三台用来安装zookeeper-3.9.1与kafka_2.13-3.6.1,Java 采用JAVA-11-openjdk版本192.168.0.11 ecs-0001 192.168.0.12 ecs-0002 192.168.0.13 ecs-0003 192.168.0.14 ecs-0004注意: kafka新版本可以使用kraft配置文件,不再需要zookeeper。2,目录信息 /data/kafka 用来存放kafka文件 /data/zookeeper 用来存放zookeeper文件/data/bin 用来存放启动脚本二,部署步骤1,主机环境配置# 主机免密 ssh-keygenfor i in {11..14};do ssh-copy-id 192.168.0.${i};done# 安装java-11for i in {11..14};do ssh 192.168.0.${i} "yum install -y java-11";done#配置hostsfor i in {1..4};do ssh 192.168.0.1${i} "sed -i '3d' /etc/hosts";donefor i in {1..4};do ssh 192.168.0.1${i} "echo "192.168.0.11  ecs-0001" >> /etc/hosts";donefor i in {1..4};do ssh 192.168.0.1${i} "echo "192.168.0.12  ecs-0002" >> /etc/hosts";donefor i in {1..4};do ssh 192.168.0.1${i} "echo "192.168.0.13  ecs-0003"...
解决 java.nio.channels.UnresolvedAddressException 本地连接HDFS地址解析异常 talend 本地调试作业任务时,发现连接hdfs时会报地址解析异常情况一 host没配对Hadoop集群部署在 服务器上,ip地址为192.xxx.xxx.xx修改本地hosts,加入映射192.168.1.51 hadoop51 192.168.1.52 hadoop52 192.168.1.53 hadoop53 情况二 host没配全如Hadoop集群有10台hdfs DataNode节点,需要在本地全部配好hosts才行。我一开始只配了其中前8台,出现这个问题,全部配好hosts问题解决。因为当客户端向 HDFS 发起读写请求时,NameNode 会根据目标文件的 block 存储位置返回一组相应的 datanode 节点给客户端,可以是集群中的任意节点。例如只配了01-08机器的hosts,向hdfs上传文件时,NameNode返回了三个节点(02,05,09)要求客户端写入,但是09的host没配,就会报错。情况三 talend配置问题使用talend 配置 hadoop集群时,使用数据节点主机名 ,不要打勾。
talend open studio for bit_data 配置java版本If you want to use Java 1.8 version for your Talend Open Studio. Please do following steps. 1) Install oracle Java 1.8 version.2) Copy bin location ex : C:\Program Files\Java\jdk1.7.0_45\bin.3) Go to the Talend Setup directory and open TOS_DI-win-x86_64.ini file.4) paste java location with following parameter in the TOS_DI-win-x86_64.ini file.     -vm    C:\Program Files\Java\jdk1.7.0_45\bin5) Save the file and close.
Hadoop3.2启动任务时am请求资源超yarn配置解决方案1,把Hadoop3.2基于Yarn部署到3台4G内存的vm主机上,yarn 的最小分配内存128M,最大512M 的配置会由于资源不足导致简单的任务也无法执行成功。[spug@hadoop51 data]$ hadoop jar hadoop-3.2.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar wordcount /input /wcoutput2022-08-28 21:39:09,979 INFO client.RMProxy: Connecting to ResourceManager at hadoop52/192.168.1.52:80322022-08-28 21:39:10,906 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/spug/.staging/job_1661693889212_00012022-08-28 21:39:11,822 INFO input.FileInputFormat: Total input files to process : 02022-08-28 21:39:12,158 INFO mapreduce.JobSubmitter: number of splits:02022-08-28 21:39:12,500 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1661693889212_00012022-08-28 21:39:12,502 INFO mapreduce.JobSubmitter: Executing with tokens: []2022-08-28 21:39:12,785 INFO conf.Configuration: resource-types.xml not found2022-08-28 ...
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步 因为公司业务需求要将mysql的数据实时同步到hive中,在网上找到一套可用的方案,即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式,因为是首次搭建,所以暂时使用伪分布式的搭建方案。 一、安装docker 安装docker的教程网上一搜一大把,请参考: centos下docker安装教程 二、docker安装MySQL 安装教程网上也有很多,请参考: docker安装MySQL 1. 开启 Binlog 写入功能 安装完成后,要配置MySQL,开启binlog的写入功能,配置 binlog-format 为 ROW 模式,my.cnf 中配置如下:vim /etc/my.cnf[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义,不能和 canal 的 slaveId 重复#重启MySQL数据库service mysql restart 2. 创建并授权canal用户 授权 canal 连接 MySQL账号具有作为 MySQL slave的权限,如果已有账户可直接 grantCREATE USER canal IDENTIFIED BY 'canal'; GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' IDENTIFIED BY 'mypassword' WITH GRANT OPTION;#一定要刷新权限FLUSH PRIVILEGES; ...
kafka单机和集群(全分布)的安装部署过程 目录 一:安装准备 二:单机安装 三:集群安装(全分布) 一:安装准备 1.必须安装了zookeeper zookeeper安装操作:zookeeper单机和集群(全分布)的安装过程_一个人的牛牛的博客-CSDN博客 2.下载kafka  可以通过这两个网站下载想要的版本http://kafka.apache.org/downloadshttps://mirrors.tuna.tsinghua.edu.cn/apache/kafka/  或者下载和我一样的版本(我用的是kafka_2.11-2.3.1.tgz) 百度网盘地址:链接:https://pan.baidu.com/s/1uQTVMzg8E5QULQTAoppdcQ 提取码:58c5 二:单机安装 1.上传安装包 把kafka_2.11-2.3.1.tgz上传到hadoop001的/tools目录下, 直接把kafka_2.11-2.3.1.tgz拖到MobaXterm_Portable的框框里就行。 操作参考:MobaXterm_Portable的简单使用_一个人的牛牛的博客-CSDN博客 2.解压 进入/tools目录操作,我的安装包放在/tools目录下,软件放在/training目录下,没有目录的使用mkdir  /tools和mkdir /training创建,tar -zvxf kafka_2.11-2.3.1.tgz -C /training/ 3.配置环境变量vi ~/.bash_profile 添加内容:#kafka e...
Centos7下ELK+Redis日志分析平台的集群环境部署记录 之前的文档介绍了ELK架构的基础知识,日志集中分析系统的实施方案:- ELK+Redis- ELK+Filebeat - ELK+Filebeat+Redis- ELK+Filebeat+Kafka+ZooKeeper ELK进一步优化架构为EFK,其中F就表示Filebeat。Filebeat即是轻量级数据收集引擎,基于原先Logstash-fowarder 的源码改造出来。换句话说:Filebeat就是新版的 Logstash-fowarder,也会是ELK Stack在shipper端的第一选择。 这里选择ELK+Redis的方式进行部署,下面简单记录下ELK结合Redis搭建日志分析平台的集群环境部署过程,大致的架构如下: + Elasticsearch是一个分布式搜索分析引擎,稳定、可水平扩展、易于管理是它的主要设计初衷 + Logstash是一个灵活的数据收集、加工和传输的管道软件 + Kibana是一个数据可视化平台,可以通过将数据转化为酷炫而强大的图像而实现与数据的交互将三者的收集加工,存储分析和可视转化整合在一起就形成了ELK。 基本流程:1)Logstash-Shipper获取日志信息发送到redis。2)Redis在此处的作用是防止ElasticSearch服务异常导致丢失日志,提供消息队列的作用。[注意:缓存到redis里的日志被输送到elasticsearch之后,在redis里的对应db库里...
Redis哨兵模式(sentinel)学习总结及部署记录(主从复制、读写分离、主从切换) Redis的集群方案大致有三种:1)redis cluster集群方案;2)master/slave主从方案;3)哨兵模式来进行主从替换以及故障恢复。 一、sentinel哨兵模式介绍Sentinel(哨兵)是用于监控redis集群中Master状态的工具,是Redis 的高可用性解决方案,sentinel哨兵模式已经被集成在redis2.4之后的版本中。sentinel是redis高可用的解决方案,sentinel系统可以监视一个或者多个redis master服务,以及这些master服务的所有从服务;当某个master服务下线时,自动将该master下的某个从服务升级为master服务替代已下线的master服务继续处理请求。 sentinel可以让redis实现主从复制,当一个集群中的master失效之后,sentinel可以选举出一个新的master用于自动接替master的工作,集群中的其他redis服务器自动指向新的master同步数据。一般建议sentinel采取奇数台,防止某一台sentinel无法连接到master导致误切换。其结构如下: Redis-Sentinel是Redis官方推荐的高可用性(HA)解决方案,当用Redis做Master-slave的高可用方案时,假如master宕机了,Redis本身(包括它的很多客户端)都没有实现自动进行主备切换,而Re...
kafka 基础知识梳理及集群环境部署记录 一、kafka基础介绍 0. kakfa概述 Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica)开源消息系统,由Scala写成,是由Apache软件基金会开发的一个开源消息系统项目,该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。kafka基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。 kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性 kafka是一种高吞吐量的分布式发布订阅消息系统,它可以...
    总共9页,当前第1页 | 页数:
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
  8. 8
  9. 9