解决 java.nio.channels.UnresolvedAddressException 本地连接HDFS地址解析异常 talend 本地调试作业任务时,发现连接hdfs时会报地址解析异常情况一 host没配对Hadoop集群部署在 服务器上,ip地址为192.xxx.xxx.xx修改本地hosts,加入映射192.168.1.51 hadoop51 192.168.1.52 hadoop52 192.168.1.53 hadoop53 情况二 host没配全如Hadoop集群有10台hdfs DataNode节点,需要在本地全部配好hosts才行。我一开始只配了其中前8台,出现这个问题,全部配好hosts问题解决。因为当客户端向 HDFS 发起读写请求时,NameNode 会根据目标文件的 block 存储位置返回一组相应的 datanode 节点给客户端,可以是集群中的任意节点。例如只配了01-08机器的hosts,向hdfs上传文件时,NameNode返回了三个节点(02,05,09)要求客户端写入,但是09的host没配,就会报错。情况三 talend配置问题使用talend 配置 hadoop集群时,使用数据节点主机名 ,不要打勾。
talend open studio for bit_data 配置java版本If you want to use Java 1.8 version for your Talend Open Studio. Please do following steps. 1) Install oracle Java 1.8 version.2) Copy bin location ex : C:\Program Files\Java\jdk1.7.0_45\bin.3) Go to the Talend Setup directory and open TOS_DI-win-x86_64.ini file.4) paste java location with following parameter in the TOS_DI-win-x86_64.ini file.     -vm    C:\Program Files\Java\jdk1.7.0_45\bin5) Save the file and close.
Hadoop3.2启动任务时am请求资源超yarn配置解决方案1,把Hadoop3.2基于Yarn部署到3台4G内存的vm主机上,yarn 的最小分配内存128M,最大512M 的配置会由于资源不足导致简单的任务也无法执行成功。[spug@hadoop51 data]$ hadoop jar hadoop-3.2.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.4.jar wordcount /input /wcoutput2022-08-28 21:39:09,979 INFO client.RMProxy: Connecting to ResourceManager at hadoop52/192.168.1.52:80322022-08-28 21:39:10,906 INFO mapreduce.JobResourceUploader: Disabling Erasure Coding for path: /tmp/hadoop-yarn/staging/spug/.staging/job_1661693889212_00012022-08-28 21:39:11,822 INFO input.FileInputFormat: Total input files to process : 02022-08-28 21:39:12,158 INFO mapreduce.JobSubmitter: number of splits:02022-08-28 21:39:12,500 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1661693889212_00012022-08-28 21:39:12,502 INFO mapreduce.JobSubmitter: Executing with tokens: []2022-08-28 21:39:12,785 INFO conf.Configuration: resource-types.xml not found2022-08-28 ...
Docker安装部署MySQL+Canal+Kafka+Camus+HIVE数据实时同步 因为公司业务需求要将mysql的数据实时同步到hive中,在网上找到一套可用的方案,即MySQL+Canal+Kafka+Camus+HIVE的数据流通方式,因为是首次搭建,所以暂时使用伪分布式的搭建方案。 一、安装docker 安装docker的教程网上一搜一大把,请参考: centos下docker安装教程 二、docker安装MySQL 安装教程网上也有很多,请参考: docker安装MySQL 1. 开启 Binlog 写入功能 安装完成后,要配置MySQL,开启binlog的写入功能,配置 binlog-format 为 ROW 模式,my.cnf 中配置如下:vim /etc/my.cnf[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义,不能和 canal 的 slaveId 重复#重启MySQL数据库service mysql restart 2. 创建并授权canal用户 授权 canal 连接 MySQL账号具有作为 MySQL slave的权限,如果已有账户可直接 grantCREATE USER canal IDENTIFIED BY 'canal'; GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' IDENTIFIED BY 'mypassword' WITH GRANT OPTION;#一定要刷新权限FLUSH PRIVILEGES; ...
kafka单机和集群(全分布)的安装部署过程 目录 一:安装准备 二:单机安装 三:集群安装(全分布) 一:安装准备 1.必须安装了zookeeper zookeeper安装操作:zookeeper单机和集群(全分布)的安装过程_一个人的牛牛的博客-CSDN博客 2.下载kafka  可以通过这两个网站下载想要的版本http://kafka.apache.org/downloadshttps://mirrors.tuna.tsinghua.edu.cn/apache/kafka/  或者下载和我一样的版本(我用的是kafka_2.11-2.3.1.tgz) 百度网盘地址:链接:https://pan.baidu.com/s/1uQTVMzg8E5QULQTAoppdcQ 提取码:58c5 二:单机安装 1.上传安装包 把kafka_2.11-2.3.1.tgz上传到hadoop001的/tools目录下, 直接把kafka_2.11-2.3.1.tgz拖到MobaXterm_Portable的框框里就行。 操作参考:MobaXterm_Portable的简单使用_一个人的牛牛的博客-CSDN博客 2.解压 进入/tools目录操作,我的安装包放在/tools目录下,软件放在/training目录下,没有目录的使用mkdir  /tools和mkdir /training创建,tar -zvxf kafka_2.11-2.3.1.tgz -C /training/ 3.配置环境变量vi ~/.bash_profile 添加内容:#kafka e...
Centos7下ELK+Redis日志分析平台的集群环境部署记录 之前的文档介绍了ELK架构的基础知识,日志集中分析系统的实施方案:- ELK+Redis- ELK+Filebeat - ELK+Filebeat+Redis- ELK+Filebeat+Kafka+ZooKeeper ELK进一步优化架构为EFK,其中F就表示Filebeat。Filebeat即是轻量级数据收集引擎,基于原先Logstash-fowarder 的源码改造出来。换句话说:Filebeat就是新版的 Logstash-fowarder,也会是ELK Stack在shipper端的第一选择。 这里选择ELK+Redis的方式进行部署,下面简单记录下ELK结合Redis搭建日志分析平台的集群环境部署过程,大致的架构如下: + Elasticsearch是一个分布式搜索分析引擎,稳定、可水平扩展、易于管理是它的主要设计初衷 + Logstash是一个灵活的数据收集、加工和传输的管道软件 + Kibana是一个数据可视化平台,可以通过将数据转化为酷炫而强大的图像而实现与数据的交互将三者的收集加工,存储分析和可视转化整合在一起就形成了ELK。 基本流程:1)Logstash-Shipper获取日志信息发送到redis。2)Redis在此处的作用是防止ElasticSearch服务异常导致丢失日志,提供消息队列的作用。[注意:缓存到redis里的日志被输送到elasticsearch之后,在redis里的对应db库里...
Redis哨兵模式(sentinel)学习总结及部署记录(主从复制、读写分离、主从切换) Redis的集群方案大致有三种:1)redis cluster集群方案;2)master/slave主从方案;3)哨兵模式来进行主从替换以及故障恢复。 一、sentinel哨兵模式介绍Sentinel(哨兵)是用于监控redis集群中Master状态的工具,是Redis 的高可用性解决方案,sentinel哨兵模式已经被集成在redis2.4之后的版本中。sentinel是redis高可用的解决方案,sentinel系统可以监视一个或者多个redis master服务,以及这些master服务的所有从服务;当某个master服务下线时,自动将该master下的某个从服务升级为master服务替代已下线的master服务继续处理请求。 sentinel可以让redis实现主从复制,当一个集群中的master失效之后,sentinel可以选举出一个新的master用于自动接替master的工作,集群中的其他redis服务器自动指向新的master同步数据。一般建议sentinel采取奇数台,防止某一台sentinel无法连接到master导致误切换。其结构如下: Redis-Sentinel是Redis官方推荐的高可用性(HA)解决方案,当用Redis做Master-slave的高可用方案时,假如master宕机了,Redis本身(包括它的很多客户端)都没有实现自动进行主备切换,而Re...
kafka 基础知识梳理及集群环境部署记录 一、kafka基础介绍 0. kakfa概述 Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica)开源消息系统,由Scala写成,是由Apache软件基金会开发的一个开源消息系统项目,该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。kafka基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedin于2010年贡献给了Apache基金会并成为顶级开源 项目。 kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。无论是kafka集群,还是producer和consumer都依赖于zookeeper集群保存一些meta信息,来保证系统可用性 kafka是一种高吞吐量的分布式发布订阅消息系统,它可以...
RocketMQ 简单梳理 及 集群部署笔记 一、RocketMQ 基础知识介绍Apache RocketMQ是阿里开源的一款高性能、高吞吐量、队列模型的消息中间件的分布式消息中间件。 上图是一个典型的消息中间件收发消息的模型,RocketMQ也是这样的设计,简单说来RocketMQ具有以下特点:1)是一个队列模型的消息中间件,具有高性能、高可靠、高实时、分布式特点。2)Producer、Consumer、队列都可以分布式。3)Producer向一些队列轮流发送消息,队列集合称为Topic,Consumer如果做广播消费,则一个consumer实例消费这个Topic对应的所有队列,如果做集群消费,则多个Consumer实例平均消费这个topic对应的队列集合。4)支持严格的消息顺序;5)提供丰富的消息拉取模式6)高效的订阅者水平扩展能力7)实时的消息订阅机制8)亿级消息堆积能力9)较少的依赖10)支持Topic与Queue两种模式;11)同时支持Push与Pull方式消费消息; 消息队列的应用场景1)异步处理将不是必须的业务逻辑,进行异步处理,比如注册之后短信、邮箱的发送 2)应用解耦订单系统:用户下单后,订单系统完成持久化处理,将消息写入消息队列,返回用户订单下单成功。库存系统:订阅下单的消息,采用拉/推的方式,获取下单信息,库存...
Centos7下GlusterFS分布式存储集群环境部署记录 之前已经简单地对GlusterFS分布式文件系统做了介绍,下面就该环境部署做一记录: 0)环境准备 GlusterFS至少需要两台服务器搭建,服务器配置最好相同,每个服务器两块磁盘,一块是用于安装系统,一块是用于GlusterFS。 192.168.10.239 GlusterFS-master(主节点) Centos7.4 192.168.10.212 GlusterFS-slave (从节点) Centos7.4 192.168.10.213 Client (客户端) ---------------------------------------------------------------------------------------- 由于GlusterFS需要使用网络,因此还必须事先根据环境设置防火墙规则,关闭SELinux。 这里我将上面三台服务器的防火墙和Selinux全部关闭 [root@GlusterFS-master ~]# setenforce 0 [root@GlusterFS-master ~]# getenforce [root@GlusterFS-master ~]# cat /etc/sysconfig/selinux |grep "SELINUX=disabled" SELINUX=disabled [root@GlusterFS-master ~]# systemctl stop firewalld [root@GlusterFS-master ~]# systemctl disable firewalld [root@GlusterFS-master ~]# firewall-cmd --state not running...
Redis+Keepalived高可用环境部署记录  Keepalived 实现VRRP(虚拟路由冗余)协议,从路由级别实现VIP切换,可以完全避免类似heartbeat脑裂问题,可以很好的实现主从、主备、互备方案,尤其是无状态业务,有状态业务就需要额外花些功夫了。既然Mysql可以使用Keepalived很好的做到主从切换,那么Redis自然可以使用这种方式实现高可用。 Redis主从实现完全没有Mysql成熟,仅仅是可用而已,经过测试主从也不是那么完全不靠谱,主要问题在于同步连接断开之后需要重新全量同步,如果频繁进行会对主服务带来很大性能影响。 但现实中主从机器往往要求放在一个机柜同一台交换设备下,网络闪断情况极低;再者主从同步在同步数量量大情况下,需要将缓存区调得足够大,不然也容易造成连接断开。实现切换逻辑如下:A和B两台机器1)A 、B机器依次启动,A机作为主、B机为从。2)主A机挂掉,B机接管业务并作为主。3)A机起来,作为从SLAVEOF B。4)B机挂掉,A机再切回主。 在Keepalived 有两个角色:Master(一个)、Backup(多个),如果设置一个为Master,但Master挂了后再起来,必然再次业务又一次切换,这对于有状态服务是不可接受的。解决方案就是两台机器都设置为Backup,而且优先级...
  一、分布式文件系统介绍分布式文件系统:Distributed file system, DFS,又叫做网络文件系统:Network File System。一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。特点:在一个分享的磁盘文件系统中,所有节点对数据存储区块都有相同的访问权,在这样的系统中,访问权限就必须由客户端程序来控制。分布式文件系统可能包含的功能有:透通的数据复制与容错。分布式文件系统是被设计用在局域网。而分布式数据存储,则是泛指应用分布式运算技术的文件和数据库等提供数据存储服务的系统。决定因素:数据的存储方式、数据的读取速率、数据的安全机制。发展历史:大致分为三个发展阶段,网络文件系统(1980s)、共享SAN文件系统(1990s)、面向对象的并行文件系统(2000s)。 二、FastDFS分布式系统架构介绍FastDFS:是一个开源的轻量级分布式文件系统,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合中小文件(建议范围:4KB < file_size <500MB),对以文件为载体的在线服务,如相册网站、视频网站等。 FastDFS是为互联网应用量身定做的分布式文件系统,充分...
 
0
  一、Ceph简单介绍OSDs:Ceph的OSD守护进程(OSD)存储数据,处理数据复制,恢复,回填,重新调整,并通过检查其它Ceph OSD守护程序作为一个心跳 向Ceph的监视器报告一些检测信息。Ceph的存储集群需要至少2个OSD守护进程来保持一个 active + clean状态.(Ceph默认制作2个备份,但可以调整它)Monitors:Ceph的监控保持集群状态映射,包括OSD(守护进程)映射,分组(PG)映射,和CRUSH映射。 Ceph 保持一个在Ceph监视器, Ceph OSD 守护进程和 PG的每个状态改变的历史(称之为“epoch”)。MDS:MDS是Ceph的元数据服务器,代表存储元数据的Ceph文件系统(即Ceph的块设备和Ceph的对象存储不使用MDS)。Ceph的元数据服务器使用POSIX文件系统,用户可以执行基本命令如 ls, find,等,并且不需要在Ceph的存储集群上造成巨大的负载。 Ceph把客户端的数据以对象的形式存储到了存储池里。利用CRUSH算法,Ceph可以计算出安置组所包含的对象,并能进一步计算出Ceph OSD集合所存储的安置组。CRUSH算法能够使Ceph存储集群拥有动态改变大小、再平衡和数据恢复的能力。 二、Ceph存储特点Object:有原生的API,而且也兼容Swift和S3的APIBlock:支持精简配置、快照、克隆File:Posix接口,支持...
 
0

Flume的安装及使用

发表者:admin分类:大数据2021-11-12 10:52:17 阅读[644]
Flume的安装及使用 目录 Flume的安装及使用 Flume的安装 1、上传至虚拟机,并解压 2、重命名目录,并配置环境变量 3、查看flume版本 4、测试flume 5、flume的使用 Flume的安装 1、上传至虚拟机,并解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/ 在环境变量中增加如下命令,可以使用 soft 快速切换到 /usr/local/soft alias soft='cd /usr/local/soft/' 2、重命名目录,并配置环境变量 mv apache-flume-1.9.0-bin/ flume-1.9.0 vim /etc/profile source /etc/profile 3、查看flume版本 flume-ng version [root@master soft]# flume-ng version Flume 1.9.0 Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git Revision: d4fcab4f501d41597bc616921329a4339f73585e Compiled by fszabo on Mon Dec 17 20:45:25 CET 2018 From source with checksum 35db629a3bda49d23e9b3690c80737f9 [root@master soft]# 4、测试flume 监控一个目录,将数据打印出来 配置文件 # 首先先给agent起一个名字 叫a1 # 分别给source channel sink取名字 a1....
 
0

CentOS 7 GlusterFS安装使用

发表者:admin分类:大数据2021-11-12 10:51:00 阅读[615]
CentOS 7 GlusterFS   环境说明: 3台机器安装 GlusterFS 组成一个集群。 使用 docker volume plugin GlusterFS 服务器: 10.6.0.140 10.6.0.192 10.6.0.196 配置 hosts 10.6.0.140 swarm-manager 10.6.0.192 swarm-node-1 10.6.0.196 swarm-node-2 client: 10.6.0.94 node-94 安装: CentOS 安装 glusterfs 非常的简单 在三个节点都安装glusterfs yum install centos-release-gluster yum install -y glusterfs glusterfs-server glusterfs-fuse glusterfs-rdma 配置 GlusterFS 集群: 启动 glusterFS systemctl start glusterd.service systemctl enable glusterd.service 在 swarm-manager 节点上配置,将 节点 加入到 集群中。 [root@swarm-manager ~]#gluster peer probe swarm-managerpeer probe: success. Probe on localhost not needed [root@swarm-manager ~]#gluster peer probe swarm-node-1peer probe: success. [root@swarm-manager ~]#gluster peer probe swarm-node-2peer probe: success. 查看集群状态: [root@swarm-manager ~]#gluster peer statusNumber of Peers: 2 Hostname: swarm-node-1Uuid: 41573e8b-eb00-4802-8...
    总共6页,当前第1页 | 页数:
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6