【Kafka】介绍与安装

创始人

2025-06-01 18:02:33

0次

定义

Kafka

消息队列

消息队列的应用场景

消息队列的两种模式

Kafka框架

安装

集群规划

配置文件

环境变量

启动

关闭

集群启停脚本

注意：

来源：

定义

Kafka

Kafka传统定义：Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。 Kafka最新定义： Kafka是一个开源的分布式事件流平台（Event Streaming Platform），被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。发布/订阅：消息的发布者不会将消息直接发送给特定的订阅者，而是将发布的消息分为不同的类别，订阅者只接收感兴趣的消息。

消息队列

目前企业中比较常见的消息队列产品主要有 Kafka、ActiveMQ 、RabbitMQ 、 RocketMQ 等。在大数据场景主要采用 Kafka 作为消息队列。在 JavaEE 开发中主要采用 ActiveMQ、 RabbitMQ、RocketMQ。

消息队列的应用场景

缓存/消峰、解耦和异步通信。 缓冲/消峰：有助于控制和优化数据流经过系统的速度，解决生产消息和消费消息的处理速度不一致的情况。 解耦：允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。 异步通信：允许用户把一个消息放入队列，但并不立即处理它，然后在需要的时候再去处理它们。

消息队列的两种模式

Kafka框架

2.8.0之后有模式可以不用zookeeper。

（1）Producer：消息生产者，就是向 Kafka broker 发消息的客户端。（2）Consumer：消息消费者，向 Kafka broker 取消息的客户端。（3）Consumer Group（CG）：消费者组，由多个 consumer 组成。消费者组内每个消 费者负责消费不同分区的数据，一个分区只能由一个组内消费者消费；消费者组之间互不 影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。（4）Broker：一台 Kafka 服务器就是一个 broker。一个集群由多个 broker 组成。一个 broker 可以容纳多个 topic。（5）Topic：可以理解为一个队列，生产者和消费者面向的都是一个 topic。（6）Partition：为了实现扩展性，一个非常大的 topic 可以分布到多个 broker（即服务器）上，一个 topic 可以分为多个 partition，每个 partition 是一个有序的队列。（7）Replica：副本。一个 topic 的每个分区都有若干个副本，一个 Leader 和若干个 Follower。（8）Leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是 Leader。（9）Follower：每个分区多个副本中的“从”，实时从 Leader 中同步数据，保持和 Leader 数据的同步。Leader 发生故障时，某个 Follower 会成为新的 Leader。

安装

集群规划

http://kafka.apache.org/downloads.html

配置文件

tar -zxvf kafka_2.12-3.0.0.tgz -C /opt/module/
cd config/
vim server.properties

配置文件只改三个地方

#broker 的全局唯一编号，不能重复，只能是数字。 broker.id=0 #kafka 运行日志(数据)存放的路径，路径不需要提前创建，kafka 自动帮你创建，可以配置多个磁盘路径，路径与路径之间可以用"，"分隔 log.dirs=/opt/module/kafka/datas #配置连接 Zookeeper 集群地址（在 zk 根目录下创建/kafka，方便管理） zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/ka fka

#broker 的全局唯一编号，不能重复，只能是数字。
broker.id=0
#处理网络请求的线程数量
num.network.threads=3
#用来处理磁盘 IO 的线程数量
num.io.threads=8
#发送套接字的缓冲区大小
socket.send.buffer.bytes=102400
#接收套接字的缓冲区大小
socket.receive.buffer.bytes=102400
#请求套接字的缓冲区大小
socket.request.max.bytes=104857600
#kafka 运行日志(数据)存放的路径，路径不需要提前创建，kafka 自动帮你创建，可以
配置多个磁盘路径，路径与路径之间可以用"，"分隔
log.dirs=/opt/module/kafka/datas
#topic 在当前 broker 上的分区个数
num.partitions=1
#用来恢复和清理 data 下数据的线程数量
num.recovery.threads.per.data.dir=1
# 每个 topic 创建时的副本数，默认时 1 个副本
offsets.topic.replication.factor=1
#segment 文件保留的最长时间，超时将被删除
log.retention.hours=168
#每个 segment 文件的大小，默认最大 1G
log.segment.bytes=1073741824
# 检查过期数据的时间，默认 5 分钟检查一次是否数据过期
log.retention.check.interval.ms=300000
#配置连接 Zookeeper 集群地址（在 zk 根目录下创建/kafka，方便管理）
zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181/ka
fka

分发配置文件

修改其他两台节点的配置文件

修改配置文件/opt/module/kafka/config/server.properties 中的 broker.id=1、broker.id=2 broker.id 不得重复，整个集群中唯一。

环境变量

sudo vim /etc/profile.d/my_env.sh

#KAFKA_HOME
export KAFKA_HOME=/opt/module/kafka
export PATH=$PATH:$KAFKA_HOME/bin

source /etc/profile

分发

sudo /home/atguigu/bin/xsync /etc/profile.d/my_env.sh

启动

先启动 Zookeeper 集群，然后启动 Kafka。

zk.sh start

bin/kafka-server-start.sh -daemon config/server.properties

-daemon是后台挂起

关闭

bin/kafka-server-stop.sh

集群启停脚本

cd /home/atguigu/bin

vim kf.sh

#! /bin/bash
case $1 in
"start"){for i in hadoop102 hadoop103 hadoop104doecho " --------启动 $i Kafka-------"        ssh $i "/opt/module/kafka_2.12-3.0.0/bin/kafka-server-start.sh -daemon /opt/module/kafka_2.12-3.0.0/config/server.properties"done
};;
"stop"){for i in hadoop102 hadoop103 hadoop104doecho " --------停止 $i Kafka-------"ssh $i "/opt/module/kafka_2.12-3.0.0/bin/kafka-server-stop.sh "done
};;
esac

chmod +x kf.sh

启动

 kf.sh start

停止

kf.sh stop

注意：

停止 Kafka 集群时，一定要等 Kafka 所有节点进程全部停止后再停止 Zookeeper

集群。因为 Zookeeper 集群当中记录着 Kafka 集群相关信息，Zookeeper 集群一旦先停止， Kafka 集群就没有办法再获取停止进程的信息，只能手动杀死 Kafka 进程了。

来源：

尚硅谷

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：labview数据类型转换字符串文件路径进制转换小数格式等

下一篇：【每天学习一点点】SPI机制、Springboot自动配置、nacos插件机制以及使用Spring-plugin策略模式

【Kafka】介绍与安装

定义

Kafka

消息队列

消息队列的应用场景

消息队列的两种模式

Kafka框架

安装

集群规划

配置文件

环境变量

启动

关闭

集群启停脚本

注意：

来源：

相关内容

热门资讯