Kubernetes 高可用(HA)集群部署指南

ztj100 2025-10-02 11:34 4 浏览 0 评论

Kubernetes 高可用（HA）集群部署指南

本指南涵盖从概念理解、架构选择，到 kubeadm 高可用部署、生产优化、监控备份和运维的全流程，适用于希望搭建稳定、生产级 Kubernetes 集群的用户。

第一部分：核心概念与架构

高可用旨在消除单点故障（SPOF），确保控制平面在部分节点宕机时仍能正常运作。

1. 高可用核心组件

组件	功能	高可用方式
kube-apiserver	集群操作入口	多副本 + 负载均衡
etcd	集群“数据库”	奇数节点集群，保证多数派（Quorum）
kube-controller-manager / kube-scheduler	通过领导者选举保证单实例生效	多副本即可，无需负载均衡

2. 高可用架构模式

模式 A：堆叠式控制平面 + etcd

每个 Master 节点运行 apiserver、etcd、controller-manager、scheduler
优点：节点少、部署简单
缺点：节点宕机可能导致 etcd 多数派丢失
适用场景：资源有限或小型生产环境

模式 B：分离式 External etcd

etcd 独立部署，与控制平面分离
优点：故障隔离好，控制平面与 etcd 相互独立
缺点：节点多，部署复杂
适用场景：对可用性要求高的大规模生产环境

本指南采用 3 节点堆叠式架构 进行演示。

第二部分：部署前准备

假设使用 6 台主机：

主机名	IP	角色
k8s-lb	192.168.1.100	负载均衡器（HAProxy + Keepalived）
k8s-master01	192.168.1.101	控制平面 & etcd
k8s-master02	192.168.1.102	控制平面 & etcd
k8s-master03	192.168.1.103	控制平面 & etcd
k8s-worker01	192.168.1.201	Worker
k8s-worker02	192.168.1.202	Worker

VIP (虚拟 IP)：192.168.1.50

节点基础配置（Master 和 Worker）

关闭防火墙和 SELinux

systemctl stop firewalld && systemctl disable firewalld
setenforce 0
sed -i 's/^SELINUX=enforcing$/SELINUX=permissive/' /etc/selinux/config

关闭 swap

swapoff -a
sed -i '/ swap / s/^\(.*\)$/#\1/g' /etc/fstab

加载内核模块 & 设置参数

cat > /etc/modules-load.d/k8s.conf << EOF
overlay
br_netfilter
EOF
modprobe overlay
modprobe br_netfilter

cat > /etc/sysctl.d/k8s.conf << EOF
net.bridge.bridge-nf-call-iptables  = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.ipv4.ip_forward                 = 1
EOF
sysctl --system

安装容器运行时 Containerd

yum install -y yum-utils device-mapper-persistent-data lvm2
yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
yum install -y containerd.io
containerd config default > /etc/containerd/config.toml
sed -i 's/SystemdCgroup = false/SystemdCgroup = true/' /etc/containerd/config.toml
systemctl enable --now containerd

安装 Kubernetes 三件套

cat > /etc/yum.repos.d/kubernetes.repo << EOF
[kubernetes]
name=Kubernetes
baseurl=https://pkgs.k8s.io/core:/stable:/v1.29/rpm/
enabled=1
gpgcheck=1
gpgkey=https://pkgs.k8s.io/core:/stable:/v1.29/rpm/repodata/repomd.xml.key
EOF
yum install -y kubeadm-1.29.4 kubelet-1.29.4 kubectl-1.29.4
systemctl enable kubelet

配置主机名解析

192.168.1.101 k8s-master01
192.168.1.102 k8s-master02
192.168.1.103 k8s-master03
192.168.1.201 k8s-worker01
192.168.1.202 k8s-worker02

第三部分：部署负载均衡器 (k8s-lb)

安装 HAProxy 和 Keepalived

yum install -y haproxy keepalived

配置 HAProxy /etc/haproxy/haproxy.cfg

frontend k8s-api
    bind *:6443
    default_backend k8s-backend

backend k8s-backend
    balance roundrobin
    server k8s-master01 192.168.1.101:6443 check
    server k8s-master02 192.168.1.102:6443 check
    server k8s-master03 192.168.1.103:6443 check

配置 Keepalived /etc/keepalived/keepalived.conf

vrrp_script chk_haproxy { script "pidof haproxy"; interval 2; weight 2 }
vrrp_instance VI_1 {
    interface ens160
    state MASTER
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication { auth_type PASS; auth_pass 1111 }
    virtual_ipaddress { 192.168.1.50/24 }
    track_script { chk_haproxy }
}

启动服务

systemctl enable --now haproxy keepalived
ip addr show   # 验证 VIP 生效

建议部署两台 LB 节点（MASTER / BACKUP）保证高可用。

第四部分：使用 kubeadm 部署 HA 集群

1. 初始化第一个 Master

kubeadm config print init-defaults > kubeadm-init.yaml

修改 kubeadm-init.yaml：

controlPlaneEndpoint: "192.168.1.50:6443"
nodeRegistration:
  criSocket: "unix:///var/run/containerd/containerd.sock"
networking:
  podSubnet: "10.244.0.0/16"
etcd:
  local:
    dataDir: /var/lib/etcd

执行初始化：

kubeadm init --config=kubeadm-init.yaml --upload-certs

配置 kubectl：

mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

2. 安装 CNI 网络插件 (Flannel)

kubectl apply -f https://github.com/flannel-io/flannel/releases/latest/download/kube-flannel.yml

3. 加入其他 Master 节点

kubeadm join 192.168.1.50:6443 --token <token> \
    --discovery-token-ca-cert-hash <hash> \
    --control-plane --certificate-key <certificate-key>

4. 加入 Worker 节点

kubeadm join 192.168.1.50:6443 --token <token> \
    --discovery-token-ca-cert-hash <hash>

第五部分：验证集群状态

kubectl get nodes -o wide          # 节点 Ready
kubectl get pods -n kube-system -o wide  # 系统 Pod Running

HA 验证：

关闭 k8s-master01
kubectl get nodes 显示 k8s-master01 NotReady，其余节点仍可调度
网络和 Pod 调度不受影响

第六部分：生产环境优化与最佳实践

1. 节点资源规划

Master：CPU ≥ 2 核，内存 ≥ 8GB，磁盘 ≥ 50GB
Worker：根据负载调整，磁盘 ≥ 100GB

2. 控制平面优化

LB 至少两台节点，VIP 高可用
etcd 数据定期备份 /var/lib/etcd 或 etcdctl snapshot save
证书默认 1 年，可用 kubeadm alpha certs renew 续期

3. 网络插件优化

Flannel 适合小集群，生产可用 Calico 或 Cilium
Pod 网段与 Service 网段不冲突
跨机房部署可用 VXLAN / BGP

4. 容器运行时优化

systemd cgroup
日志轮转，避免磁盘占满
使用镜像加速（阿里云 / 网易云）

5. 集群监控与告警

Prometheus + Grafana + Alertmanager
关注 apiserver 延迟、etcd leader 状态、kubelet 心跳丢失

6. 集群备份与恢复

ETCDCTL_API=3 etcdctl snapshot save /backup/etcd-$(date +%F).db \
    --endpoints=https://127.0.0.1:2379 \
    --cacert=/etc/kubernetes/pki/etcd/ca.crt \
    --cert=/etc/kubernetes/pki/etcd/healthcheck-client.crt \
    --key=/etc/kubernetes/pki/etcd/healthcheck-client.key

恢复：

ETCDCTL_API=3 etcdctl snapshot restore /backup/etcd-2025-09-03.db \
    --name k8s-master01 --initial-cluster k8s-master01=https://192.168.1.101:2380 \
    --initial-cluster-token etcd-cluster-1 --initial-advertise-peer-urls https://192.168.1.101:2380

7. 安全加固

RBAC 权限最小化
API Server 启用 Node,RBAC
网络策略限制 Pod 访问
Etcd TLS 加密 + IP 限制

8. 日常运维

kubectl get componentstatuses 检查控制平面
kubectl top nodes/pods 监控资源
异常排查：journalctl -xeu kubelet 或 kubectl describe pod

第七部分：扩展与升级

添加 Master 节点：kubeadm join ... --control-plane --certificate-key ...
添加 Worker 节点：kubeadm join ...
升级集群：
升级 kubeadm
kubeadm upgrade plan
分 Master 节点升级 → Worker 升级

第八部分：常见故障排查

问题	解决方法
kubelet 无法启动	检查 containerd 状态，journalctl -xeu kubelet
Pod Pending	网络插件是否安装成功
节点无法加入	token 是否过期，网络连通性，VIP 是否可达
证书问题	确认 --certificate-key 正确

总结：
通过本指南，你可以搭建一个 生产级 HA Kubernetes 集群，具备：

控制平面无单点故障
etcd 数据安全可靠
网络高可用
可监控、可备份、可扩展

linux systemctl

上一篇：Linux项目开发,你必须了解Systemd服务!
下一篇：Linux开机自启服务完全指南:3步搞定系统服务管理器配置

Kubernetes 高可用(HA)集群部署指南

Kubernetes 高可用（HA）集群部署指南

第一部分：核心概念与架构

1. 高可用核心组件

2. 高可用架构模式

模式 A：堆叠式控制平面 + etcd

模式 B：分离式 External etcd

第二部分：部署前准备

节点基础配置（Master 和 Worker）

第三部分：部署负载均衡器 (k8s-lb)

第四部分：使用 kubeadm 部署 HA 集群

1. 初始化第一个 Master

2. 安装 CNI 网络插件 (Flannel)

3. 加入其他 Master 节点

4. 加入 Worker 节点

第五部分：验证集群状态

第六部分：生产环境优化与最佳实践

1. 节点资源规划

2. 控制平面优化

3. 网络插件优化

4. 容器运行时优化

5. 集群监控与告警

6. 集群备份与恢复

7. 安全加固

8. 日常运维

第七部分：扩展与升级

第八部分：常见故障排查

相关推荐

取消回复欢迎你发表评论:

MySQL中这14个小玩意，让人眼前一亮!

旗舰机新标杆 OPPO Find X2系列正式发布售价5499元起

面试官:使用int类型做加减操作，是线程安全吗

C++编程知识:ToString()字符串转换你用正确了吗?

【Spring Boot】WebSocket 的 6 种集成方式

PyTorch 深度学习实战(26):多目标强化学习Multi-Objective RL

pytorch中的 scatter_()函数使用和详解

与 Java 17 相比，Java 21 究竟有多快?

基于TensorRT_LLM的大模型推理加速与OpenAI兼容服务优化

这一次，彻底搞懂Java并发包中的Atomic原子类

Kubernetes 高可用(HA)集群部署指南

Kubernetes 高可用（HA）集群部署指南

第一部分：核心概念与架构

1. 高可用核心组件

2. 高可用架构模式

模式 A：堆叠式控制平面 + etcd

模式 B：分离式 External etcd

第二部分：部署前准备

节点基础配置（Master 和 Worker）

第三部分：部署负载均衡器 (k8s-lb)

第四部分：使用 kubeadm 部署 HA 集群

1. 初始化第一个 Master

2. 安装 CNI 网络插件 (Flannel)

3. 加入其他 Master 节点

4. 加入 Worker 节点

第五部分：验证集群状态

第六部分：生产环境优化与最佳实践

1. 节点资源规划

2. 控制平面优化

3. 网络插件优化

4. 容器运行时优化

5. 集群监控与告警

6. 集群备份与恢复

7. 安全加固

8. 日常运维

第七部分：扩展与升级

第八部分：常见故障排查

相关推荐

取消回复欢迎 你 发表评论:

MySQL中这14个小玩意，让人眼前一亮!

旗舰机新标杆 OPPO Find X2系列正式发布 售价5499元起

面试官:使用int类型做加减操作，是线程安全吗

C++编程知识:ToString()字符串转换你用正确了吗?

【Spring Boot】WebSocket 的 6 种集成方式

PyTorch 深度学习实战(26):多目标强化学习Multi-Objective RL

pytorch中的 scatter_()函数使用和详解

与 Java 17 相比，Java 21 究竟有多快?

基于TensorRT_LLM的大模型推理加速与OpenAI兼容服务优化

这一次，彻底搞懂Java并发包中的Atomic原子类

取消回复欢迎你发表评论:

旗舰机新标杆 OPPO Find X2系列正式发布售价5499元起