Keepalived是Linux下一个轻量级别的高可用解决方案，快来浅了解下

白开水~不加糖 2024-09-02 17:07:03 阅读 72

企业应用中，单台服务器承担应用存在单点故障的危险单点故障一旦发生，企业服务将发生中断，造成极大的危害

一、Keepalive基础

1.1 vrrp技术

1.2 VRRP相关技术

二、keepalived介绍

2.1keepalived工具介绍--------专为LVS和HA设计的一款健康检查工具

2.2Keepalived实现原理剖析

2.3Keepalived、VRRP及其工作原理

2.4 Keepalived 架构

2.5安装keepalive

2.6 Keepalived 相关文件

2.6.1 配置组成

2.6.2 全局配置

搭建LVS+KEEPALIVED高可用群集

（一）两台节点服务器（web1、web2）的配置

（二）7-1 LVS四层代理的master主配置

（三）7-2 LVS四层代理的backup备配置

（四）去浏览器访问检测:

（五）成功了

2.6.3配置虚拟路由器

2.6.3.1各种模式

①默认模式抢占式

②非抢占式

③延迟抢占

2.6.3.2 单播多播地址

①修改多播：

②修改单播:

2.6.3.3 通知脚本

2.6.3.4 日志功能

三、脑裂介绍

①什么是脑裂？

②都有哪些原因导致脑裂？

③模拟脑裂？

④如何解决keepalived脑裂问题？

⑤做好对脑裂的监控报警解决常见方案：

四、实现其它应用的高可用性 VRRP Script

4.1VRRP Script 配置

4.2 定义 VRRP script

4.3 keepalived利用 VRRP Script 技术，从而实现nginx高可用性功能

企业应用中，单台服务器承担应用存在单点故障的危险单点故障一旦发生，企业服务将发生中断，造成极大的危害

一、Keepalive基础

1.1 vrrp技术

虚拟路由器：Virtual Router 不是真实存在，虚构出来的

虚拟路由器标识：VRID(0-255)，唯一标识虚拟路由器

VIP：Virtual IP 192.168.91.100 路由1 路由2

VMAC：Virutal MAC (00-00-5e-00-01-VRID)（虚拟mac）

物理路由器：

master：主设备

backup：备用设备

priority：优先级

网络vrrp那章已详细说明

状态机心跳线： 1s

虚拟路由器的主备是由priority：优先级决定的

1.2 VRRP相关技术

安全认证：

无认证

简单字符认证：预共享密钥

MD5

工作模式：

主/备：单虚拟路径器

主/主：主/备（虚拟路由器1），备/主（虚拟路由器2）

工作方式：抢占式，非抢占式，延迟抢占模式

<code>#通告：

是宣告自己的主权，不要妄想抢班夺权，不停的向外

#抢占式：

主服务器宕机，过了一段时间修好了，再把主权抢过来

#非抢占式：

主服务器宕机，过了一段时间修好了，原来的主就作为备了

#延迟抢占：

主修好后，等待一定的时间（300s）后再次成为主

#安全认证：

如没有安全认证，不在集群中的keeplive服务器设置超高的优先级，会造成事故

#主/主：主/备（虚拟路由器1），备/主（虚拟路由器2）

环境：

有两台服务器

虚拟出两台虚拟路由器

第一台虚拟路由器中服务器1为主，服务器2为备，那么虚拟IP1就飘在服务器1上，真正工作的只有服务器1

第二台虚拟路由器中服务器2为主，服务器1为备，那么虚拟IP2就飘在服务器2上，真正工作的只有服务器2

优点：

#提高了资源利用率：

这样主，备服务器同时干活，可以同时运行两个项目

#同样有备份功能：

如果服务器1坏了，服务器2 将同时拥有虚拟IP1和虚拟IP2

缺点：

虽然有备份冗余功能但是对机器的性能要求非常高，当其中一台出现故障，本来一台运行一个任务，现在所有的业务全部压在了一台上，有十分大的风险。

二、keepalived介绍

企业应用中，单台服务器承担应用存在单点故障的危险单点故障一旦发生，企业服务将发生中断，造成极大的危害

功能：

基于vrrp协议完成地址流动

为vip地址所在的节点生成ipvs规则(在配置文件中预先定义)

为ipvs集群的各RS做健康状态检测

基于脚本调用接口完成脚本中定义的功能，进而影响集群事务，以此支持nginx、haproxy等服务

2.1keepalived工具介绍--------专为LVS和HA设计的一款健康检查工具

①支持故障自动切换(Failover)

②支持节点健康状态检查(Health Checking)

判断LVS负载调度器、节点服务器的可用性，当master主机出现故障及时切换到backup 节点保证业务正常，当master故障主机恢复后将其重新加入群集并且业务重新切换回master节点。

2.2Keepalived实现原理剖析

Keepalived采用VRRP热备份协议实现Linux服务器的多机热备功能

VRRP(虚拟路由冗余协议)是针对路由器的一种备份解决方案

由多台路由器组成一个热备组，通过共用的虚拟IP地址对外提供服务每个热备组内同时只有一台主路由器提供服务，其他路由器处于冗余状态若当前在线的路由器失效，则其他路由器会根据设置的优先级自动接替虚拟IP地址，继续提供服务

VRRP工作过程

选举Master，比较优先级，高的为Master，若优先级相同无Master时，比较接口IP地址，大的为Master，Master设备发送ARP报文，承担报文转发工作；

状态维持，Master设备周期发送通告报文，公布配置信息和工作状态；

Backup设备根据收到的通告报文判断Master设备是否工作正常，如果Master设备主动放弃Master地位时，会发送优先级为0的通告报文，Backup设备收到后会快速切换成Master设备或者定时器超时后Backup设备认为Master设备无法正常工作，会切换状态为Master。

2.3Keepalived、VRRP及其工作原理

Keepalived是一个基于VRRP协议来实现的LVS服务高可用方案，可以解决静态路由出现的单点故障问题。

在一个LVS服务集群中通常有主服务器（MASTER）和备份服务器（BACKUP）两种角色的服务器，但是对外表现为一个虚拟IP。主服务器会发送VRRP通告信息给备份服务器，当备份服务器收不到VRRP消息的时候，即主服务器异常的时候，备份服务器就会接管虚拟IP，继续提供服务，从而保证了高可用性

2.4 Keepalived 架构

官方文档：

https://keepalived.org/doc/

http://keepalived.org/documentation.html

用户空间核心组件：

vrrp stack：VIP消息通告虚拟ip

checkers：监测real server（简单来说就是监控后端真实服务器的服务）是否存活

system call：实现 vrrp 协议状态转换时调用脚本的功能

SMTP：邮件组件（报警邮件）

IPVS wrapper：生成IPVS规则（直接生成ipvsadm）

Netlink Reflector：网络接口（将虚拟地址ip（vip）地址飘动）

WatchDog：监控进程（整个架构是否有问题）

控制组件：提供keepalived.conf 的解析器，完成Keepalived配置

IO复用器：针对网络目的而优化的自己的线程抽象

内存管理组件：为某些通用的内存管理功能（例如分配，重新分配，发布等）提供访问权限

keeplive可以配合ngnix等软件，反向代理

keepalived体系架构中主要有三个模块，分别是core、check和vrrp。

core模块：为keepalived的核心，负责主进程的启动、维护及全局配置文件的加载和解析。

vrrp模块：是来实现VRRP协议的。

check模块：负责健康检查，常见的方式有端口检查及URL检查

2.5安装keepalive

<code>[root@zzzcentos1 ~]#yum install keepalived.x86_64 -y

2.6 Keepalived 相关文件

软件包名：keepalived

主程序文件：/usr/sbin/keepalived

主配置文件：/etc/keepalived/keepalived.conf

配置文件示例：/usr/share/doc/keepalived/

Unit File：/lib/systemd/system/keepalived.service

Unit File的环境配置文件：/etc/sysconfig/keepalived CentOS

2.6.1 配置组成

/etc/keepalived/keepalived.conf 配置组成

GLOBAL CONFIGURATION

Global definitions（全局配置）：定义邮件配置，route_id，vrrp配置，组播地址等

VRRP CONFIGURATION

VRRP instance(s)：定义vrrp协议中的每个vrrp虚拟路由器的规则，基本信息

LVS CONFIGURATION（lvs调度服务器的规则设置）

Virtual server group(s)

Virtual server(s)：LVS集群的VS和RS

2.6.2 全局配置

#/etc/keepalived/keepalived.conf

global_defs {

notification_email {

root@localhost

#keepalived 发生故障切换时邮件发送的目标邮箱，可以按行区分写多个

root@localhost

360601212@qq.com

}

notification_email_from keepalived@localhost

#发邮件的地址

smtp_server 127.0.0.1

#邮件服务器地址

smtp_connect_timeout 30

#邮件服务器连接timeout

router_id R1

#每个keepalived主机唯一标识，建议使用当前主机名，但多节点重名不影响

vrrp_skip_check_adv_addr

#对所有通告报文都检查，会比较消耗性能，启用此配置后，如果收到的通告报文和上一个报文是同一个路由器，则跳过检查，默认值为全检查

vrrp_strict

#严格遵守VRRP协议,启用此项后以下状况将无法启动服务:1.无VIP地址 2.配置了单播邻居 3.在VRRP版本2中有IPv6地址，开启动此项并且没有配置vrrp_iptables时会自动开启iptables防火墙规则，默认导致VIP无法访问,建议不加此项配置。

vrrp_garp_interval 0

#gratuitous ARP messages 免费ARP报文发送延迟，0表示不延迟

vrrp_gna_interval 0

#unsolicited NA messages （不请自来）消息发送延迟

vrrp_mcast_group4 224.0.0.18

#指定组播IP地址范围：224.0.0.0到239.255.255.255,默认值：224.0.0.18

vrrp_iptables

#此项和vrrp_strict同时开启时，则不会添加防火墙规则,如果无配置vrrp_strict项,则无需启用此项配置

}

地址分类：自定义组播，一般都有规划，不能瞎配，主和备要一样

A类：1-126

B 128-191

C 192-223

D 224-239

E 240-

#修改组播

默认keepalived主机之间利用多播相互通告消息，会造成网络拥塞，可以替换成单播，减少网络流量

注意：启用 vrrp_strict 时，不能启用单播

#在所有节点vrrp_instance语句块中设置对方主机的IP，建议设置为专用于对应心跳线网络的地址，而非使用业务网络

搭建LVS+KEEPALIVED高可用群集

架构图，最终的目的是通过keepalived实现两台四层代理服务器热备，然后通过ipvsadm设置LVS的四层代理DR模式

（一）两台节点服务器（web1、web2）的配置

①7-3 web1配置

②7-4 web2配置

<code>root@zzzcentos4 ~]#systemctl stop firewalld

[root@zzzcentos4 ~]#setenforce 0

[root@zzzcentos4 ~]#

[root@zzzcentos4 ~]#yum install httpd -y

[root@zzzcentos4 ~]#systemctl start httpd

[root@zzzcentos4 ~]#cd /var/www/html/

[root@zzzcentos4 html]#echo welcome to 7-4 > index.html

[root@zzzcentos4 html]#ifconfig lo:0 192.168.246.188 netmask 255.255.255.255

[root@zzzcentos4 html]#vim /etc/sysctl.conf

#末行加入

net.ipv4.conf.all.arp_ignore = 1

net.ipv4.conf.all.arp_announce = 2

net.ipv4.conf.default.arp_ignore = 1

net.ipv4.conf.default.arp_announce = 2

net.ipv4.conf.lo.arp_ignore = 1

net.ipv4.conf.lo.arp_announce = 2

[root@zzzcentos4 html]#sysctl -p

[root@zzzcentos4 html]#ip a

（二）7-1 LVS四层代理的master主配置

<code>[root@localhost ~]#systemctl stop firewalld

[root@localhost ~]#setenforce 0

[root@localhost ~]#hostname zzzcentos1

[root@localhost ~]#su

[root@zzzcentos1 ~]#yum install keepalived.x86_64 -y

[root@zzzcentos1 ~]#yum install ipvsadm.x86_64 -y

[root@zzzcentos1 ~]#cd /etc/keepalived/

[root@zzzcentos1 keepalived]#ls

keepalived.conf

[root@zzzcentos1 keepalived]#cp keepalived.conf keepalived.conf.bak

[root@zzzcentos1 keepalived]#ls

keepalived.conf keepalived.conf.bak

[root@zzzcentos1 keepalived]#vim keepalived.conf

[root@zzzcentos1 keepalived]#systemctl restart keepalived.service

[root@zzzcentos1 keepalived]#ipvsadm-save > /etc/sysconfig/ipvsadm

[root@zzzcentos1 keepalived]#systemctl start ipvsadm.service

[root@zzzcentos1 keepalived]#ipvsadm -ln

IP Virtual Server version 1.2.1 (size=4096)

Prot LocalAddress:Port Scheduler Flags

-> RemoteAddress:Port Forward Weight ActiveConn InActConn

TCP 192.168.246.7:80 rr

-> 192.168.246.9:80 Route 1 0 0

-> 192.168.246.10:80 Route 1 0 0

[root@zzzcentos1 keepalived]#

（三）7-2 LVS四层代理的backup备配置

如果去浏览器访问报错，把主从配置的vrrp_strict删除，就可以了

（四）去浏览器访问检测:

去浏览器访问：为啥只有7-4,因为apache默认开启长连接，所以要关闭长连接

再去浏览器访问就会一会是7-3一会是7-4：

（五）成功了

如果我们7-4服务宕机了，那么就不会跳7-4了

keepalives支持节点服务器健康状态检查(Health Checking)

2.6.3配置虚拟路由器

<code>vrrp_instance <STRING> {

#<String>为vrrp的实例名,一般为业务名称

配置参数

......

}

#配置参数：

state MASTER|BACKUP

#当前节点在此虚拟路由器上的初始状态，状态为MASTER或者BACKUP

interface IFACE_NAME

#绑定为当前虚拟路由器使用的物理接口，如：eth0,bond0,br0,可以和VIP不在一个网卡

virtual_router_id VRID

#每个虚拟路由器惟一标识，范围：0-255，每个虚拟路由器此值必须唯一，否则服务无法启动，同属一个虚拟路由器的多个keepalived节点必须相同,务必要确认在同一网络中此值必须唯一

priority 100

#当前物理节点在此虚拟路由器的优先级，范围：1-254，值越大优先级越高,每个keepalived主机节点此值不同

advert_int 1

#vrrp通告的时间间隔，默认1s

authentication {

#认证机制

auth_type AH|PASS

#AH为IPSEC认证(不推荐),PASS为简单密码(建议使用)

auth_pass <PASSWORD>

#预共享密钥，仅前8位有效，同一个虚拟路由器的多个keepalived节点必须一样

}

include /etc/keealived/conf.d/*.conf

virtual_ipaddress {

#虚拟IP,生产环境可能指定上百个IP地址

<IPADDR>/<MASK> brd <IPADDR> dev <STRING> scope <SCOPE> label <LABEL>

192.168.200.100

#指定VIP，不指定网卡，默认为,注意：不指定/prefix,默认为/32

192.168.200.101/24 dev eth1

#指定VIP的网卡，建议和interface指令指定的岗卡不在一个网卡

192.168.200.102/24 dev eth2 label eth2:1

#指定VIP的网卡label

}

track_interface {

#配置监控网络接口，一旦出现故障，则转为FAULT状态实现地址转移

eth0

eth1

…

}

2.6.3.1各种模式

keepalive工作方式：抢占式，非抢占式，延迟抢占模式

#通告：

是宣告自己的主权，不要妄想抢班夺权，不停的向外

#抢占式：

主服务器宕机，过了一段时间修好了，再把主权抢过来

#非抢占式：

主服务器宕机，过了一段时间修好了，原来的主就作为备了

#延迟抢占：

主修好后，等待一定的时间（300s）后再次成为主

①默认模式抢占式

在去浏览器访问：

发现它的地址换到了从服务器上，如下图，所以不影响访问

②非抢占式

主服务器修改：

检测：

#都为BACKUP #添加此行 nopreempt

③延迟抢占

主服务器修改：

备服务器修改：

检测：

#都为BACKUP 添加preempt_delay 30 #抢占延迟模式，默认延迟30s

2.6.3.2 单播多播地址

①修改多播：

主从两边都加入此行： vrrp_mcast_group4 234.6.6.6 然后抓包验证

主服务器修改：

备用服务器修改：

去抓包

②修改单播:

#在所有节点vrrp_instance语句块中设置对方主机的IP，建议设置为专用于对应心跳线网络的地址，而非使用业务网络

unicast_src_ip <IPADDR> #指定发送单播的源IP

unicast_peer {

<IPADDR> #指定接收单播的对方目标主机IP

......

}

主服务器配置：

<code>'MASTER服务器'

unicast_src_ip 192.168.246.7

#该指令指定当前节点作为VRRP通告和心跳消息的发送源地址。

#这意味着所有从这个节点发出的VRRP报文都将使用 192.168.246.7 这个IP地址作为源地址

unicast_peer {

192.168.246.8

}

#这部分定义了单播对等体列表，即指定接收VRRP通告和心跳消息的目标地址。

#在这里，仅指定了一个对等体地址 192.168.246.8，表示此节点将直接向 192.168.246.8

#发送VRRP通信信息，而不是通过组播方式广播到整个网络。

'BACKUP服务器'

#同上

备服务器配置：

<code>unicast_src_ip 192.168.246.8

unicast_peer {

192.168.246.7

}

去检测抓包：

2.6.3.3 通知脚本

当前节点成为主节点时触发的脚本

notify_master <STRING>|<QUOTED-STRING>

当前节点转为备节点时触发的脚本

notify_backup <STRING>|<QUOTED-STRING>

当前节点转为“失败”状态时触发的脚本

notify_fault <STRING>|<QUOTED-STRING>

通用格式的通知触发机制，一个脚本可完成以上三种状态的转换时的通知

notify <STRING>|<QUOTED-STRING>

当停止VRRP时触发的脚本

notify_stop <STRING>|<QUOTED-STRING>

配置邮箱

<code>[root@zzzcentos1 keepalived]#cd /opt/

[root@zzzcentos1 opt]#vim keepalive.sh

[root@zzzcentos1 opt]#cat keepalive.sh

#!/bin/bash

#

contact='1783897230@qq.com'code>

notify() {

mailsubject="$(hostname) to be $1, vip floating"code>

mailbody="$(date +'%F %T'): vrrp transition, $(hostname) changed to be $1"code>

echo "$mailbody" | mail -s "$mailsubject" $contact

}

case $1 in

master)

notify master

;;

backup)

notify backup

;;

fault)

notify fault

;;

*)

echo "Usage: $(basename $0) {master|backup|fault}"

exit 1

;;

esac

[root@zzzcentos1 opt]#

[root@zzzcentos1 opt]#chmod +x keepalive.sh

[root@zzzcentos1 opt]#vim /etc/keepalived/keepalived.conf

<code>notify_master "/opt/keepalive.sh master"

notify_backup "/opt/keepalive.sh backup"

notify_fault "/opt/keepalive.sh fault"

#模拟master故障

 
 
 
  
  
 状态发生变化，就可以邮箱通知你了
  
 2.6.3.4 日志功能

<code>[root@zzzcentos1 opt]#keepalived --help

开启单独日志功能

三、脑裂介绍

①什么是脑裂？

在高可用（HA）系统中，当联系2个节点的“心跳线”断开时，本来为一整体、动作协调的HA系统，

就分裂成为2个独立的个体。由于相互失去了联系，都以为是对方出了故障。

两个节点上的HA软件像“裂脑人”一样，争抢“共享资源”、争起“应用服务”，就会发生严重后果。共享资源被瓜分、两边“服务”都起不来了；或者两边“服务”都起来了，但同时读写“共享存储”，导致数据损坏

②都有哪些原因导致脑裂？

高可用服务器对之间心跳线链路发生故障，导致无法正常通信。

因心跳线坏了（包括断了，老化）。

因网卡及相关驱动坏了，ip配置及冲突问题（网卡直连）

因心跳线间连接的设备故障（网卡及交换机）

高可用服务器上开启了 iptables防火墙阻挡了心跳消息传输。

高可用服务器上心跳网卡地址等信息配置不正确，导致发送心跳失败

其他服务配置不当等原因，如心跳方式不同，心跳广插冲突、软件Bug等。

③模拟脑裂？

<code>[root@zzzcentos2 opt]#iptables -A INPUT -s 192.168.246.7 -j REJECT

#备用服务器添加此行

可以在主备上都发现vip地址（虚拟IP）

④如何解决keepalived脑裂问题？

在实际生产环境中，我们从以下方面防止脑裂：

#同时使用串行电缆和以太网电缆连接、同时使用两条心跳线路，这样一条线路断了，另外一条还是好的，依然能传送心跳消息

#当检查脑裂时强行关闭一个心跳节点（这个功能需要特殊设备支持，如stonith、fence）相当于备节点接收不到心跳消息，通过单独的线路发送关机命令关闭主节点的电源

⑤做好对脑裂的监控报警解决常见方案：

如果开启防火墙，一定要让心跳消息通过，一般通过允许IP段的形式解决

可以拉一条以太网网线或者串口线作为主被节点心跳线路的冗余

开发检测程序通过监控软件检测脑裂

四、实现其它应用的高可用性 VRRP Script

keepalived利用 VRRP Script 技术，可以调用外部的辅助脚本进行资源监控，并根据监控的结果实现优先动态调整，从而实现其它应用的高可用性功能（例如：nginx、mysql、redis)

<code>参考配置文件：

/usr/share/doc/keepalived/keepalived.conf.vrrp.localcheck

4.1VRRP Script 配置

分两步实现：

定义脚本

vrrp_script：自定义资源监控脚本，vrrp实例根据脚本返回值，公共定义，可被多个实例调用，定义在vrrp实例之外的独立配置块，一般放在global_defs设置块之后。通常此脚本用于监控指定应用的状态。一旦发现应用的状态异常，则触发对MASTER节点的权重减至低于SLAVE节点，从而实现 VIP 切换到 SLAVE 节点

vrrp_script <SCRIPT_NAME> {

script <STRING>|<QUOTED-STRING> #此脚本返回值为非0时，会触发下面OPTIONS执行

OPTIONS

}

调用脚本

track_script：调用vrrp_script定义的脚本去监控资源，定义在VRRP实例之内，调用事先定义的vrrp_script

track_script {

SCRIPT_NAME_1

SCRIPT_NAME_2

}