SR做大客户网关备份传统方式与IRF方式测试对比

标签:
sr业务路由器网关备份irfit |
分类: 网络 |
文/史计达
1 SR(业务路由器)的定位及作用
IP技术因为其开放性得到了广泛应用,并且因其具备低廉的价格和弹性的带宽(从10M到10000M),各运营商都已经建设并且根据逐步增长的业务需要对其IP城域网进行了扩容,不断增长的用户容量和业务以及业务对带宽、时延、收敛时间等指标日益严格的需求对城域网尤其是业务网关提出了更高的性能和可靠性要求。
城域骨干网是业务接入控制点及控制点以上的城域网核心路由器组成的三层路由网络。业务接入控制点包括宽带接入服务器BRAS与业务路由器SR,主要负责业务接入控制。SR主要实现专线接入互联网网关、IPTV网关、MPLS VPN PE,这类业务主要面向高端客户,对网络的要求比普通用户严格得多,这些都凸显出SR承担的重任和压力。
2 SR应用组网模型
2.1 传统组网
http://www.h3c.com.cn/res/201203/13/20120313_1332285_image001_740882_30008_0.jpg图1 SR做网关备份的传统组网模型
在运营商网络架构中,SR无论是承担骨干网PE的角色,还是作为用户IP业务的接入网关,都承载着大量用户,其重要性不言而喻。为了实现各种情况下业务的连续性,为用户提供优质的服务,运营商需要为SR提供高冗余的网关保护和热备份功能,这一点对于企业客户或高端个人客户尤为重要,当其中一台SR路由器出现故障时,另外一台冗余的SR路由器能够立即接管工作,无需重建用户会话和其它相关信息,做到对最终用户的无感知切换。
传统的做法是热备份方案,采用协议扩展的方式,业界最常用的方案是在VRRP本身提供的冗余网关功能基础上,对其进行扩展实现双机热备份。但是这种方案存在一些局限性:
• 为实现热备份,需要实时和批量备份,而且需要可靠性机制确保实时备份和批量备份信息的传送,协议相对复杂;
• SR本身承载的用户数量巨大,需要进行备份的数据也变得非常庞大,对设备压力较大,甚至会影响设备的性能;
• 由于业务的发展,需要备份的信息不断增加,设备商需要不断对备份机制进行修订,造成对在网设备频繁升级,影响运营商的运营,并引入新的风险因素。
2.2 IRF2组网
http://www.h3c.com.cn/res/201203/13/20120313_1332286_image002_740882_30008_0.jpg图2 SR做网关配置IRF2组网模型
H3C的IRF2技术简化了网络规划和配置,不仅带来管理上的极大便利,同时将有效解决上述问题。IRF2技术将两台SR虚拟化一台,也就没有热备份的概念,由此带来的优势为:
• 部署复杂度大大降低:冗余的SR设备通过IRF2技术,两台设备变为一台设备。大客户网关、主备倒换、双归链路备份等配置大幅简化。尤其是MPLS/MPLS-TP延伸到边缘时,更会极大优化Tunnle/PW部署;
• 提高网络可用率:主备SR设备可用率、主备链路可用率、IP地址可用率均得到提升。
3 测试设计
3.1 测试组网
http://www.h3c.com.cn/res/201203/13/20120313_1332287_image003_740882_30008_0.jpg图3 传统VRRP组网模式测试组网
http://www.h3c.com.cn/res/201203/13/20120313_1332288_image004_740882_30008_0.jpg图4 IRF2组网模式测试组网
3.2 测试设计
根据运营商对SR的通用要求,重点对VPN业务进行测试:
•2000个VPN、40万条路由;
• 10个LDP邻居;
• 在上述压力条件下,各类故障情况下业务50ms内收敛情况。
传统VRRP BFD组网相关测试项目
传统组网 |
SR(VRRP主)和汇聚交换机之间的链路故障业务收敛时间 |
SR(VRRP主)和汇聚交换机之间的链路故障恢复业务收敛时间 |
|
SR和核心路由器CR之间的链路故障业务收敛时间 |
|
SR和核心路由器CR之间的链路故障恢复业务收敛时间 |
|
SR(VRRP主)断电业务收敛时间 |
|
SR(VRRP主)加电重启业务收敛时间 |
|
SR(VRRP主)的主备切换 |
为了优化网络收敛时间,需要配置
• OSPF GR
• BGP GR
• LDP GR
• BFD for LDP
• BFD for VRRP
• BFD for OSPF
• BFD for BGP
IRF2组网相关测试项目
IRF2组网 |
IRF与汇聚交换机之间的聚合链路故障业务收敛时间 |
IRF与汇聚交换机之间的聚合链路故障恢复业务收敛时间 |
|
IRF与CR之间的聚合链路故障业务收敛时间 |
|
IRF与CR之间的聚合链路故障恢复业务收敛时间 |
|
IRF的master断电业务收敛时间 |
|
IRF的master加电重启业务收敛时间 |
|
IRF的slave断电业务收敛时间 |
|
IRF的slave加电重启业务收敛时间 |
|
IRF master的主备切换 |
为了优化网络收敛时间,需要配置
• OSPF GR
• BGP GR
• LDP GR
• BFD for LDP
4 测试结果及对比分析
4.1 测试结果
表1 VRRP BFD组网测试结果
测试项目 |
上行流量收 |
下行流量收 |
||||
SR(VRRP主)和汇聚交换机之间 |
161ms |
216ms |
176ms |
102ms |
89ms |
110ms |
SR(VRRP主)和汇聚交换机之间 |
25ms |
24ms |
93ms |
0 |
0 |
0 |
SR和核心路由器CR之间的链路 |
240ms |
242ms |
258ms |
799ms |
808ms |
752ms |
SR和核心路由器CR之间的链路 |
59ms |
58ms |
70ms |
0 |
0 |
0 |
SR(VRRP主)断电业务收敛时间 |
188ms |
236ms |
177ms |
45ms |
27ms |
44ms |
SR(VRRP主)加电重启 |
92ms |
100ms |
68ms |
0 |
0 |
0 |
SR(VRRP主)的主备切换 |
0 |
0 |
0 |
0 |
0 |
0 |
测试项目 |
上行 流量收 |
下行流量收 |
||||
IRF与汇聚交换机之间的聚合 |
3.4ms |
3.2ms |
3.4ms |
0.8ms |
0.8ms |
0.7ms |
IRF与汇聚交换机之间的聚合 |
0 |
0 |
0 |
0 |
0 |
0 |
IRF与CR之间的聚合链路故 |
1.3ms |
1.3ms |
1.4ms |
5.8ms |
5.5ms |
5.5ms |
IRF与CR之间的聚合链路故 |
0 |
0 |
0 |
0 |
0 |
0 |
IRF的master断电业务收敛时间 |
13ms |
12ms |
12ms |
17ms |
17ms |
17ms |
IRF的master加电重启业务收敛时间 |
0 |
0 |
0 |
0 |
0 |
0 |
IRF的slave断电业务收敛时间 |
13ms |
13ms |
12ms |
16ms |
15ms |
17ms |
IRF的slave加电重启业务收敛时间 |
0 |
0 |
0 |
0 |
0 |
0 |
IRF master的主备切换 |
0 |
0 |
0 |
0 |
0 |
0 |
4.2 测试分析
以一个最简单的测试用例进行分析,即当汇聚交换机与SR之间的链路发生故障时业务收敛时间在不同方式下分别取决于哪些关键因素:
(1)在传统VRRP组网中,当SR(VRRP主)和汇聚交换机之间的链路发生故障时,对于上行流量而言,需要等待BFD的快速检测实现VRRP进行快速切换,进而刷新下游汇聚交换机的MAC表项,促使后续上行流量转发到新的VRRP master上;对于下行流量而言,需要等待链路检测到down并通知路由模块,路由模块将故障链路的直连路由撤销并且扩散到网络中实现路由同步。
详细来看,包括如下因素:
• 链路检测down:物理层检测,光口一般为几毫秒,硬件实现,时间比较固定,主要用于通知路由模块进行路由撤销;
• BFD检测到VRRP故障:BFD检测周期为10ms,3次超时,所以这个时间为 30ms左右,一般通过专用OAM CPU检测,时间也比较固定;
• BFD通知VRRP模块进行VRRP切换:软件实现,时间不固定,一般在几十毫秒到几百毫秒不等;;
• VRRP发出Advertisement报文更新汇聚交换机的MAC表项:软件实现,时间不固定,一般在几十毫秒到几百毫秒不等;
• 路由收敛:即故障链路所在接口直连路由撤销,软件实现,取决于网络规模,一般在几十到几百毫秒。
所以当SR(VRRP主)和汇聚交换机之间的链路故障时,业务收敛时间在几十至几百毫秒的时间。
(2)在IRF2组网模型中,因为通过IRF2技术将两台SR虚拟化为了一台,也就相应的将VRRP BFD组网简化为了简单的跨设备聚合链路组网,当SR与汇聚交换机之间的链路发生故障时,上下行流量取决于聚合链路hash算法的快慢,而和其它转发协议无关,而且是通过硬件实现,稳定且快速,一般在20ms以内。
5 总结
5.1 VRRP BFD传统组网的问题
• 需要解决汇聚设备双归到两台SR后的环路问题,增加了规划和配置的复杂性;
• 需要对各类协议,例如VRRP、OSPF、BGP、LDP等配置BFD,确保快速收敛;
• 如果需要配置VRRP抢占模式,还需要考虑VRRP已经抢占成功但是路由和MPLS没有收敛的情况,也就是需要配置VRRP抢占delay时间,如果时间设置的不合适,会造成转发上的黑洞;
• 需要在互为热备的两台SR上都进行相关配置,配置工作量为单台设备的2倍;
• 两台互为热备的SR设备单独管理,管理工作量为单台设备的2倍。
5.2 IRF2组网的优势
• SR与汇聚交换机之间的连接为链路捆绑,消除了普通SR组网的环路避免问题,简化了网络设计,提升了可靠性和业务收敛时间;
• 无需VRRP,减少了VRRP和BFD联动以及VRRP已经抢占成功但是转发黑洞的问题;
• IRF2中的两台设备从管理上而言为一台,相对于传统VRRP组网减少了大量的配置和管理的工作量;
• IRF2组网减轻了网络负担,传统SR组网需要在每台设备上对VRRP、LDP、OSPF、BGP等多个协议配置多个BFD,而IRF2组网只需要对LDP配置BFD即可,大大减少了BFD报文的收发数量。
结束语
通过对SR做大客户网关备份传统组网模型和IRF2组网模型的理论分析和实际测试结果分析对比可以得出:使用IRF2组网可以简化网络的规划、管理、配置,降低部署和运营成本;在各种链路和硬件故障情况下,减少因此引发的协议层的收敛,能够更快的实现业务收敛,满足电信级可靠性指标要求。