TC流量控制实现分析(初步)

本文档的Copyleft归wwwlkk所有,使用GPL发布,可以自由拷贝、转载,转载时请保持文档的完整性,严禁用于任何商业用途。
E-mail:
来源:
(一)基本概念
为了更好的描述TC流量控制,先明确一些概念。
流控对象:队列规定。
无类流控对象:无类队列规定。
分类流控对象:分类的队列规定。
每个分类流控对象都有默认的子流控对象,默认的子流控对象必定是无类流控对象。
子流控对象:分类流控对象中包含的流控对象。
无类流控对象必定包含一个或者多个的数据包队列,用于存储数据包。
无类和分类流控对象都有默认的分类规定,也可以使用过滤器增加分类规则。
分类流控对象是流控对象的容器(包含无类和分类),无类流控对象是数据包的容器。(注意:一些复杂的流控对象可同时作为流控对象和数据包的容器,比如分层的令牌桶)
数据包进入一个分类流控对象,分类流控对象将根据分类规则(默认的或者过滤器),决定将数据包送到某个子流控对象。
数据包进入一个无类流控对象,无类流控对象将根据分类规则(默认的或者过滤器),决定将数据包加入到某个数据包队列。
分类流控对象出队操作:分类流控对象将根据出队规则(固定的),选择一个子流控对象,并执行子流控对象的出队操作。
无类流控对象出队操作:无类流控对象将根据出队规则(固定的),选择一个数据包出队。
每块网卡都有一个出口根流控对象。每个流控对象都指定一个句柄,以便以后的配置语句能够引用这个流控对象。除了出口流控对象之外,每块网卡还有一个入口流控对象,入口流控对象的类型是固定的(是ingress类型)。
运行流控对象:都是指运行出口流控对象,也就是根据出口流控对象的出队规则(固定的),发送流控对象中的所有数据包。
流控对象为空:流控对象中没有数据包。
入口流控对象没有真正意义上的出队和入队操作,只是根据过滤规则来决定是否丢弃数据包,流控的实现主要在出口流控对象,下面先分析出口流控的实现。
(二)运行出口流控对象
数据到达出口流控时,上层的所有处理已经完成,数据包已经可以交到网卡设备进行发送,在数据交到网卡设备发送前将会进入出口流控,进入出口流控的函数为dev_queue_xmit();
dev_queue_xmit中进入出口流控对象的函数段如下:
__dev_xmit_skb函数主要做两件事情:
1.
2.
调用qdisc_run()将会运行一个流控对象,有两个时机将会调用qdisc_run():
1.__dev_xmit_skb()
2.
软中断线程NET_TX_SOFTIRQ中将会运行的流控对象组织如下:
http://hi.csdn.net/attachment/201010/9/0_12865988205sE6.gif
图1
static inline void qdisc_run(struct Qdisc *q)
{
}
__QDISC_STATE_RUNNING标志用于保证一个流控对象不会同时被多个例程运行。
软中断线程的动作:运行加入到output_queue链表中的所有流控对象,如果试图运行某个流控对象时,发现已经有其他内核路径在运行这个对象,直接返回,并试图运行下一个流控对象。
void __qdisc_run(struct Qdisc *q)//运行流控对象q
{
}
如果发现本队列运行的时间太长了,将会停止队列的运行,并将队列加入output_queue链表头。
现在数据包的发送流程可以总结如下:(流控对象为空表示对象中没有数据包)
1.
2.
3.
4.
5.
(三)流控对象的具体实现
(3.1)建立一个根流控对象
下面使用具体的例子来说明流控对象的具体实现
首先使用如下命令在eth0建立一个根流控对象。
#tc qdisc add dev eth0 root handle 22 prio bands 4
其中流控对象的类型是”prio”,对象句柄是22,对象使用4个带(也就是包含4个子流控对象,默认的子流控对象类型是”pfifo”,出队时第一个子流控对象的优先级最高)
则内核中建立的流控对象如图2,3所示:
http://hi.csdn.net/attachment/201010/9/0_12865990656D3b.gif
图3
这个prio流控对象的句柄是22,使用4个带,每个带都是一个pfifo类型的对象,每个pfifo类型的对象都有一个数据包队列,用于存储数据包。根据数据包的skb->priority值确定数据包加入哪个带,这里使用默认的prio2band,默认的skb->priority值与带的对应关系如图3中所示。
现在假设要发送一个skb->priority值是8的数据包,发送流程如下:
1.
2.
3.
4.
5.
6.
7.
(3.2)建立一个子流控对象
prio流控对象是分类对象,可以添加子对象(未添加子对象时使用默认子对象)。
接下来使用以下命令在根队列的第4个带增加一个prio类型的子队列(此前第4个带是pfifo类型的对象,现在将替换为prio类型的对象。)
#tc qdisc add dev eth0 parent 22:4 handle 33 prio bands 5 priomap 3 3 2 2 1 2 0 0 1 1 1 1 1 1 1 1
这个prio对象是根对象的第4个带的子对象,句柄是33,并且这个子对象有5个带,skb->priority和带的映射关系是3 3 2 2 1 2 0 0 1 1 1 1 1 1 1 1。
则内核中建立的子流控对象如图4所示:
http://hi.csdn.net/attachment/201010/9/0_1286599157d5WK.gif
(3.3)添加一个过滤器
由于根对象的使用默认的prio2band映射,默认映射只映射前3个带,而prio子对象在第4个带,所以在这里,数据包是不会被加入prio子对象,下面使用过滤器将目的ip是4.3.2.1的数据包加入到prio子对象,命令如下:
# tc filter add dev eth0 protocol ip parent 22: prio 2 u32 /
> match ip dst 4.3.2.1/32 flowid 22:4
在网卡eth0的根队列增加一个优先级是2且类型是u32的过滤器,过滤器将目的ip是4.3.2.1的数据包定位到第4个带。
u32过滤器的结构如图5所示:
http://hi.csdn.net/attachment/201010/9/0_1286599242UWez.gif
图5 u32类型过滤器结构
其中val存储4.3.2.1的信息,off存储偏移位置(目的ip字段的偏移)。
现在数据包的入队流程如下:
1.
2.
(3.4)流控类和过滤器类型的的组织
相同类型的对象将使用相同的操作函数(比如出/入队函数),相同类型的过滤器也是相同的操作函数(比如分类函数)。对象中struct
Qdisc_ops
下面看一下对象类型和过滤器类型是如何组织的:图6对象类型的组织,图7过滤器类型的组织。
http://hi.csdn.net/attachment/201010/9/0_1286599301cXxL.gif
图6
http://hi.csdn.net/attachment/201010/9/0_1286599431WBWU.gif
图7
使用int register_qdisc(struct Qdisc_ops *qops)注册对象类型。
使用int register_tcf_proto_ops(struct tcf_proto_ops *ops)注册过滤器类型。
以上分析了prio类型流控对象,pfifo类型流控对象,u32类型的过滤器的实现机制,内核还提供了很多其它的更复杂的流控对象和过滤器对象,有待进一步分析,但是基本的框架还是类似的。
(3.5)入口流控对象
int netif_receive_skb(struct sk_buff *skb)à
skb = handle_ing(skb, &pt_prev, &ret, orig_dev);à
ing_filter(skb)
增加一个入口流控队列# tc qdisc add dev eth0 ingress
入口流控的对象类型必定是:
static struct Qdisc_ops ingress_qdisc_ops __read_mostly = {
};
入口流控对象的私有数据是:
struct ingress_qdisc_data {
};
入口流控对象只有入队函数,没有出队函数。
入队动作:先遍历过滤器,如果某个过滤器匹配,执行action(接收或者丢弃数据包),并将结果返回,最终根据这个返回的结果决定是否丢弃数据包。
(四)用户空间如何和内核通信
iproute2是一个用户空间的程序,它的功能是解释以tc开头的命令,如果解释成功,把它们通过AF_NETLINK的socket传给Linux的内核空间,使用的netlink协议类型是NETLINK_ROUTE。
发送的netlink数据包都必须包含两个字段:protocol和msgtype,内核根据这两个字段来定位接收函数。
在系统初始化的时候将会调用如下函数:
static int __init pktsched_init(void)
{
}
其中的rtnl_register()函数用于注册TC要接收的消息类型以及对应的接收函数。注册到图8所示的结构中。
图8
下面以命令#tc qdisc add dev eth0 root handle 22 prio bands 4为例子说明如何进行通信的。
分析tc:main(int argc, char **argv)被调用,此函数在tc/tc.c中;
分析tc qdisc:do_qdisc(argc-2, argv+2);被调用,此函数在tc/tc_qdisc.c中;
分析tc qdisc
add:
Netlink包携带的数据如下
struct {
内核是根据以上两个参数定位接收函数。
内核接收函数是static int rtnetlink_rcv_msg(struct sk_buff *skb, struct nlmsghdr *nlh)
根据以上两个参数选择接收函数:
doit = rtnl_get_doit(family, type);
从前面初始化时注册的处理函数是:
rtnl_register(PF_UNSPEC, RTM_NEWQDISC, tc_modify_qdisc, NULL);
可以知道对应的接收函数是:
static int tc_modify_qdisc(struct sk_buff *skb, struct nlmsghdr *n, void *arg)
通信总结如下:
1.
2.
3.
http://hi.csdn.net/attachment/201010/9/0_1286599780FOd9.gif
图2