TCP/IP源码学习(44)——kernel重组IPv4分片代码(1)-GFree

作者：gfree.wind@gmail.com
博客：blog.focus-linux.net linuxfocus.blog.chinaunix.net

本文的copyleft归gfree.wind@gmail.com所有，使用GPL发布，可以自由拷贝，转载。但转载请保持文档的完整性，注明原作者及原链接，严禁用于任何商业用途。

======================================================================================================

在前面的netfilter代码学习的过程中，正好碰到了kernel处理IPv4分片的函数。那么就这个线索继续下去吧。

ip_defrag用于处理kernel收到的IP分片的函数：

/*
参数skb毫无疑问为收到的IP分片skb，而user用于表明调用者的身份，参加枚举ip_defrag_users。比如本地收到的IP分片时，user为IP_DEFRAG_LOCAL_DELIVER。
*/
int ip_defrag(struct sk_buff *skb, u32 user)
{
struct ipq *qp;
struct net *net;

/* 得到net名称空间 */

/* 无法创建新的IP分片队列，说明内存不足 */

接下来看ip_find：

这里对获得了ip4_frags.lock的读锁，何时释放的呢？

答案是在inet_frag_find这个函数中。

这种锁的使用风格，我很不喜欢。为什么kernel会使用这种方式呢？

read_lock(&ip4_frags.lock);
/*
对于IP分片来说，使用IP头部信息中的identifier，源地址，目的地址，以及协议来计算hash值。一般来说，这四个值基本上可以保证了IP分片的队列信息的唯一性。不过由于NAT设备的使用，就有可能将不同的分片队列混在一起。在计算hash值上，还使用ip4_frags.rnd这一随机值。
*/
hash = ipqhashfn(iph->id, iph->saddr, iph->daddr, iph->protocol);
q = inet_frag_find(&net->ipv4.frags, &ip4_frags, &arg, hash);
if (q == NULL)
goto out_nomem;

/* 内核中实际上维护的变量类型为struct ipq，需要从其成员变量q，获得原来的struct ipq类型的地址 */

然后inet_frag_find：

struct inet_frag_queue *inet_frag_find(struct netns_frags *nf,
struct inet_frags *f, void *key, unsigned int hash)
__releases(&f->lock) // 这里看上去有些怪异。但__release为一个宏。其值或为空，或为一个attribut // e扩展，所以可以这样写。
{
struct inet_frag_queue *q;
struct hlist_node *n;
hlist_for_each_entry(q, n, &f->hash[hash], list) {
/* net名称空间相等，且匹配函数返回true，则表示为正确的分片队列 */
if (q->net == nf && f->match(q, key)) {
atomic_inc(&q->refcnt);
read_unlock(&f->lock);
return q;
}
}
read_unlock(&f->lock);

没有找到正确的IP分片队列，需要重新创建一个新的IP分片队列。

这个函数很简单，申请一个新的队列节点，计算其hash值，并将其添加到hash表中。

IPv4的匹配函数很简单：

大致看一下inet_frag_create：

因为需要同时支持IPv4和IPv6分片，所以这里使用一个回调函数。并且这种方式分隔了一些细节问题。

对于IPv4来说，该回调为ip4_frag_init。

新的分片队列的真正的添加函数

/* 加新的队列节点添加到hash表中 */

未完待续。。。

TCP/IP源码学习(44)——kernel重组IPv4分片代码(1)