Netfilter分析（1）-qxhgd-ChinaUnix博客

本来听说Linux网络代码是最杂乱的，很容易陷进去却出不来，但这几天做了一阵子Netfilter的代码分析，发现Linux网络部分并没有那么可怕。。。

看Netfilter的最大收获可以说就是无意中找到了一个切入Linux网络代码的绝佳架构——拿IPv4为例子，以Netfilter为引，很容易地就能够迅速遍历整个IP数据报地处理流程，而对整个框架有了一个整体地印象之后，无论是更加详细的深入分析还是需要寻找某个具体实现的位置，就都是很轻松的了。

下面是这三四天里我看Netfilter代码的一些初步收获：

Netfilter分析（1）

1、 Netfilter/IPTables框架简介

Netfilter/IPTables是继2.0.x的ipfwadm、2.2.x的ipchains之后，新一代的 Linux防火墙机制。Netfilter采用模块化设计，具有良好的可扩充性。其重要工具模块IPTables连接到 NetFilter的架构中，并允许使用者对数据报进行过滤、地址转换、处理等操作。
Netfilter提供了一个框架，将对网络代码的直接干涉降到最低，并允许用规定的借口将其他包处理代码以模块的形式添加到内核中，具有极强的灵活性。

2、主要源代码文件：

Linux内核版本：2.4.21（不是我愿意看旧的，是项目要求的。。。）
Netfilter主文件：net/core/netfilter.c
Netfilter主头文件： include/linux/netfilter.h
IPv4相关：
  c文件：net/ipv4/netfilter/*.c
  头文件： include/linux/netfilter_ipv4.h
         include/linux/netfilter_ipv4/*.h
以及IPv4主体的部分c文件，特别是与数据报传送过程有关的部分：
ip_input.c， ip_forward.c，ip_output.c等等

3、 Netfilter/IPTables-IPv4总体架构

Netfilter主要通过表、链实现规则，可以这么说，NetFilter是表的容器，表是链的容器，链是规则的容器，最终形成对数据报处理规则的实现。
详细地说，Netfilter/IPTables的体系结构可以分为两个大部分：

1. Netfilter的HOOK机制

    Netfilter的通用框架不依赖于具体的协议，而是为每种网络协议定义一套HOOK 函数。这些HOOK函数在数据报经过协议栈的几个关键点时被调用，在这几个点中，协议栈将数据报及 HOOK函数标号作为参数，传递给Netfilter框架。
    对于它在网络堆栈中增加的这些HOOK，内核的任何模块可以对每种协议的一个或多个HOOK进行注册，实现挂接。这样当某个数据报被传递给 Netfilter框架时，内核能检测到是否有任何模块对该协议和HOOK函数进行了注册。若注册了，则调用该模块的注册时使用的回调函数，这样这些模块就有机会检查、修改、丢弃该数据报及指示Netfilter将该数据报传入用户空间的队列。
    这样，HOOK提供了一种方便的机制：在数据报通过Linux内核的不同位置上截获和操作处理数据报。

2. IPTables基础模块

IPTables基础模块实现了三个表来筛选各种数据报，具体地讲，Linux2.4内核提供的这三种数据报的处理功能是相互间独立的模块，都基于Netfilter的HOOK函数和各种表、链实现。如图06-10-20-1所示（不知为什么图片传上来预览却看不到，先暂时放在相册里了，用OpenOffice画的，在Windows下转过来后画质差了好多。。。-_-!）（如果哪位大大知道怎么在文章里搞定图片，麻烦告偶一声哦）

另外，Netfilter/IPTables还提供了连接跟踪的实现，也是一个相当重要的模块。

4、 HOOK的实现

1. Netfilter-IPv4中的HOOK：

    Netfilter模块需要使用HOOK来启用函数的动态钩接，它在IPv4中定义了五个 HOOK（位于文件include/linux/netfilter_ipv4.h，Line 39），分别对应0-4的hooknum。
    简单地说，数据报经过各个HOOK的流程如下：
    数据报从进入系统，进行IP校验以后，首先经过第一个HOOK函数NF_IP_PRE_ROUTING进行处理；然后就进入路由代码，其决定该数据报是需要转发还是发给本机的；若该数据报是发被本机的，则该数据经过HOOK函数NF_IP_LOCAL_IN处理以后然后传递给上层协议；若该数据报应该被转发则它被NF_IP_FORWARD处理；经过转发的数据报经过最后一个HOOK函数NF_IP_POST_ROUTING处理以后，再传输到网络上。本地产生的数据经过HOOK函数NF_IP_LOCAL_OUT 处理后，进行路由选择处理，然后经过NF_IP_POST_ROUTING处理后发送出去。
    总之，这五个HOOK所组成的Netfilter-IPv4数据报筛选体系如图06- 10-20-2所示（注：下面所说Netfilter/IPTables均基于IPv4，不再赘述）

详细地说，各个HOOK及其在IP数据报传递中的位置如下：（见图06-10-20-3— —有了这个整体的印象之后，再去看网络代码，至少第3层的代码，是不是就好多了。。。当然，这个图也不是很完整，像IP报文分割啦，多播啦之类的都没有画进去，因为那些跟我们Netfilter的主题没什么关系。。。）

NF_IP_PRE_ROUTING (0)
    数据报在进入路由代码被处理之前，数据报在IP数据报接收函数ip_rcv()（位于net/ipv4/ip_input.c，Line379）的最后，也就是在传入的数据报被处理之前经过这个HOOK。在ip_rcv()中挂接这个HOOK之前，进行的是一些与类型、长度、版本有关的检查。
    经过这个HOOK处理之后，数据报进入ip_rcv_finish()（位于 net/ipv4/ip_input.c，Line306）
    在这个HOOK上主要是对数据报作报头检测处理，以捕获异常情况。
NF_IP_LOCAL_IN (1)
    目的地为本地主机的数据报在IP数据报本地投递函数ip_local_deliver()（位于net/ipv4/ip_input.c，Line290）的最后经过这个HOOK。
    经过这个HOOK处理之后，数据报进入ip_local_deliver_finish()（位于 net/ipv4/ip_input.c，Line219）
    这样，IPTables模块就可以利用这个HOOK对应的INPUT规则链表来对数据报进行规则匹配的筛选了。防火墙一般建立在这个HOOK上。
NF_IP_FORWARD (2)
    目的地非本地主机的数据报，包括被NAT修改过地址的数据报，都要在IP数据报转发函数ip_forward()（位于net/ipv4/ip_forward.c，Line73）的最后经过这个HOOK。
    经过这个HOOK处理之后，数据报进入ip_forward_finish ()（位于net/ipv4/ip_forward.c，Line44）
    另外，在net/ipv4/ipmr.c中的 ipmr_queue_xmit()函数（Line1119）最后也会经过这个HOOK。（ipmr为多播相关，估计是在需要通过路由转发多播数据时的处理）
这样，IPTables模块就可以利用这个HOOK对应的FORWARD规则链表来对数据报进行规则匹配的筛选了。
NF_IP_LOCAL_OUT (3)
    本地主机发出的数据报在IP数据报构建/ 发送函数ip_queue_xmit()（位于net/ipv4/ip_output.c，Line339）、以及ip_build_and_send_pkt()（位于net/ipv4/ip_output.c，Line122）的最后经过这个HOOK。（在数据报处理中，前者最为常用，后者用于那些不传输有效数据的SYN/ACK包）
    经过这个HOOK处理后，数据报进入 ip_queue_xmit2()（位于net/ipv4/ip_output.c，Line281）
    另外，在 ip_build_xmit_slow()（位于net/ipv4/ip_output.c，Line429）和ip_build_xmit()（位于 net/ipv4/ip_output.c，Line638）中用于进行错误检测；在igmp_send_report()（位于 net/ipv4/igmp.c，Line195）的最后也经过了这个HOOK，进行多播时相关的处理。
    这样，IPTables模块就可以利用这个HOOK对应的OUTPUT规则链表来对数据报进行规则匹配的筛选了。
NF_IP_POST_ROUTING (4)
    所有数据报，包括源地址为本地主机和非本地主机的，在通过网络设备离开本地主机之前，在IP数据报发送函数ip_finish_output()（位于 net/ipv4/ip_output.c，Line184）的最后经过这个HOOK。
    经过这个HOOK处理后，数据报进入ip_finish_output2()（位于net/ipv4/ip_output.c，Line160）
    另外，在函数ip_mc_output()（位于net/ipv4/ip_output.c，Line195）中在克隆新的网络缓存skb时，也经过了这个HOOK进行处理。

其中，在06-10-20-3这个体系图中，下面两个函数相当于IP协议栈与链路层的接口：

入口为 net_rx_action()（位于net/core/dev.c，Line1602），作用是将数据报一个个地从CPU的输入队列中拿出，然后传递给协议处理例程。
出口为dev_queue_xmit()（位于 net/core/dev.c，Line1035），这个函数被高层协议的实例使用，以数据结构struct sk_buff *skb的形式在网络设备上发送数据报。（硬链接头中没有地址信息的在调用这个函数之前还需要进行ARP解析）

2. HOOK的调用

HOOK的调用是通过宏NF_HOOK实现的，其定义位于include/linux/netfilter.h ，Line122：

#define NF_HOOK(pf, hook, skb, indev, outdev, okfn)   \
(list_empty(&nf_hooks[(pf)][(hook)])      \
? (okfn)(skb)         \
: nf_hook_slow((pf), (hook), (skb), (indev), (outdev), (okfn)))

    这里先调用list_empty函数检查HOOK点存储数组nf_hooks是否为空，为空则表示没有HOOK注册，则直接调用okfn继续处理。如果不为空，则转入nf_hook_slow()函数。
    nf_hook_slow()函数（位于net/core/netfilter.c，Line449）的工作主要是读nf_hook数组遍历所有的nf_hook_ops结构，并调用nf_hookfn()处理各个数据报。
    即HOOK的调用过程如图06-10-20-4所示：

下面说明一下NF_HOOK的各个参数：

pf：协议族标识，相关的有效协议族列表位于include/linux/socket.h，Line 178。对于IPv4，应该使用协议族PF_INET；
hook：HOOK标识，即前面所说5个HOOK对应的hooknum；
skb：是含有需要被处理包的sk_buuff数据结构的指针。sk_buff是Linux网络缓存，指那些linux内核处理IP分组报文的缓存，即套接字缓冲区。
    网络设备收到IP分组报文后，将它们放入sk_buff，然后再传送给网络堆栈，网络堆栈几乎一直要用到sk_buff。其定义在 include/linux/skbuff.h，Line 129，下面列出我认为对分析有意义的部分成员：
  @`struct sock *sk;`：指向创建分组报文的socket；
  @`struct timeval stamp;`：分组报文到达系统的时间；
  @下面是三个union，存放的是各层中各种协议的报文头指针：
       # h对应传输层的报头
       # nh对应网络层的报头
       # mac对应MAC层的报头
  @`unsigned int len;`：套接字缓存所代表的报文长度，即从`unsigned char *data;`的位置算起的当前有效报文长度。
  @`unsigned char pkt_type,`：表示报文的类型，具体类型定义在include/linux/if_packet.h，Line24：

#define PACKET_HOST  0 /* 发送到本机的报文*/
#define PACKET_BROADCAST 1 /* 广播报文*/
#define PACKET_MULTICAST 2 /* 多播报文*/
#define PACKET_OTHERHOST 3 /* 表示目的地非本机但被本机接收的报文*/
#define PACKET_OUTGOING  4 /* 离开本机的报文 */
/* These ones are invisible by user level */
#define PACKET_LOOPBACK  5 /* 本机发给自己的报文 */
#define PACKET_FASTROUTE 6 /* 快速路由报文*/

indev：输入设备，收到数据报的网络设备的net_device数据结构指针
outdev：输出设备，数据报离开本地所要使用的网络设备的net_device数据结构指针。
okfn：下一步要处理的函数。即如果有HOOK函数，则处理完所有的HOOK函数，且所有向该HOOK注册过的筛选函数都返回NF_ACCEPT时，调用这个函数继续处理；如果没有注册任何HOOK，则直接调用此函数。

3. HOOK点的实现

对应于各个不同协议的不同HOOK点是由一个二维数组nf_hooks存储的（位于 net/core/netfilter.c，Line 47），具体的HOOK点则由数据结构nf_hook_ops（位于 include/linux/netfilter.h，Line 44）实现。如图06-10-20-5所示

其中，nf_hook_ops成员中：

`int priority;` 相关优先级在include/linux/netfilter_ipv4.h，Line52中枚举定义：
enum nf_ip_hook_priorities {
   NF_IP_PRI_FIRST = INT_MIN,
   NF_IP_PRI_CONNTRACK = -200,
   NF_IP_PRI_MANGLE = -150,
   NF_IP_PRI_NAT_DST = -100,
   NF_IP_PRI_FILTER = 0,
   NF_IP_PRI_NAT_SRC = 100,
   NF_IP_PRI_LAST = INT_MAX,
};
`nf_hookfn *hook;` 为处理函数的指针，其函数指针类型定义位于include/linux/netfilter.h， Line38，为：
typedef unsigned int nf_hookfn (unsigned int hooknum,
             & nbsp;              &n bsp; struct sk_buff **skb,
             &nb sp;              &nbs p; const struct net_device *in,
               ;                const struct net_device *out,
             &nbs p;                ; int (*okfn)(struct sk_buff *));

这是nf_hook_ops中最关键的成员，其五个参数分别对应前面所解释的NF_HOOK中弟2到6个参数