网卡驱动和队列层中的数据包接收-qianguozheng-ChinaUnix博客

| |

原文地址：
%3D1
Linux TCP/IP协议栈笔记

网卡驱动和队列层中的数据包接收

作者：kendo

Kernel：2.6.12
文章对于我们理解TCP发送数据包以及收取数据包非常有帮助。

四、网卡的数据接收

内核如何从网卡接受数据，传统的经典过程：

引用

1、数据到达网卡；
2、网卡产生一个中断给内核；
3、内核使用I/O指令，从网卡I/O区域中去读取数据；

我们在许多网卡驱动中，都可以在网卡的中断函数中见到这一过程。

但是，这一种方法，有一种重要的问题，就是大流量的数据来到，网卡会产生大量的中断，内核在中断上下文中，会浪费大量的资源来处理中断本身。所以，一个问题是，“可不可以不使用中断”，这就是轮询技术，所谓NAPI技术，说来也不神秘，就是说，内核屏蔽中断，然后隔一会儿就去问网卡，“你有没有数据啊？”……

从这个描述本身可以看到，哪果数据量少，轮询同样占用大量的不必要的CPU资源，大家各有所长吧，呵呵……

OK，另一个问题，就是从网卡的I/O区域，包括I/O寄存器或I/O内存中去读取数据，这都要CPU去读，也要占用CPU资源，“CPU从I/O区域读，然后把它放到内存（这个内存指的是系统本身的物理内存，跟外设的内存不相干，也叫主内存）中”。于是自然地，就想到了DMA技术——让网卡直接从主内存之间读写它们的I/O数据，CPU，这儿不干你事，自己找乐子去：

引用

1、首先，内核在主内存中为收发数据建立一个环形的缓冲队列（通常叫DMA环形缓冲区）。
2、内核将这个缓冲区通过DMA映射，把这个队列交给网卡；
3、网卡收到数据，就直接放进这个环形缓冲区了——也就是直接放进主内存了；然后，向系统产生一个中断；
4、内核收到这个中断，就取消DMA映射，这样，内核就直接从主内存中读取数据；

——呵呵，这一个过程比传统的过程少了不少工作，因为设备直接把数据放进了主内存，不需要CPU的干预，效率是不是提高不少？

对应以上4步，来看它的具体实现：
1、分配环形DMA缓冲区
Linux内核中，用skb来描述一个缓存，所谓分配，就是建立一定数量的skb，然后把它们组织成一个双向链表；

2、建立DMA映射
内核通过调用
dma_map_single(struct device *dev,void *buffer,size_t size,enum dma_data_direction direction)
建立映射关系。
struct device *dev，描述一个设备；
buffer：把哪个地址映射给设备；也就是某一个skb——要映射全部，当然是做一个双向链表的循环即可；
size：缓存大小；
direction：映射方向——谁传给谁：一般来说，是“双向”映射，数据在设备和内存之间双向流动；

对于PCI设备而言（网卡一般是PCI的），通过另一个包裹函数pci_map_single，这样，就把buffer交给设备了！设备可以直接从里边读/取数据。

3、这一步由硬件完成；

4、取消映射
dma_unmap_single，对PCI而言，大多调用它的包裹函数pci_unmap_single，不取消的话，缓存控制权还在设备手里，要调用它，把主动权掌握在CPU手里——因为我们已经接收到数据了，应该由CPU把数据交给上层网络栈；

当然，不取消之前，通常要读一些状态位信息，诸如此类，一般是调用
dma_sync_single_for_cpu()
让CPU在取消映射前，就可以访问DMA缓冲区中的内容。

关于DMA映射的更多内容，可以参考《Linux设备驱动程序》“内存映射和DMA”章节相关内容！

OK，有了这些知识，我们就可以来看e100的代码了，它跟上面讲的步骤基本上一样的——绕了这么多圈子，就是想绕到e100上面了，呵呵！

在e100_open函数中，调用e100_up，我们前面分析它时，略过了一个重要的东东，就是环形缓冲区的建立，这一步，是通过
e100_rx_alloc_list函数调用完成的：

static int e100_rx_alloc_list(struct nic *nic)  
{  
        struct rx *rx;  
        unsigned int i, count = nic->params.rfds.count;  
  
        nic->rx_to_use = nic->rx_to_clean = NULL;  
        nic->ru_running = RU_UNINITIALIZED;  
  
        /*结构struct rx用来描述一个缓冲区节点，这里分配了count个*/  
        if(!(nic->rxs = kmalloc(sizeof(struct rx) * count, GFP_ATOMIC)))  
                return -ENOMEM;  
        memset(nic->rxs, 0, sizeof(struct rx) * count);  
  
        /*虽然是连续分配的，不过还是遍历它，建立双向链表，然后为每一个rx的skb指针分员分配空间 
        skb用来描述内核中的一个数据包，呵呵，说到重点了*/  
        for(rx = nic->rxs, i = 0; i < count; rx++, i++) {  
                rx->next = (i + 1 < count) ? rx + 1 : nic->rxs;  
                rx->prev = (i == 0) ? nic->rxs + count - 1 : rx - 1;  
                if(e100_rx_alloc_skb(nic, rx)) {                /*分配缓存*/  
                        e100_rx_clean_list(nic);  
                        return -ENOMEM;  
                }  
        }  
  
        nic->rx_to_use = nic->rx_to_clean = nic->rxs;  
        nic->ru_running = RU_SUSPENDED;  
  
        return 0;  
}  

#define RFD_BUF_LEN (sizeof(struct rfd) + VLAN_ETH_FRAME_LEN)  
static inline int e100_rx_alloc_skb(struct nic *nic, struct rx *rx)  
{  
        /*skb缓存的分配，是通过调用系统函数dev_alloc_skb来完成的，它同内核栈中通常调用alloc_skb的区别在于， 
        它是原子的，所以，通常在中断上下文中使用*/  
        if(!(rx->skb = dev_alloc_skb(RFD_BUF_LEN + NET_IP_ALIGN)))  
                return -ENOMEM;  
  
        /*初始化必要的成员 */  
        rx->skb->dev = nic->netdev;  
        skb_reserve(rx->skb, NET_IP_ALIGN);  
        /*这里在数据区之前，留了一块sizeof(struct rfd) 这么大的空间，该结构的 
        一个重要作用，用来保存一些状态信息，比如，在接收数据之前，可以先通过 
        它，来判断是否真有数据到达等，诸如此类*/  
        memcpy(rx->skb->data, &nic->blank_rfd, sizeof(struct rfd));  
        /*这是最关键的一步，建立DMA映射，把每一个缓冲区rx->skb->data都映射给了设备，缓存区节点 
        rx利用dma_addr保存了每一次映射的地址，这个地址后面会被用到*/  
        rx->dma_addr = pci_map_single(nic->pdev, rx->skb->data,  
                RFD_BUF_LEN, PCI_DMA_BIDIRECTIONAL);  
  
        if(pci_dma_mapping_error(rx->dma_addr)) {  
                dev_kfree_skb_any(rx->skb);  
                rx->skb = 0;  
                rx->dma_addr = 0;  
                return -ENOMEM;  
        }  
  
        /* Link the RFD to end of RFA by linking previous RFD to 
         * this one, and clearing EL bit of previous.  */  
        if(rx->prev->skb) {  
                struct rfd *prev_rfd = (struct rfd *)rx->prev->skb->data;  
                /*put_unaligned(val，ptr)；用到把var放到ptr指针的地方，它能处理处理内存对齐的问题 
                prev_rfd是在缓冲区开始处保存的一点空间，它的link成员，也保存了映射后的地址*/  
                put_unaligned(cpu_to_le32(rx->dma_addr),  
                        (u32 *)&prev_rfd->link);  
                wmb();  
                prev_rfd->command &= ~cpu_to_le16(cb_el);  
                pci_dma_sync_single_for_device(nic->pdev, rx->prev->dma_addr,  
                        sizeof(struct rfd), PCI_DMA_TODEVICE);  
        }  
  
        return 0;  
}  

e100_rx_alloc_list函数在一个循环中，建立了环形缓冲区，并调用e100_rx_alloc_skb为每个缓冲区分配了空间，并做了
DMA映射。这样，我们就可以来看接收数据的过程了。

前面我们讲过，中断函数中，调用netif_rx_schedule，表明使用轮询技术，系统会在未来某一时刻，调用设备的poll函数：

static int e100_poll(struct net_device *netdev, int *budget)  
{  
        struct nic *nic = netdev_priv(netdev);  
        unsigned int work_to_do = min(netdev->quota, *budget);  
        unsigned int work_done = 0;  
        int tx_cleaned;  
  
        e100_rx_clean(nic, &work_done, work_to_do);  
        tx_cleaned = e100_tx_clean(nic);  
  
        /* If no Rx and Tx cleanup work was done, exit polling mode. */  
        if((!tx_cleaned && (work_done == 0)) || !netif_running(netdev)) {  
                netif_rx_complete(netdev);  
                e100_enable_irq(nic);  
                return 0;  
        }  
  
        *budget -= work_done;  
        netdev->quota -= work_done;  
  
        return 1;  
}  

目前，我们只关心rx，所以，e100_rx_clean函数就成了我们关注的对像，它用来从缓冲队列中接收全部数据(这或许是取名为clean的原因吧！)：

static inline void e100_rx_clean(struct nic *nic, unsigned int *work_done,  
        unsigned int work_to_do)  
{  
        struct rx *rx;  
        int restart_required = 0;  
        struct rx *rx_to_start = NULL;  
  
        /* are we already rnr? then pay attention!!! this ensures that 
         * the state machine progression never allows a start with a  
         * partially cleaned list, avoiding a race between hardware 
         * and rx_to_clean when in NAPI mode */  
        if(RU_SUSPENDED == nic->ru_running)  
                restart_required = 1;  
  
        /* 函数最重要的工作，就是遍历环形缓冲区，接收数据*/  
        for(rx = nic->rx_to_clean; rx->skb; rx = nic->rx_to_clean = rx->next) {  
                int err = e100_rx_indicate(nic, rx, work_done, work_to_do);  
                if(-EAGAIN == err) {  
                        /* hit quota so have more work to do, restart once 
                         * cleanup is complete */  
                        restart_required = 0;  
                        break;  
                } else if(-ENODATA == err)  
                        break; /* No more to clean */  
        }  
  
        /* save our starting point as the place we'll restart the receiver */  
        if(restart_required)  
                rx_to_start = nic->rx_to_clean;  
  
        /* Alloc new skbs to refill list */  
        for(rx = nic->rx_to_use; !rx->skb; rx = nic->rx_to_use = rx->next) {  
                if(unlikely(e100_rx_alloc_skb(nic, rx)))  
                        break; /* Better luck next time (see watchdog) */  
        }  
  
        if(restart_required) {  
                // ack the rnr?  
                writeb(stat_ack_rnr, &nic->csr->scb.stat_ack);  
                e100_start_receiver(nic, rx_to_start);  
                if(work_done)  
                        (*work_done)++;  
        }  
}  

static inline int e100_rx_indicate(struct nic *nic, struct rx *rx,  
        unsigned int *work_done, unsigned int work_to_do)  
{  
        struct sk_buff *skb = rx->skb;  
        struct rfd *rfd = (struct rfd *)skb->data;  
        u16 rfd_status, actual_size;  
  
        if(unlikely(work_done && *work_done >= work_to_do))  
                return -EAGAIN;  
  
        /* 读取数据之前，也就是取消DMA映射之前，需要先读取cb_complete 状态位， 
        以确定数据是否真的准备好了，并且，rfd的actual_size中，也包含了真实的数据大小 
        pci_dma_sync_single_for_cpu函数前面已经介绍过，它让CPU在取消DMA映射之前，具备 
        访问DMA缓存的能力*/  
        pci_dma_sync_single_for_cpu(nic->pdev, rx->dma_addr,  
                sizeof(struct rfd), PCI_DMA_FROMDEVICE);  
        rfd_status = le16_to_cpu(rfd->status);  
  
        DPRINTK(RX_STATUS, DEBUG, "status=0x%04X\n", rfd_status);  
  
        /* If data isn't ready, nothing to indicate */  
        if(unlikely(!(rfd_status & cb_complete)))  
                return -ENODATA;  
  
        /* Get actual data size */  
        actual_size = le16_to_cpu(rfd->actual_size) & 0x3FFF;  
        if(unlikely(actual_size > RFD_BUF_LEN - sizeof(struct rfd)))  
                actual_size = RFD_BUF_LEN - sizeof(struct rfd);  
  
        /* 取消映射，因为通过DMA，网卡已经把数据放在了主内存中，这里一取消，也就意味着， 
        CPU可以处理主内存中的数据了 */  
        pci_unmap_single(nic->pdev, rx->dma_addr,  
                RFD_BUF_LEN, PCI_DMA_FROMDEVICE);  
  
        /* this allows for a fast restart without re-enabling interrupts */  
        if(le16_to_cpu(rfd->command) & cb_el)  
                nic->ru_running = RU_SUSPENDED;  
          
        /*正确地设置data指针，因为最前面有一个sizeof(struct rfd)大小区域，跳过它*/  
        skb_reserve(skb, sizeof(struct rfd));  
        /*更新skb的tail和len指针，也是就更新接收到这么多数据的长度*/  
        skb_put(skb, actual_size);  
        /*设置协议位*/  
        skb->protocol = eth_type_trans(skb, nic->netdev);  
  
        if(unlikely(!(rfd_status & cb_ok))) {  
                /* Don't indicate if hardware indicates errors */  
                nic->net_stats.rx_dropped++;  
                dev_kfree_skb_any(skb);  
        } else if(actual_size > nic->netdev->mtu + VLAN_ETH_HLEN) {  
                /* Don't indicate oversized frames */  
                nic->rx_over_length_errors++;  
                nic->net_stats.rx_dropped++;  
                dev_kfree_skb_any(skb);  
        } else {  
                /*网卡驱动要做的最后一步，就是统计接收计数器，设置接收时间戳，然后调用netif_receive_skb， 
                把数据包交给上层协议栈，自己的光荣始命也就完成了*/  
                nic->net_stats.rx_packets++;  
                nic->net_stats.rx_bytes += actual_size;  
                nic->netdev->last_rx = jiffies;  
                netif_receive_skb(skb);  
                if(work_done)  
                        (*work_done)++;  
        }  
  
        rx->skb = NULL;  
  
        return 0;  
}  

网卡驱动执行到这里，数据接收的工作，也就处理完成了。但是，使用这一种方法的驱动，省去了网络栈中一个重要的内容，就是
“队列层”，让我们来看看，传统中断接收数据包模式下，使用netif_rx函数调用，又会发生什么。

PS：九贱没有去研究过所谓的“零拷贝”技术，不太清楚，它同这种DMA直取方式有何不同？难道是把网卡中的I/O内存直接映射到主内存中，这样CPU就可以像读取主内存一样，读取网卡的内存，但是这要求设备要有好大的I/O内存来做缓冲呀！！^o^，外行了……希望哪位DX提点！

、

TCP/IP四层模型和OSI七层模型

2008年01月24日星期四下午 06:51

表1-1是 TCP/IP四层模型和OSI七层模型对应表。我们把OSI七层网络模型和Linux TCP/IP四层概念模型对应，然后将各种网络协议归类。
表1-1 TCP/IP四层模型和OSI七层模型对应表

OSI七层网络模型	Linux TCP/IP四层概念模型	对应网络协议
应用层（Application）	应用层	TFTP, FTP, NFS, WAIS
表示层（Presentation）		Telnet, Rlogin, SNMP, Gopher
会话层（Session）		SMTP, DNS
传输层（Transport）	传输层	TCP, UDP
网络层（Network）	网际层	IP, ICMP, ARP, RARP, AKP, UUCP
数据链路层（Data Link）	网络接口	FDDI, Ethernet, Arpanet, PDN, SLIP, PPP
物理层（Physical）	网络接口	IEEE 802.1A, IEEE 802.2到IEEE 802.11

1．网络接口
网络接口把数据链路层和物理层放在一起，对应TCP/IP概念模型的网络接口。对应的网络协议主要是：Ethernet、FDDI和能传输IP数据包的任何协议。
2．网际层
网络层对应Linux TCP/IP概念模型的网际层，网络层协议管理离散的计算机间的数据传输，如IP协议为用户和远程计算机提供了信息包的传输方法，确保信息包能正确地到达目的机器。这一过程中，IP和其他网络层的协议共同用于数据传输，如果没有使用一些监视系统进程的工具，用户是看不到在系统里的IP的。网络嗅探器Sniffers是能看到这些过程的一个装置（它可以是软件，也可以是硬件），它能读取通过网络发送的每一个包，即能读取发生在网络层协议的任何活动，因此网络嗅探器Sniffers会对安全造成威胁。重要的网络层协议包括ARP（地址解析协议）、ICMP（Internet控制消息协议）和IP协议（网际协议）等。
3．传输层
传输层对应Linux TCP/IP概念模型的传输层。传输层提供应用程序间的通信。其功能包括：格式化信息流；提供可靠传输。为实现后者，传输层协议规定接收端必须发回确认信息，如果分组丢失，必须重新发送。传输层包括TCP（Transmission Control Protocol，传输控制协议）和UDP（User Datagram Protocol，用户数据报协议），它们是传输层中最主要的协议。TCP建立在IP之上，定义了网络上程序到程序的数据传输格式和规则，提供了IP数据包的传输确认、丢失数据包的重新请求、将收到的数据包按照它们的发送次序重新装配的机制。TCP 协议是面向连接的协议，类似于打电话，在开始传输数据之前，必须先建立明确的连接。UDP也建立在IP之上，但它是一种无连接协议，两台计算机之间的传输类似于传递邮件：消息从一台计算机发送到另一台计算机，两者之间没有明确的连接。UDP不保证数据的传输，也不提供重新排列次序或重新请求的功能，所以说它是不可靠的。虽然UDP的不可靠性限制了它的应用场合，但它比TCP具有更好的传输效率。
4．应用层
应用层、表示层和会话层对应Linux TCP/IP概念模型中的应用层。应用层位于协议栈的顶端，它的主要任务是应用。一般是可见的，如利用FTP（文件传输协议）传输一个文件，请求一个和目标计算机的连接，在传输文件的过程中，用户和远程计算机交换的一部分是能看到的。常见的应用层协议有：HTTP，FTP，Telnet，SMTP和Gopher等。应用层是Linux网络设定最关键的一层。Linux服务器的配置文档主要针对应用层中的协议。TCP/IP模型各个层次的功能和协议如表1-2所示。
表1-2 TCP/IP模型各个层次的功能和协议

层次名称

功能

协议

网络接口

（Host-to-Net Layer）

负责实际数据的传输，对应OSI参考模型的下两层

HDLC（高级链路控制协议）

PPP（点对点协议）

SLIP（串行线路接口协议）

网际层

（Inter-network Layer）

负责网络间的寻址

数据传输，对应OSI参考模型的第三层

IP（网际协议）

ICMP（网际控制消息协议）

ARP（地址解析协议）

RARP（反向地址解析协议）

传输层

（Transport Layer）

负责提供可靠的传输服务，对应OSI参考模型的第四层

TCP（控制传输协议）

UDP（用户数据报协议）

应用层

（Application Layer）

负责实现一切与应用程序相关的功能，对应OSI参考模型的上三层

FTP（文件传输协议）

HTTP（超文本传输协议）

DNS（域名服务器协议）

SMTP（简单邮件传输协议）

NFS（网络文件系统协议）

说明：TCP/IP与OSI最大的不同在于OSI是一个理论上的网络通信模型，而TCP/IP则是实际运行的网络协议。