块设备剖析之BIO

4110阅读 0评论2015-08-02 夕阳下的孤影
分类:LINUX

    本文所有内容均基于内核版本Linux-v3.2.40。

    本文主要对BIO结构体作基本说明,并重点分析bi_io_vec向量及其用法。
    1. BIO结构体如下所示:

点击(此处)折叠或打开

  1. struct bio {
  2.     sector_t        bi_sector;   /* 本次IO操作的其实扇区,扇区都是512字节大小 */
  3.     struct bio        *bi_next;    /* 用于链接处于同一个request中的BIO */
  4.     struct block_device    *bi_bdev; /* 该bio所请求的块设备 */
  5.     unsigned long        bi_flags;    /* 状态和命令标志 */
  6.     unsigned long        bi_rw;        /* 标志位,主要用于区分读写*/

  7.     unsigned short        bi_vcnt;    /* vec向量数组中向量的个数 */
  8.     unsigned short        bi_idx;        /* vec数组中当前处理的向量索引 */

  9.     /* Number of segments in this BIO after
  10.      * physical address coalescing is performed.
  11.      */
  12.     unsigned int        bi_phys_segments;  /* 合并后的片段数目 */

  13.     unsigned int        bi_size;    /* 本BIO数据量,以字节为单位 */

  14.     /*
  15.      * To keep track of the max segment size, we account for the
  16.      * sizes of the first and last mergeable segments in this bio.
  17.      */
  18.     unsigned int        bi_seg_front_size; /* 第一个可合并段的大小,与request合并相关 */
  19.     unsigned int        bi_seg_back_size; /* 最后一个可合并段的大小,与request合并相关 */

  20.     unsigned int        bi_max_vecs;    /* vec向量数组中向量元素个数的上限 */

  21.     atomic_t        bi_cnt;        /* 使用计数 */

  22.     struct bio_vec        *bi_io_vec;    /* vec向量数组指针 */

  23.     bio_end_io_t        *bi_end_io;  /* 该bio结束时的回调函数,一般用于通知调用者该bio的完成情况 */

  24.     void            *bi_private; /* 私有指针,通用bio代码不会使用该成员,一般供底层驱动程序使用 */
  25. #if defined(CONFIG_BLK_DEV_INTEGRITY)
  26.     struct bio_integrity_payload *bi_integrity; /* data integrity */
  27. #endif

  28.     bio_destructor_t    *bi_destructor;    /* 析构函数,用于在删除一个bio实例时调用 */

  29.     /*
  30.      * We can inline a number of vecs at the end of the bio, to avoid
  31.      * double allocations for a small number of bio_vecs. This member
  32.      * MUST obviously be kept at the very end of the bio.
  33.      */
  34.     struct bio_vec        bi_inline_vecs[0];
  35. };
    注意:
    1). 一个BIO所请求的数据在块设备中是连续的,对于不连续的数据块需要放到多个BIO中。
    2). 一个BIO所携带的数据大小是有上限的,该上限值由bi_max_vecs间接指定,超过上限的数据块必须放到多个BIO中。

    2. 向量数组
bi_io_vec
    BIO中的向量数组bi_io_vec用来描述该BIO所请求的数据在内存中的分布,其中每个数组元素的具体结构如下:

点击(此处)折叠或打开

  1. struct bio_vec {
  2.     struct page    *bv_page; /* 在内存中的page实例 */
  3.     unsigned int    bv_len; /* 该向量元素关联的数据长度,最大为一个page */
  4.     unsigned int    bv_offset; /* 该向量元素关联的数据在page中的偏移 */
  5. };
    数组个数由bi_vcnt指定,而bi_idx则表示当前处理的vec索引,因此根据而且即可跟踪该BIO的处理进度。
    每个vec对应一个page,它所描述的数据长度由bv_len指定,而bv_offset则用来说明数据块在page中的偏移。

     2.1 两个常见的疑问
    1)为什么需要bv_offsetbv_len呢?(我们假定以下的讨论中page size都为4K,当然对于其他的page size,道理是一样的
    我们知道对于块设备来说,它处理数据的最小单位是扇区,而不同介质的扇区大小也是不同的,定义bv_offset和bv_len就是为了将数据块的粒度切分到扇区大小。例如机械硬盘,它的扇区大小为512,所以为了描述一个扇区,bv_len必须设置为512,而bv_offset可以为0/512/1024等等,总之是512的倍数且不超过一个page,也就是说bv_len和bv_offset必须是扇区对齐的。
    2)在用户态操作一个块设备的时候不是也能读写几个字节?
    其实这涉及到文件的cache操作,当从应用层下发几字节的读请求时,文件系统会向块设备下发4k甚至更多的读请求,待块设备返回后,将返回的数据缓存到内存中,并向应用层返回请求的数据,这也是常说的buffer-IO模式;对于另一种模式dircet-IO,是不能读写几个字节的,它请求的数据必须是扇区对齐的。

     2.2 bi_io_vec的遍历
    内核提供了宏bio_for_each_segment用来遍历bi_io_vec,其实就是借助了bi_vcnt和bi_idx

     2.3 BIO、bi_io_vec、page之间的关系



    本文如有不妥或错误之处,欢迎批评指正。

    
上一篇:块设备剖析之关键数据结构分析 - block_device/gendisk/hd_struct
下一篇:块设备剖析之两种IO的处理方式