3.4.2 数据结构_Linux内核深度解析-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

3.4.2 数据结构

1．虚拟内存区域

虚拟内存区域是分配给进程的一个虚拟地址范围，内核使用结构体vm_area_struct描述虚拟内存区域，主要成员如表3.4所示。

表3.4 虚拟内存区域的主要成员

文件映射的虚拟内存区域如图3.9所示。

图3.9 文件映射的虚拟内存区域

（1）成员vm_file指向文件的一个打开实例（file）。索引节点代表一个文件，描述文件的属性。

（2）成员vm_pgoff存放文件的以页为单位的偏移。

（3）成员vm_ops指向虚拟内存操作集合，创建文件映射的时候调用文件操作集合中的mmap方法（file->f_op->mmap）以注册虚拟内存操作集合。例如：假设文件属于EXT4文件系统，文件操作集合中的mmap方法是函数ext4_file_mmap，该函数把虚拟内存区域的成员vm_ops设置为ext4_file_vm_ops。

共享匿名映射的虚拟内存区域如图3.10所示，共享匿名映射的实现原理和文件映射相同，区别是共享匿名映射关联的文件是内核创建的内部文件。在内存文件系统tmpfs中创建一个名为“/dev/zero”的文件，名字没有意义，创建两个共享匿名映射就会创建两个名为“/dev/zero”的文件，两个文件是独立的，毫无关系。

图3.10 共享匿名映射的虚拟内存区域

（1）成员vm_file指向文件的一个打开实例（file）。

（2）成员vm_pgoff存放文件的以页为单位的偏移。

（3）成员vm_ops指向共享内存的虚拟内存操作集合shmem_vm_ops。

私有匿名映射的虚拟内存区域如图3.11所示。

图3.11 私有匿名映射的虚拟内存区域

❑ 成员vm_file没有意义，是空指针。

❑ 成员vm_pgoff没有意义。

❑ 成员vm_ops是空指针。

（1）页保护位（vm_area_struct.vm_page_prot）：描述虚拟内存区域的访问权限。内核定义了一个保护位映射数组，把VM_READ、VM_WRITE、VM_EXEC和VM_SHARED这4个标志转换成保护位组合。

每种处理器架构需要定义__P000到__S111的宏，P代表私有（Private）, S代表共享（Shared），后面的3个数字分别表示可读、可写和可执行，例如__P000表示私有、不可读、不可写和不可执行，__S111表示共享、可读、可写和可执行。

    mm/mmap.c
    pgprot_t protection_map[16] = {
        __P000, __P001, __P010, __P011, __P100, __P101, __P110, __P111,
        __S000, __S001, __S010, __S011, __S100, __S101, __S110, __S111
    };
    pgprot_t vm_get_page_prot(unsigned long vm_flags)
    {
        return __pgprot(pgprot_val(protection_map[vm_flags &
                    (VM_READ|VM_WRITE|VM_EXEC|VM_SHARED)]) |
                  pgprot_val(arch_vm_get_page_prot(vm_flags)));
    }

函数arch_vm_get_page_prot由每种处理器架构自定义，默认的实现如下：

    include/linux/mman.h
    #ifndef arch_vm_get_page_prot
    #define arch_vm_get_page_prot(vm_flags) __pgprot(0)
    #endif

（2）虚拟内存区域标志：结构体vm_area_struct的成员vm_flags存放虚拟内存区域的标志，头文件“include/linux/mm.h”定义了各种标志，常用的标志如下。

1）VM_READ、VM_WRITE、VM_EXEC和VM_SHARED分别表示可读、可写、可执行和可以被多个进程共享。

2）VM_MAYREAD表示允许设置VM_READ, VM_MAYWRITE表示允许设置VM_WRITE, VM_MAYEXEC表示允许设置VM_EXEC, VM_MAYSHARE表示允许设置VM_SHARED。这4个标志用来限制系统调用mprotect可以设置的访问权限。

3）VM_GROWSDOWN表示虚拟内存区域可以向下（低的虚拟地址）扩展，VM_GROWSUP表示虚拟内存区域可以向上（高的虚拟地址）扩展。VM_STACK表示虚拟内存区域是栈，绝大多数处理器的栈是向下扩展，VM_STACK等价于VM_GROWSDOWN；少数处理器（例如PA-RISC处理器）的栈是向上扩展，VM_STACK等价于VM_GROWSUP。

4）VM_PFNMAP表示页帧号（Page Frame Number, PFN）映射，特殊映射不希望关联页描述符，直接使用页帧号，可能是因为页描述符不存在，也可能是因为不想使用页描述符。

5）VM_MIXEDMAP表示映射混合使用页帧号和页描述符。

6）VM_LOCKED表示页被锁定在内存中，不允许换出到交换区。

7）VM_SEQ_READ表示进程从头到尾按顺序读一个文件，VM_RAND_READ表示进程随机读一个文件。这两个标志用来提示文件系统，如果进程按顺序读一个文件，文件系统可以预读文件，提高性能。

8）VM_DONTCOPY表示调用fork以创建子进程时不把虚拟内存区域复制给子进程。

9）VM_DONTEXPAND表示不允许使用mremap()扩大虚拟内存区域。

10）VM_ACCOUNT表示虚拟内存区域需要记账，判断所有进程申请的虚拟内存的总和是否超过物理内存容量。

11）VM_NORESERVE表示不需要预留物理内存。

12）VM_HUGETLB表示虚拟内存区域使用标准巨型页。

13）VM_ARCH_1和VM_ARCH_2由各种处理器架构自定义。

14）VM_HUGEPAGE表示虚拟内存区域允许使用透明巨型页，VM_NOHUGEPAGE表示虚拟内存区域不允许使用透明巨型页。

15）VM_MERGEABLE表示KSM（内核相同页合并，Kernel Samepage Merging）可以合并数据相同的页。

（3）虚拟内存操作集合（vm_operations_struct）：定义了虚拟内存区域的各种操作方法，其代码如下。

    include/linux/mm.h
    struct vm_operations_struct {
          void (*open)(struct vm_area_struct * area);
          void (*close)(struct vm_area_struct * area);
          int (*mremap)(struct vm_area_struct * area);
          int (*fault)(struct vm_fault *vmf);
          int (*huge_fault)(struct vm_fault *vmf, enum page_entry_size pe_size);
          void (*map_pages)(struct vm_fault *vmf,
                  pgoff_t start_pgoff, pgoff_t end_pgoff);
         /* 通知以前的只读页即将变成可写，
          * 如果返回一个错误，将会发送信号SIGBUS给进程*/
          int (*page_mkwrite)(struct vm_fault *vmf);
         /* 使用VM_PFNMAP或者VM_MIXEDMAP时调用，功能和page_mkwrite相同*/
          int (*pfn_mkwrite)(struct vm_fault *vmf);
          …
    }

1）open方法：在创建虚拟内存区域时调用open方法，通常不使用，设置为空指针。

2）close方法：在删除虚拟内存区域时调用close方法，通常不使用，设置为空指针。

3）mremap方法：使用系统调用mremap移动虚拟内存区域时调用mremap方法。

4）fault方法：访问文件映射的虚拟页时，如果没有映射到物理页，生成缺页异常，异常处理程序调用fault方法来把文件的数据读到文件的页缓存中。

5）huge_fault方法：和fault方法类似，区别是huge_fault方法针对使用透明巨型页的文件映射。

6）map_pages方法：读文件映射的虚拟页时，如果没有映射到物理页，生成缺页异常，异常处理程序除了读入正在访问的文件页，还会预读后续的文件页，调用map_pages方法在文件的页缓存中分配物理页。

7）page_mkwrite方法：第一次写私有的文件映射时，生成页错误异常，异常处理程序执行写时复制，调用page_mkwrite方法以通知文件系统页即将变成可写，以便文件系统检查是否允许写，或者等待页进入合适的状态。

8）pfn_mkwrite方法：和page_mkwrite方法类似，区别是pfn_mkwrite方法针对页帧号映射和混合映射。

2．链表和树

如图3.12所示，进程的虚拟内存区域按两种方法排序。

图3.12 虚拟内存区域的链表和树

（1）双向链表，mm_struct.mmap指向第一个vm_area_struct实例。

（2）红黑树，mm_struct.mm_rb指向红黑树的根。

虚拟内存区域使用起始地址和结束地址描述，链表按起始地址递增排序。红黑树是平衡的二叉查找树，按起始地址排序，使用红黑树有以下好处。

（1）在红黑树中查找一个虚拟内存区域的速度快。

（2）增加一个新的区域时，先在红黑树中找到刚好在新区域前面的区域，然后向链表和树中插入新区域，可以避免扫描链表。