當(dāng)前位置：首頁(yè) > 运维知识 > linux >内容正文

linux

一文聊透 Linux 缺页异常的处理 —— 图解 Page Faults

發(fā)布時(shí)間：2023/12/24 linux 30 coder

生活随笔收集整理的這篇文章主要介紹了一文聊透 Linux 缺页异常的处理 —— 图解 Page Faults 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文基于內(nèi)核 5.4 版本源碼討論

在前面兩篇介紹 mmap 的文章中，筆者分別從原理角度以及源碼實(shí)現(xiàn)角度帶著大家深入到內(nèi)核世界深度揭秘了 mmap 內(nèi)存映射的本質(zhì)。從整個(gè) mmap 映射的過(guò)程可以看出，內(nèi)核只是在進(jìn)程的虛擬地址空間中尋找出一段空閑的虛擬內(nèi)存區(qū)域 vma 然后分配給本次映射而已。

    vma = vm_area_alloc(mm);
    vma->vm_start = addr;
    vma->vm_end = addr + len;
    vma->vm_flags = vm_flags;
    vma->vm_page_prot = vm_get_page_prot(vm_flags);
    vma->vm_pgoff = pgoff;

如果是文件映射的話，內(nèi)核還會(huì)額外做一項(xiàng)工作，就是將分配出來(lái)的這段虛擬內(nèi)存區(qū)域 vma 與映射文件關(guān)聯(lián)映射起來(lái)。

vma->vm_file = get_file(file);
error = call_mmap(file, vma);

映射的核心就是將虛擬內(nèi)存區(qū)域 vm_area_struct 相關(guān)的內(nèi)存操作 vma->vm_ops 設(shè)置為文件系統(tǒng)的相關(guān)操作 ext4_file_vm_ops。這樣一來(lái)，進(jìn)程后續(xù)對(duì)這段虛擬內(nèi)存的讀寫就相當(dāng)于是讀寫映射文件了。

無(wú)論是匿名映射還是文件映射，內(nèi)核在處理 mmap 映射過(guò)程中貌似都是在進(jìn)程的虛擬地址空間中和虛擬內(nèi)存打交道，僅僅只是為 mmap 映射分配出一段虛擬內(nèi)存而已，整個(gè)映射過(guò)程我們并沒(méi)有看到物理內(nèi)存的身影。

那么大家所關(guān)心的物理內(nèi)存到底是什么時(shí)候映射進(jìn)來(lái)的呢？這就是今天本文要討論的主題 —— 缺頁(yè)中斷。

1. 缺頁(yè)中斷產(chǎn)生的原因

如下圖所示，當(dāng) mmap 系統(tǒng)調(diào)用成功返回之后，內(nèi)核只是為進(jìn)程分配了一段 [vm_start , vm_end] 范圍內(nèi)的虛擬內(nèi)存區(qū)域 vma ，由于還未與物理內(nèi)存發(fā)生關(guān)聯(lián)，所以此時(shí)進(jìn)程頁(yè)表中與 mmap 映射的虛擬內(nèi)存相關(guān)的各級(jí)頁(yè)目錄和頁(yè)表項(xiàng)還都是空的。

當(dāng) CPU 訪問(wèn)這段由 mmap 映射出來(lái)的虛擬內(nèi)存區(qū)域 vma 中的任意虛擬地址時(shí)，MMU 在遍歷進(jìn)程頁(yè)表的時(shí)候就會(huì)發(fā)現(xiàn)，該虛擬內(nèi)存地址在進(jìn)程*頁(yè)目錄 PGD（Page Global Directory）中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pgd_t 是空的，該 pgd_t 并沒(méi)有指向其下一級(jí)頁(yè)目錄 PUD（Page Upper Directory）。

也就是說(shuō)，此時(shí)進(jìn)程頁(yè)表中只有一張*頁(yè)目錄表 PGD，而上層頁(yè)目錄 PUD（Page Upper Directory），中間頁(yè)目錄 PMD（Page Middle Directory），一級(jí)頁(yè)表（Page Table）內(nèi)核都還沒(méi)有創(chuàng)建。

由于現(xiàn)在被訪問(wèn)到的虛擬內(nèi)存地址對(duì)應(yīng)的 pgd_t 是空的，進(jìn)程的四級(jí)頁(yè)表體系還未建立，所以 MMU 會(huì)產(chǎn)生一個(gè)缺頁(yè)中斷，進(jìn)程從用戶態(tài)轉(zhuǎn)入內(nèi)核態(tài)來(lái)處理這個(gè)缺頁(yè)異常。

此時(shí) CPU 會(huì)將發(fā)生缺頁(yè)異常時(shí)，進(jìn)程正在使用的相關(guān)寄存器中的值壓入內(nèi)核棧中。比如，引起進(jìn)程缺頁(yè)異常的虛擬內(nèi)存地址會(huì)被存放在 CR2 寄存器中。同時(shí) CPU 還會(huì)將缺頁(yè)異常的錯(cuò)誤碼 error_code 壓入內(nèi)核棧中。

隨后內(nèi)核會(huì)在 do_page_fault 函數(shù)中來(lái)處理缺頁(yè)異常，該函數(shù)的參數(shù)都是內(nèi)核在處理缺頁(yè)異常的時(shí)候需要用到的基本信息：

dotraplinkage void
do_page_fault(struct pt_regs *regs, unsigned long error_code, unsigned long address)

struct pt_regs 結(jié)構(gòu)中存放的是缺頁(yè)異常發(fā)生時(shí)，正在使用中的寄存器值的集合。address 表示觸發(fā)缺頁(yè)異常的虛擬內(nèi)存地址。

error_code 是對(duì)缺頁(yè)異常的一個(gè)描述，目前內(nèi)核只使用了 error_code 的前六個(gè)比特位來(lái)描述引起缺頁(yè)異常的具體原因，后面比特位的含義我們先暫時(shí)忽略。

P(0) : 如果 error_code 第 0 個(gè)比特位置為 0 ，表示該缺頁(yè)異常是由于 CPU 訪問(wèn)的這個(gè)虛擬內(nèi)存地址 address 背后并沒(méi)有一個(gè)物理內(nèi)存頁(yè)與之映射而引起的，站在進(jìn)程頁(yè)表的角度來(lái)說(shuō)，就是 CPU 訪問(wèn)的這個(gè)虛擬內(nèi)存地址 address 在進(jìn)程四級(jí)頁(yè)表體系中對(duì)應(yīng)的各級(jí)頁(yè)目錄項(xiàng)或者頁(yè)表項(xiàng)是空的（頁(yè)目錄項(xiàng)或者頁(yè)表項(xiàng)中的 P 位為 0 ）。

如果 error_code 第 0 個(gè)比特位置為 1，表示 CPU 訪問(wèn)的這個(gè)虛擬內(nèi)存地址背后雖然有物理內(nèi)存頁(yè)與之映射，但是由于訪問(wèn)權(quán)限不夠而引起的缺頁(yè)異常（保護(hù)異常），比如，進(jìn)程嘗試對(duì)一個(gè)只讀的物理內(nèi)存頁(yè)進(jìn)行寫操作，那么就會(huì)引起寫保護(hù)類型的缺頁(yè)異常。

R/W(1) : 表示引起缺頁(yè)異常的訪問(wèn)類型是什么？如果 error_code 第 1 個(gè)比特位置為 0，表示是由于讀訪問(wèn)引起的。置為 1 表示是由于寫訪問(wèn)引起的。

注意：該標(biāo)志位只是為了描述是哪種訪問(wèn)類型造成了本次缺頁(yè)異常，這個(gè)和前面提到的訪問(wèn)權(quán)限沒(méi)有關(guān)系。比如，進(jìn)程嘗試對(duì)一個(gè)可寫的虛擬內(nèi)存頁(yè)進(jìn)行寫入，訪問(wèn)權(quán)限沒(méi)有問(wèn)題，但是該虛擬內(nèi)存頁(yè)背后并未有物理內(nèi)存與之關(guān)聯(lián)，所以也會(huì)導(dǎo)致缺頁(yè)異常。這種情況下，error_code 的 P 位就會(huì)設(shè)置為 0，R/W 位就會(huì)設(shè)置為 1 。

U/S(2)：表示缺頁(yè)異常發(fā)生在用戶態(tài)還是內(nèi)核態(tài)，error_code 第 2 個(gè)比特位設(shè)置為 0 表示 CPU 訪問(wèn)內(nèi)核空間的地址引起的缺頁(yè)異常，設(shè)置為 1 表示 CPU 訪問(wèn)用戶空間的地址引起的缺頁(yè)異常。

RSVD(3)：這里用于檢測(cè)頁(yè)表項(xiàng)中的保留位（Reserved 相關(guān)的比特位）是否設(shè)置，這些頁(yè)表項(xiàng)中的保留位都是預(yù)留給內(nèi)核以后的相關(guān)功能使用的，所以在缺頁(yè)的時(shí)候需要檢查這些保留位是否設(shè)置，從而決定近一步的擴(kuò)展處理。設(shè)置為 1 表示頁(yè)表項(xiàng)中預(yù)留的這些比特位被使用了。設(shè)置為 0 表示頁(yè)表項(xiàng)中預(yù)留的這些比特位還沒(méi)有被使用。

I/D(4)：設(shè)置為 1 ，表示本次缺頁(yè)異常是在 CPU 獲取指令的時(shí)候引起的。

PK(5)：設(shè)置為 1，表示引起缺頁(yè)異常的虛擬內(nèi)存地址對(duì)應(yīng)頁(yè)表項(xiàng)中的 Protection 相關(guān)的比特位被設(shè)置了。

error_code 比特位的含義定義在文件 /arch/x86/include/asm/traps.h 中：

/*
 * Page fault error code bits:
 *
 *   bit 0 ==	 0: no page found	1: protection fault
 *   bit 1 ==	 0: read access		1: write access
 *   bit 2 ==	 0: kernel-mode access	1: user-mode access
 *   bit 3 ==				1: use of reserved bit detected
 *   bit 4 ==				1: fault was an instruction fetch
 *   bit 5 ==				1: protection keys block access
 */
enum x86_pf_error_code {
	X86_PF_PROT	=		1 << 0,
	X86_PF_WRITE	=		1 << 1,
	X86_PF_USER	=		1 << 2,
	X86_PF_RSVD	=		1 << 3,
	X86_PF_INSTR	=		1 << 4,
	X86_PF_PK	=		1 << 5,
};

2. 內(nèi)核處理缺頁(yè)中斷的入口 —— do_page_fault

經(jīng)過(guò)上一小節(jié)的介紹我們知道，缺頁(yè)中斷產(chǎn)生的根本原因是由于 CPU 訪問(wèn)的這段虛擬內(nèi)存背后沒(méi)有物理內(nèi)存與之映射，表現(xiàn)的具體形式主要有三種：

虛擬內(nèi)存對(duì)應(yīng)在進(jìn)程頁(yè)表體系中的相關(guān)各級(jí)頁(yè)目錄或者頁(yè)表是空的，也就是說(shuō)這段虛擬內(nèi)存完全沒(méi)有被映射過(guò)。
虛擬內(nèi)存之前被映射過(guò)，其在進(jìn)程頁(yè)表的各級(jí)頁(yè)目錄以及頁(yè)表中均有對(duì)應(yīng)的頁(yè)目錄項(xiàng)和頁(yè)表項(xiàng)，但是其對(duì)應(yīng)的物理內(nèi)存被內(nèi)核 swap out 到磁盤上了。
虛擬內(nèi)存雖然背后映射著物理內(nèi)存，但是由于對(duì)物理內(nèi)存的訪問(wèn)權(quán)限不夠而導(dǎo)致的保護(hù)類型的缺頁(yè)中斷。比如，嘗試去寫一個(gè)只讀的物理內(nèi)存頁(yè)。

雖然缺頁(yè)中斷產(chǎn)生的原因多種多樣，內(nèi)核也會(huì)根據(jù)不同的缺頁(yè)原因進(jìn)行不同的處理，但不管怎么說(shuō)，一切的起點(diǎn)都是從 CPU 訪問(wèn)虛擬內(nèi)存開始的，既然提到了虛擬內(nèi)存，我們就不得不回顧一下進(jìn)程虛擬內(nèi)存空間的布局：

在 64 位體系結(jié)構(gòu)下，進(jìn)程虛擬內(nèi)存空間總體上分為兩個(gè)部分，一部分是 128T 的用戶空間，地址范圍為：0x0000 0000 0000 0000 - 0x0000 7FFF FFFF FFFF 。但實(shí)際上，Linux 內(nèi)核是用 TASK_SIZE_MAX 來(lái)定義用戶空間的末尾的，也就是說(shuō) Linux 內(nèi)核是使用 TASK_SIZE_MAX 來(lái)分割用戶虛擬地址空間與內(nèi)核虛擬地址空間的。

#define TASK_SIZE_MAX  task_size_max()

#define task_size_max()  ((_AC(1,UL) << __VIRTUAL_MASK_SHIFT) - PAGE_SIZE)

#define __VIRTUAL_MASK_SHIFT 47

#define PAGE_SHIFT  12
#define PAGE_SIZE  (_AC(1,UL) << PAGE_SHIFT)

TASK_SIZE_MAX 的計(jì)算邏輯首先是將 1 左移 47 位得到的地址是 0x0000800000000000，然后減去一個(gè) PAGE_SIZE （4K），就是 0x00007FFFFFFFF000，所以實(shí)際上，64 位體系結(jié)構(gòu)的 Linux 內(nèi)核中，進(jìn)程用戶空間實(shí)際可用的虛擬地址范圍是：0x0000 0000 0000 0000 - 0x0000 7FFF FFFF F000。

進(jìn)程虛擬內(nèi)存空間的另一部分則是 128T 的內(nèi)核空間，虛擬地址范圍為：0xFFFF 8000 0000 0000 - 0xFFFF FFFF FFFF FFFF。由于在內(nèi)核空間的一開始包含了 8T 的地址空洞，所以內(nèi)核空間實(shí)際可用的虛擬地址范圍是：0xFFFF 8800 0000 0000 - 0xFFFF FFFF FFFF FFFF。

既然進(jìn)程虛擬內(nèi)存地址范圍有用戶空間與內(nèi)核空間之分，那么當(dāng) CPU 訪問(wèn)虛擬內(nèi)存地址時(shí)產(chǎn)生的缺頁(yè)中斷也要區(qū)分下是用戶空間產(chǎn)生的缺頁(yè)還是內(nèi)核空間產(chǎn)生的缺頁(yè)。

static int fault_in_kernel_space(unsigned long address)
{
    /*
     * On 64-bit systems, the vsyscall page is at an address above
     * TASK_SIZE_MAX, but is not considered part of the kernel
     * address space.
     */
    if (IS_ENABLED(CONFIG_X86_64) && is_vsyscall_vaddr(address))
        return false;
    // 在進(jìn)程虛擬內(nèi)存空間中，TASK_SIZE_MAX 以上的虛擬地址均屬于內(nèi)核空間
    return address >= TASK_SIZE_MAX;
}

當(dāng)引起缺頁(yè)中斷的虛擬內(nèi)存地址 address 是在 TASK_SIZE_MAX 之上時(shí)，表示該缺頁(yè)地址是屬于內(nèi)核空間的，內(nèi)核的缺頁(yè)處理程序 __do_page_fault 就要進(jìn)入 do_kern_addr_fault 分支去處理內(nèi)核空間的缺頁(yè)中斷。

當(dāng)引起缺頁(yè)中斷的虛擬內(nèi)存地址 address 是在 TASK_SIZE_MAX 之下時(shí)，表示該缺頁(yè)地址是屬于用戶空間的，內(nèi)核則進(jìn)入 do_user_addr_fault 分支處理用戶空間的缺頁(yè)中斷。

static noinline void
__do_page_fault(struct pt_regs *regs, unsigned long hw_error_code,
        unsigned long address)
{
    // mmap_sem 是進(jìn)程虛擬內(nèi)存空間 mm_struct 的讀寫鎖
    // 內(nèi)核這里將 mmap_sem 預(yù)取到 cacheline 中，并標(biāo)記為獨(dú)占狀態(tài)（ MESI 協(xié)議中的 X 狀態(tài)）
    prefetchw(&current->mm->mmap_sem);

    // 這里判斷引起缺頁(yè)異常的虛擬內(nèi)存地址 address 是屬于內(nèi)核空間的還是用戶空間的
    if (unlikely(fault_in_kernel_space(address)))
        // 如果缺頁(yè)異常發(fā)生在內(nèi)核空間，則由 vmalloc_fault 進(jìn)行處理
        // 這里使用 unlikely 的原因是，內(nèi)核對(duì)內(nèi)存的使用通常是高優(yōu)先級(jí)的而且使用比較頻繁，所以內(nèi)核空間一般很少發(fā)生缺頁(yè)異常。
        do_kern_addr_fault(regs, hw_error_code, address);
    else
        // 缺頁(yè)異常發(fā)生在用戶態(tài)
        do_user_addr_fault(regs, hw_error_code, address);
}
NOKPROBE_SYMBOL(__do_page_fault);

進(jìn)程工作在內(nèi)核空間，就相當(dāng)于你工作在你們公司的核心部門，負(fù)責(zé)的是公司的核心業(yè)務(wù)，公司所有的資源都會(huì)向核心部門傾斜，可以說(shuō)是要什么給什么。

進(jìn)程在內(nèi)核空間工作也是一樣的道理，由于內(nèi)核負(fù)責(zé)的是整個(gè)系統(tǒng)最為核心的任務(wù)，基本上系統(tǒng)中所有的資源都會(huì)向內(nèi)核傾斜，物理內(nèi)存資源也是一樣。內(nèi)核對(duì)內(nèi)存的申請(qǐng)優(yōu)先級(jí)是最高的，使用頻率也是最頻繁的。

所以在為內(nèi)核分配完虛擬內(nèi)存之后，都會(huì)立即分配物理內(nèi)存，而且是申請(qǐng)多少給多少，最大程度上優(yōu)先保證內(nèi)核的工作穩(wěn)定進(jìn)行。因此通常在內(nèi)核中，缺頁(yè)中斷一般很少發(fā)生，這也是在上面那段內(nèi)核代碼中，用 unlikely 修飾 fault_in_kernel_space 函數(shù)的原因。

而進(jìn)程工作在用戶空間，就相當(dāng)于你工作在你們公司的非核心部門，負(fù)責(zé)的是公司的邊緣業(yè)務(wù)，公司沒(méi)有那么多的資源提供給你，你在工作中需要申請(qǐng)的資源，公司不會(huì)馬上提供給你，而是需要延遲到?jīng)]有這些資源你的工作就無(wú)法進(jìn)行的時(shí)候（你真正必須使用的時(shí)候），公司迫不得已才會(huì)把資源分配給你。也就是說(shuō)，你用到什么的時(shí)候才會(huì)給你什么，而不是像你在核心部門那樣，要什么就給你什么。

比如，筆者在前面兩篇文章中為大家介紹的 mmap 內(nèi)存映射，就是工作在進(jìn)程用戶地址空間中的文件映射與匿名映射區(qū)，進(jìn)程在使用 mmap 申請(qǐng)內(nèi)存的時(shí)候，內(nèi)核僅僅只是為進(jìn)程在文件映射與匿名映射區(qū)分配一段虛擬內(nèi)存，重要的物理內(nèi)存資源不會(huì)馬上分配，而是延遲到進(jìn)程真正使用的時(shí)候，才會(huì)通過(guò)缺頁(yè)中斷 __do_page_fault 進(jìn)入到 do_user_addr_fault 分支進(jìn)行物理內(nèi)存資源的分配。

內(nèi)核空間中的缺頁(yè)異常主要發(fā)生在進(jìn)程內(nèi)核虛擬地址空間中 32T 的 vmalloc 映射區(qū)，這段區(qū)域的虛擬內(nèi)存地址范圍為：0xFFFF C900 0000 0000 - 0xFFFF E900 0000 0000。內(nèi)核中的 vmalloc 內(nèi)存分配接口就工作在這個(gè)區(qū)域，它用于將那些不連續(xù)的物理內(nèi)存映射到連續(xù)的虛擬內(nèi)存上。

3. 內(nèi)核態(tài)缺頁(yè)異常處理 —— do_kern_addr_fault

do_kern_addr_fault 函數(shù)的工作主要就是處理內(nèi)核虛擬內(nèi)存空間中 vmalloc 映射區(qū)里的缺頁(yè)異常，這一部分內(nèi)容，筆者會(huì)在 vmalloc_fault 函數(shù)中進(jìn)行介紹。

static void
do_kern_addr_fault(struct pt_regs *regs, unsigned long hw_error_code,
           unsigned long address)
{
    // 該缺頁(yè)的內(nèi)核地址 address 在內(nèi)核頁(yè)表中對(duì)應(yīng)的 pte 不能使用保留位(X86_PF_RSVD = 0)
    // 不能是用戶態(tài)的缺頁(yè)中斷(X86_PF_USER = 0)
    // 且不能是保護(hù)類型的缺頁(yè)中斷 (X86_PF_PROT = 0)
    if (!(hw_error_code & (X86_PF_RSVD | X86_PF_USER | X86_PF_PROT))) {
        // 處理 vmalloc 映射區(qū)里的缺頁(yè)異常
        if (vmalloc_fault(address) >= 0)
            return;
    }
}

讀到這里，大家可能會(huì)有一個(gè)疑惑，作者你剛剛不是才說(shuō)了嗎，工作在內(nèi)核就相當(dāng)于工作在公司的核心部門，要什么資源公司就會(huì)給什么資源，在內(nèi)核空間申請(qǐng)?zhí)摂M內(nèi)存的時(shí)候，都會(huì)馬上分配物理內(nèi)存資源，而且申請(qǐng)多少給多少。

既然物理內(nèi)存會(huì)馬上被分配，那為什么內(nèi)核空間中的 vmalloc 映射區(qū)還會(huì)發(fā)生缺頁(yè)中斷呢？

事實(shí)上，內(nèi)核空間里 vmalloc 映射區(qū)中發(fā)生的缺頁(yè)中斷與用戶空間里文件映射與匿名映射區(qū)以及堆中發(fā)生的缺頁(yè)中斷是不一樣的。

進(jìn)程在用戶空間中無(wú)論是通過(guò) brk 系統(tǒng)調(diào)用在堆中申請(qǐng)內(nèi)存還是通過(guò) mmap 系統(tǒng)調(diào)用在文件與匿名映射區(qū)中申請(qǐng)內(nèi)存，內(nèi)核都只是在相應(yīng)的虛擬內(nèi)存空間中劃分出一段虛擬內(nèi)存來(lái)給進(jìn)程使用。

當(dāng)進(jìn)程真正訪問(wèn)到這段虛擬內(nèi)存地址的時(shí)候，才會(huì)產(chǎn)生缺頁(yè)中斷，近而才會(huì)分配物理內(nèi)存，最后將引起本次缺頁(yè)的虛擬地址在進(jìn)程頁(yè)表中對(duì)應(yīng)的全局頁(yè)目錄項(xiàng) pgd，上層頁(yè)目錄項(xiàng) pud，中間頁(yè)目錄 pmd，頁(yè)表項(xiàng) pte 都創(chuàng)建好，然后在 pte 中將虛擬內(nèi)存地址與物理內(nèi)存地址映射起來(lái)。

而內(nèi)核通過(guò) vmalloc 內(nèi)存分配接口在 vmalloc 映射區(qū)申請(qǐng)內(nèi)存的時(shí)候，首先也會(huì)在 32T 大小的 vmalloc 映射區(qū)中劃分出一段未被使用的虛擬內(nèi)存區(qū)域出來(lái)，我們暫且叫這段虛擬內(nèi)存區(qū)域?yàn)?vmalloc 區(qū)，這一點(diǎn)和前面文章介紹的 mmap 非常相似，只不過(guò) mmap 工作在用戶空間的文件與匿名映射區(qū)，vmalloc 工作在內(nèi)核空間的 vmalloc 映射區(qū)。

內(nèi)核空間中的 vmalloc 映射區(qū)就是由這樣一段一段的 vmalloc 區(qū)組成的，每調(diào)用一次 vmalloc 內(nèi)存分配接口，就會(huì)在 vmalloc 映射區(qū)中映射出一段 vmalloc 虛擬內(nèi)存區(qū)域，而且每個(gè) vmalloc 區(qū)之間隔著一個(gè) 4K 大小的 guard page（虛擬內(nèi)存），用于防止內(nèi)存越界，將這些非連續(xù)的物理內(nèi)存區(qū)域隔離起來(lái)。

和 mmap 不同的是，vmalloc 在分配完虛擬內(nèi)存之后，會(huì)馬上為這段虛擬內(nèi)存分配物理內(nèi)存，內(nèi)核會(huì)首先計(jì)算出由 vmalloc 內(nèi)存分配接口映射出的這一段虛擬內(nèi)存區(qū)域 vmalloc 區(qū)中包含的虛擬內(nèi)存頁(yè)數(shù)，然后調(diào)用伙伴系統(tǒng)依次為這些虛擬內(nèi)存頁(yè)分配物理內(nèi)存頁(yè)。

3.1 vmalloc

下面是 vmalloc 內(nèi)存分配的核心邏輯，封裝在 __vmalloc_node_range 函數(shù)中：

/**
 * __vmalloc_node_range - allocate virtually contiguous memory
 * Allocate enough pages to cover @size from the page level
 * allocator with @gfp_mask flags.  Map them into contiguous
 * kernel virtual space, using a pagetable protection of @prot.
 *
 * Return: the address of the area or %NULL on failure
 */
void *__vmalloc_node_range(unsigned long size, unsigned long align,
            unsigned long start, unsigned long end, gfp_t gfp_mask,
            pgprot_t prot, unsigned long vm_flags, int node,
            const void *caller)
{
    // 用于描述 vmalloc 虛擬內(nèi)存區(qū)域的數(shù)據(jù)結(jié)構(gòu)，同 mmap 中的 vma 結(jié)構(gòu)很相似
    struct vm_struct *area;
    // vmalloc 虛擬內(nèi)存區(qū)域的起始地址
    void *addr;
    unsigned long real_size = size;
    // size 為要申請(qǐng)的 vmalloc 虛擬內(nèi)存區(qū)域大小，這里需要按頁(yè)對(duì)齊
    size = PAGE_ALIGN(size);
    // 因?yàn)樵诜峙渫?vmalloc 區(qū)之后，馬上就會(huì)為其分配物理內(nèi)存
    // 所以這里需要檢查 size 大小不能超過(guò)當(dāng)前系統(tǒng)中的空閑物理內(nèi)存
    if (!size || (size >> PAGE_SHIFT) > totalram_pages())
        goto fail;

    // 在內(nèi)核空間的 vmalloc 動(dòng)態(tài)映射區(qū)中，劃分出一段空閑的虛擬內(nèi)存區(qū)域 vmalloc 區(qū)出來(lái)
    // 這里虛擬內(nèi)存的分配過(guò)程和 mmap 在用戶態(tài)文件與匿名映射區(qū)分配虛擬內(nèi)存的過(guò)程非常相似，這里就不做過(guò)多的介紹了。
    area = __get_vm_area_node(size, align, VM_ALLOC | VM_UNINITIALIZED |
                vm_flags, start, end, node, gfp_mask, caller);
    if (!area)
        goto fail;
    // 為 vmalloc 虛擬內(nèi)存區(qū)域中的每一個(gè)虛擬內(nèi)存頁(yè)分配物理內(nèi)存頁(yè)
    // 并在內(nèi)核頁(yè)表中將 vmalloc 區(qū)與物理內(nèi)存映射起來(lái)
    addr = __vmalloc_area_node(area, gfp_mask, prot, node);
    if (!addr)
        return NULL;

    return addr;
}

同 mmap 用 vm_area_struct 結(jié)構(gòu)來(lái)描述其在用戶空間的文件與匿名映射區(qū)分配出來(lái)的虛擬內(nèi)存區(qū)域一樣，內(nèi)核空間的 vmalloc 動(dòng)態(tài)映射區(qū)也有一種數(shù)據(jù)結(jié)構(gòu)來(lái)專門描述該區(qū)域中的虛擬內(nèi)存區(qū)，這個(gè)結(jié)構(gòu)就是下面的 vm_struct。

// 用來(lái)描述 vmalloc 區(qū)
struct vm_struct {
    // vmalloc 動(dòng)態(tài)映射區(qū)中的所有虛擬內(nèi)存區(qū)域也都是被一個(gè)單向鏈表所串聯(lián)
    struct vm_struct    *next;
    // vmalloc 區(qū)的起始內(nèi)存地址
    void            *addr;
    // vmalloc 區(qū)的大小
    unsigned long       size;
    // vmalloc 區(qū)的相關(guān)標(biāo)記
    // VM_ALLOC 表示該區(qū)域是由 vmalloc 函數(shù)映射出來(lái)的
    // VM_MAP 表示該區(qū)域是由 vmap 函數(shù)映射出來(lái)的
    // VM_IOREMAP 表示該區(qū)域是由 ioremap 函數(shù)將硬件設(shè)備的內(nèi)存映射過(guò)來(lái)的
    unsigned long       flags;
    // struct page 結(jié)構(gòu)的數(shù)組指針，數(shù)組中的每一項(xiàng)指向該虛擬內(nèi)存區(qū)域背后映射的物理內(nèi)存頁(yè)。
    struct page     **pages;
    // 該虛擬內(nèi)存區(qū)域包含的物理內(nèi)存頁(yè)個(gè)數(shù)
    unsigned int        nr_pages;
    // ioremap 映射硬件設(shè)備物理內(nèi)存的時(shí)候填充
    phys_addr_t     phys_addr;
    // 調(diào)用者的返回地址（這里可忽略）
    const void      *caller;
};

由于內(nèi)核在分配完 vmalloc 虛擬內(nèi)存區(qū)之后，會(huì)馬上為其分配物理內(nèi)存，所以在 vm_struct 結(jié)構(gòu)中有一個(gè) struct page 結(jié)構(gòu)的數(shù)組指針 pages，用于指向該虛擬內(nèi)存區(qū)域背后映射的物理內(nèi)存頁(yè)。nr_pages 則是數(shù)組的大小，也表示該虛擬內(nèi)存區(qū)域包含的物理內(nèi)存頁(yè)個(gè)數(shù)。

在內(nèi)核中所有的這些 vm_struct 均是被一個(gè)單鏈表串聯(lián)組織的，在早期的內(nèi)核版本中就是通過(guò)遍歷這個(gè)單向鏈表來(lái)在 vmalloc 動(dòng)態(tài)映射區(qū)中尋找空閑的虛擬內(nèi)存區(qū)域的，后來(lái)為了提高查找效率引入了紅黑樹以及雙向鏈表來(lái)重新組織這些 vmalloc 區(qū)域，于是專門引入了一個(gè) vmap_area 結(jié)構(gòu)來(lái)描述 vmalloc 區(qū)域的組織形式。

struct vmap_area {
    // vmalloc 區(qū)的起始內(nèi)存地址
    unsigned long va_start;
    // vmalloc 區(qū)的結(jié)束內(nèi)存地址
    unsigned long va_end;
    // vmalloc 區(qū)所在紅黑樹中的節(jié)點(diǎn)
    struct rb_node rb_node;         /* address sorted rbtree */
    // vmalloc 區(qū)所在雙向鏈表中的節(jié)點(diǎn)
    struct list_head list;          /* address sorted list */
    // 用于關(guān)聯(lián) vm_struct 結(jié)構(gòu)
    struct vm_struct *vm;          
};

看起來(lái)和用戶空間中虛擬內(nèi)存區(qū)域的組織形式越來(lái)越像了，不同的是由于用戶空間是進(jìn)程間隔離的，所以組織用戶空間虛擬內(nèi)存區(qū)域的紅黑樹以及雙向鏈表是進(jìn)程獨(dú)占的。

struct mm_struct {
     struct vm_area_struct *mmap;  /* list of VMAs */
     struct rb_root mm_rb;
}

而內(nèi)核空間是所有進(jìn)程共享的，所以組織內(nèi)核空間虛擬內(nèi)存區(qū)域的紅黑樹以及雙向鏈表是全局的。

static struct rb_root vmap_area_root = RB_ROOT;
extern struct list_head vmap_area_list;

在我們了解了 vmalloc 動(dòng)態(tài)映射區(qū)中的相關(guān)數(shù)據(jù)結(jié)構(gòu)與組織形式之后，接下來(lái)我們看一看為 vmalloc 區(qū)分配物理內(nèi)存的過(guò)程：

static void *__vmalloc_area_node(struct vm_struct *area, gfp_t gfp_mask,
                 pgprot_t prot, int node)
{
    // 指向即將為 vmalloc 區(qū)分配的物理內(nèi)存頁(yè)
    struct page **pages;
    unsigned int nr_pages, array_size, i;

    // 計(jì)算 vmalloc 區(qū)所需要的虛擬內(nèi)存頁(yè)個(gè)數(shù)
    nr_pages = get_vm_area_size(area) >> PAGE_SHIFT;
    // vm_struct 結(jié)構(gòu)中的 pages 數(shù)組大小，用于存放指向每個(gè)物理內(nèi)存頁(yè)的指針
    array_size = (nr_pages * sizeof(struct page *));

    // 首先要為 pages 數(shù)組分配內(nèi)存
    if (array_size > PAGE_SIZE) {
        // array_size 超過(guò) PAGE_SIZE 大小則遞歸調(diào)用 vmalloc 分配數(shù)組所需內(nèi)存
        pages = __vmalloc_node(array_size, 1, nested_gfp|highmem_mask,
                PAGE_KERNEL, node, area->caller);
    } else {
        // 直接調(diào)用 kmalloc 分配數(shù)組所需內(nèi)存
        pages = kmalloc_node(array_size, nested_gfp, node);
    }

    // 初始化 vm_struct
    area->pages = pages;
    area->nr_pages = nr_pages;

    // 依次為 vmalloc 區(qū)中包含的所有虛擬內(nèi)存頁(yè)分配物理內(nèi)存
    for (i = 0; i < area->nr_pages; i++) {
        struct page *page;

        if (node == NUMA_NO_NODE)
            // 如果沒(méi)有特殊指定 numa node，則從當(dāng)前 numa node 中分配物理內(nèi)存頁(yè)
            page = alloc_page(alloc_mask|highmem_mask);
        else
            // 否則就從指定的 numa node 中分配物理內(nèi)存頁(yè)
            page = alloc_pages_node(node, alloc_mask|highmem_mask, 0);
        // 將分配的物理內(nèi)存頁(yè)依次存放到 vm_struct 結(jié)構(gòu)中的 pages 數(shù)組中
        area->pages[i] = page;
    }
    
    atomic_long_add(area->nr_pages, &nr_vmalloc_pages);
    // 修改內(nèi)核主頁(yè)表，將剛剛分配出來(lái)的所有物理內(nèi)存頁(yè)與 vmalloc 虛擬內(nèi)存區(qū)域進(jìn)行映射
    if (map_vm_area(area, prot, pages))
        goto fail;
    // 返回 vmalloc 虛擬內(nèi)存區(qū)域起始地址
    return area->addr;
}

在內(nèi)核中，凡是有物理內(nèi)存出現(xiàn)的地方，就一定伴隨著頁(yè)表的映射，vmalloc 也不例外，當(dāng)分配完物理內(nèi)存之后，就需要修改內(nèi)核頁(yè)表，然后將物理內(nèi)存映射到 vmalloc 虛擬內(nèi)存區(qū)域中，當(dāng)然了，這個(gè)過(guò)程也伴隨著 vmalloc 區(qū)域中的這些虛擬內(nèi)存地址在內(nèi)核頁(yè)表中對(duì)應(yīng)的 pgd，pud，pmd，pte 相關(guān)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)的創(chuàng)建。

大家需要注意的是，這里的內(nèi)核頁(yè)表指的是內(nèi)核主頁(yè)表，內(nèi)核主頁(yè)表的*頁(yè)目錄起始地址存放在 init_mm 結(jié)構(gòu)中的 pgd 屬性中，其值為 swapper_pg_dir。

struct mm_struct init_mm = {
   // 內(nèi)核主頁(yè)表
  .pgd    = swapper_pg_dir,
}

#define swapper_pg_dir init_top_pgt

內(nèi)核主頁(yè)表在系統(tǒng)初始化的時(shí)候被一段匯編代碼 arch\x86\kernel\head_64.S 所創(chuàng)建。后續(xù)在系統(tǒng)啟動(dòng)函數(shù) start_kernel 中調(diào)用 setup_arch 進(jìn)行初始化。

正如之前文章《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》?中介紹的那樣，普通進(jìn)程在內(nèi)核態(tài)亦或是內(nèi)核線程都是無(wú)法直接訪問(wèn)內(nèi)核主頁(yè)表的，它們只能訪問(wèn)內(nèi)核主頁(yè)表的 copy 副本，于是進(jìn)程頁(yè)表體系就分為了兩個(gè)部分，一個(gè)是進(jìn)程用戶態(tài)頁(yè)表（用戶態(tài)缺頁(yè)處理的就是這部分），另一個(gè)就是內(nèi)核頁(yè)表的 copy 部分（內(nèi)核態(tài)缺頁(yè)處理的是這部分）。

在 fork 系統(tǒng)調(diào)用創(chuàng)建進(jìn)程的時(shí)候，進(jìn)程的用戶態(tài)頁(yè)表拷貝自他的父進(jìn)程，而進(jìn)程的內(nèi)核態(tài)頁(yè)表則從內(nèi)核主頁(yè)表中拷貝，后續(xù)進(jìn)程陷入內(nèi)核態(tài)之后，訪問(wèn)的就是內(nèi)核主頁(yè)表中拷貝的這部分。

這也引出了一個(gè)新的問(wèn)題，就是內(nèi)核主頁(yè)表與其在進(jìn)程中的拷貝副本如何同步呢？這就是本小節(jié)，筆者想要和大家交代的主題 —— 內(nèi)核態(tài)缺頁(yè)異常的處理。

3.2 vmalloc_fault

當(dāng)內(nèi)核通過(guò) vmalloc 內(nèi)存分配接口修改完內(nèi)核主頁(yè)表之后，主頁(yè)表中的相關(guān)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)的內(nèi)容就發(fā)生了改變，而這背后的一切，進(jìn)程現(xiàn)在還被蒙在鼓里，一無(wú)所知，此時(shí)，進(jìn)程頁(yè)表中的內(nèi)核部分相關(guān)的頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)還都是空的。

當(dāng)進(jìn)程陷入內(nèi)核態(tài)訪問(wèn)這部分頁(yè)表的的時(shí)候，會(huì)發(fā)現(xiàn)相關(guān)頁(yè)目錄或者頁(yè)表項(xiàng)是空的，就會(huì)進(jìn)入缺頁(yè)中斷的內(nèi)核處理部分，也就是前面提到的 vmalloc_fault 函數(shù)中，如果發(fā)現(xiàn)缺頁(yè)的虛擬地址在內(nèi)核主頁(yè)表*全局頁(yè)目錄表中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pgd 存在，而缺頁(yè)地址在進(jìn)程頁(yè)表內(nèi)核部分對(duì)應(yīng)的 pgd 不存在，那么內(nèi)核就會(huì)把內(nèi)核主頁(yè)表中 pgd 頁(yè)目錄項(xiàng)里的內(nèi)容復(fù)制給進(jìn)程頁(yè)表內(nèi)核部分中對(duì)應(yīng)的 pgd。

事實(shí)上，同步內(nèi)核主頁(yè)表的工作只需要將缺頁(yè)地址對(duì)應(yīng)在內(nèi)核主頁(yè)表中的*全局頁(yè)目錄項(xiàng) pgd 同步到進(jìn)程頁(yè)表內(nèi)核部分對(duì)應(yīng)的 pgd 地址處就可以了，正如上圖中所示，每一級(jí)的頁(yè)目錄項(xiàng)中存放的均是其下一級(jí)頁(yè)目錄表的物理內(nèi)存地址。

例如內(nèi)核主頁(yè)表這里的 pgd 存放的是其下一級(jí) —— 上層頁(yè)目錄 PUD 的起始物理內(nèi)存地址，PUD 中的頁(yè)目錄項(xiàng) pud 又存放的是其下一級(jí) —— 中間頁(yè)目錄 PMD 的起始物理內(nèi)存地址，依次類推，中間頁(yè)目錄項(xiàng) pmd 存放的又是頁(yè)表的起始物理內(nèi)存地址。

既然每一級(jí)頁(yè)目錄表中的頁(yè)目錄項(xiàng)存放的都是其下一級(jí)頁(yè)目錄表的起始物理內(nèi)存地址，那么頁(yè)目錄項(xiàng)中存放的就相當(dāng)于是下一級(jí)頁(yè)目錄表的引用，這樣一來(lái)我們就只需要同步最*的頁(yè)目錄項(xiàng) pgd 就可以了，后面只要與該 pgd 相關(guān)的頁(yè)目錄表以及頁(yè)表發(fā)生任何變化，由于是引用的關(guān)系，這些改變都會(huì)立刻自動(dòng)反應(yīng)到進(jìn)程頁(yè)表的內(nèi)核部分中，后面就不需要同步了。

/*
 * 64-bit:
 *
 *   Handle a fault on the vmalloc area
 */
static noinline int vmalloc_fault(unsigned long address)
{
    // 分別是缺頁(yè)虛擬地址 address 對(duì)應(yīng)在內(nèi)核主頁(yè)表的全局頁(yè)目錄項(xiàng) pgd_k ，以及進(jìn)程頁(yè)表中對(duì)應(yīng)的全局頁(yè)目錄項(xiàng) pgd
    pgd_t *pgd, *pgd_k;
    // p4d_t 用于五級(jí)頁(yè)表體系，當(dāng)前 cpu 架構(gòu)體系下一般采用的是四級(jí)頁(yè)表
    // 在四級(jí)頁(yè)表下 p4d 是空的，pgd 的值會(huì)賦值給 p4d
    p4d_t *p4d, *p4d_k;
    // 缺頁(yè)虛擬地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表中的上層目錄項(xiàng) pud
    pud_t *pud;
    // 缺頁(yè)虛擬地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表中的中間目錄項(xiàng) pmd
    pmd_t *pmd;
    // 缺頁(yè)虛擬地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表中的頁(yè)表項(xiàng) pte
    pte_t *pte;

    // 確保缺頁(yè)發(fā)生在內(nèi)核 vmalloc 動(dòng)態(tài)映射區(qū)
    if (!(address >= VMALLOC_START && address < VMALLOC_END))
        return -1;

    // 獲取缺頁(yè)虛擬地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表的全局頁(yè)目錄項(xiàng) pgd
    pgd = (pgd_t *)__va(read_cr3_pa()) + pgd_index(address);
    // 獲取缺頁(yè)虛擬地址 address 對(duì)應(yīng)在內(nèi)核主頁(yè)表的全局頁(yè)目錄項(xiàng) pgd_k
    pgd_k = pgd_offset_k(address);

    // 如果內(nèi)核主頁(yè)表中的 pgd_k 本來(lái)就是空的，說(shuō)明 address 是一個(gè)非法訪問(wèn)的地址，返回 -1 
    if (pgd_none(*pgd_k))
        return -1;

    // 如果開啟了五級(jí)頁(yè)表，那么*頁(yè)表就是 pgd，這里只需要同步*頁(yè)表項(xiàng)就可以了
    if (pgtable_l5_enabled()) {
        // 內(nèi)核主頁(yè)表中的 pgd_k 不為空，進(jìn)程頁(yè)表中的 pgd 為空，那么就同步頁(yè)表
        if (pgd_none(* )) {
            // 將主內(nèi)核頁(yè)表中的 pgd_k 內(nèi)容復(fù)制給進(jìn)程頁(yè)表對(duì)應(yīng)的 pgd
            set_pgd(pgd, *pgd_k);
            // 刷新 mmu
            arch_flush_lazy_mmu_mode();
        } else {
            BUG_ON(pgd_page_vaddr(*pgd) != pgd_page_vaddr(*pgd_k));
        }
    }

    // 四級(jí)頁(yè)表體系下，p4d 是*頁(yè)表項(xiàng)，同樣也是只需要同步*頁(yè)表項(xiàng)即可，同步邏輯和五級(jí)頁(yè)表一模一樣
    // 因?yàn)槭撬募?jí)頁(yè)表，所以這里會(huì)將 pgd 賦值給 p4d，p4d_k ，后面就直接把 p4d 看做是*頁(yè)表了。
    p4d = p4d_offset(pgd, address);
    p4d_k = p4d_offset(pgd_k, address);
    // 內(nèi)核主頁(yè)表為空，則停止同步，返回 -1 ，表示正在訪問(wèn)一個(gè)非法地址
    if (p4d_none(*p4d_k))
        return -1;
    // 內(nèi)核主頁(yè)表不為空，進(jìn)程頁(yè)表為空，則同步內(nèi)核*頁(yè)表項(xiàng) p4d_k 到進(jìn)程頁(yè)表對(duì)應(yīng)的 p4d 中，然后刷新 mmu
    if (p4d_none(*p4d) && !pgtable_l5_enabled()) {
        set_p4d(p4d, *p4d_k);
        arch_flush_lazy_mmu_mode();
    } else {
        BUG_ON(p4d_pfn(*p4d) != p4d_pfn(*p4d_k));
    }

    // 到這里，頁(yè)表的同步工作就完成了，下面代碼用于檢查內(nèi)核地址 address 在進(jìn)程頁(yè)表內(nèi)核部分中是否有物理內(nèi)存進(jìn)行映射
    // 如果沒(méi)有，則返回 -1 ,說(shuō)明進(jìn)程在訪問(wèn)一個(gè)非法的內(nèi)核地址，進(jìn)程隨后會(huì)被 kill 掉
    // 返回 0 表示表示地址 address 背后是有物理內(nèi)存映射的， vmalloc 動(dòng)態(tài)映射區(qū)的缺頁(yè)處理到此結(jié)束。

    // 根據(jù)*頁(yè)目錄項(xiàng) p4d 獲取 address 在進(jìn)程頁(yè)表中對(duì)應(yīng)的上層頁(yè)目錄項(xiàng) pud
    pud = pud_offset(p4d, address);
    if (pud_none(*pud))
        return -1;
    // 該 pud 指向的是 1G 大頁(yè)內(nèi)存
    if (pud_large(*pud))
        return 0;
     // 根據(jù) pud 獲取 address 在進(jìn)程頁(yè)表中對(duì)應(yīng)的中間頁(yè)目錄項(xiàng) pmd
    pmd = pmd_offset(pud, address);
    if (pmd_none(*pmd))
        return -1;
    // 該 pmd 指向的是 2M 大頁(yè)內(nèi)存
    if (pmd_large(*pmd))
        return 0;
    // 根據(jù) pmd 獲取 address 對(duì)應(yīng)的頁(yè)表項(xiàng) pte
    pte = pte_offset_kernel(pmd, address);
    // 頁(yè)表項(xiàng) pte 并沒(méi)有映射物理內(nèi)存
    if (!pte_present(*pte))
        return -1;

    return 0;
}
NOKPROBE_SYMBOL(vmalloc_fault);

在我們聊完內(nèi)核主頁(yè)表的同步過(guò)程之后，可能很多讀者朋友不禁要問(wèn)，既然已經(jīng)有了內(nèi)核主頁(yè)表，而且內(nèi)核地址空間包括內(nèi)核頁(yè)表又是所有進(jìn)程共享的，那進(jìn)程為什么不能直接訪問(wèn)內(nèi)核主頁(yè)表而是要訪問(wèn)主頁(yè)表的拷貝部分呢？這樣還能省去拷貝內(nèi)核主頁(yè)表（fork 時(shí)候）以及同步內(nèi)核主頁(yè)表（缺頁(yè)時(shí)候）這些個(gè)開銷。

之所以這樣設(shè)計(jì)一方面有硬件限制的原因，畢竟每個(gè) CPU 核心只會(huì)有一個(gè) CR3 寄存器來(lái)存放進(jìn)程頁(yè)表的*頁(yè)目錄起始物理內(nèi)存地址，沒(méi)辦法同時(shí)存放進(jìn)程頁(yè)表和內(nèi)核主頁(yè)表。

另一方面的原因則是操作頁(yè)表都是需要對(duì)其進(jìn)行加鎖的，無(wú)論是操作進(jìn)程頁(yè)表還是內(nèi)核主頁(yè)表。而且在操作頁(yè)表的過(guò)程中可能會(huì)涉及到物理內(nèi)存的分配，這也會(huì)引起進(jìn)程的阻塞。

而進(jìn)程本身可能處于中斷上下文以及競(jìng)態(tài)區(qū)中，不能加鎖，也不能被阻塞，如果直接對(duì)內(nèi)核主頁(yè)表加鎖的話，那么系統(tǒng)中的其他進(jìn)程就只能阻塞等待了。所以只能而且必須是操作主內(nèi)核頁(yè)表的拷貝，不能直接操作內(nèi)核主頁(yè)表。

好了，該向大家交代的現(xiàn)在都已經(jīng)交代完了，我們閑話不多說(shuō)，繼續(xù)本文的主題內(nèi)容~~~

4. 用戶態(tài)缺頁(yè)異常處理 —— do_user_addr_fault

進(jìn)程用戶態(tài)虛擬地址空間的布局我們現(xiàn)在已經(jīng)非常熟悉了，在處理用戶態(tài)缺頁(yè)異常之前，內(nèi)核需要在進(jìn)程用戶空間眾多的虛擬內(nèi)存區(qū)域 vma 之中找到引起缺頁(yè)的內(nèi)存地址 address 究竟是屬于哪一個(gè) vma 。如果沒(méi)有一個(gè) vma 能夠包含 address ，那么就說(shuō)明該 address 是一個(gè)還未被分配的虛擬內(nèi)存地址，進(jìn)程對(duì)該地址的訪問(wèn)是非法的，自然也就不用處理缺頁(yè)了。

所以內(nèi)核就需要根據(jù)缺頁(yè)地址 address 通過(guò) find_vma 函數(shù)在進(jìn)程地址空間中找出符合 address < vma->vm_end 條件的第一個(gè) vma 出來(lái)，也就是挨著 address 最近的一個(gè) vma。

而缺頁(yè)地址 address 可以出現(xiàn)在進(jìn)程地址空間中的任意位置，根據(jù) address 的分布會(huì)有下面三種情況：

第一種情況就是 address 的后面沒(méi)有一個(gè) vma 出現(xiàn)，也就是說(shuō)進(jìn)程地址空間中沒(méi)有一個(gè) vma 符合條件：address < vma->vm_end。進(jìn)程訪問(wèn)的是一個(gè)還未分配的虛擬內(nèi)存地址，屬于非法地址訪問(wèn)，不需要處理缺頁(yè)。

第二種情況就是 address 恰巧包含在一個(gè) vma 中，這個(gè)自然是正常情況，內(nèi)核開始處理該 vma 區(qū)域的缺頁(yè)異常。

第三種情況是 address 不巧落在了 find_vma 的前面，也就是 address < find_vma->vm_start。這種情況自然也是非法地址訪問(wèn)，不需要處理缺頁(yè)。

但是這里有一種特殊情況就是萬(wàn)一這個(gè) find_vma 是棧區(qū)怎么辦呢？棧是允許擴(kuò)展的但不允許收縮，如果壓棧指令 push 引用了一個(gè)棧區(qū)之外的地址 address，這種異常不是由程序錯(cuò)誤所引起的，因此缺頁(yè)處理程序需要單獨(dú)處理?xiàng)^(qū)的擴(kuò)展。

如果 find_vma 中的 vm_flags 標(biāo)記了 VM_GROWSDOWN，表示該 vma 中的地址增長(zhǎng)方向是由高到底了，說(shuō)明這個(gè) vma 可能是棧區(qū)域，近而需要到 expand_stack 函數(shù)中判斷是否允許擴(kuò)展棧，如果允許的話，就將棧所屬的 vma 起始地址 vm_start 擴(kuò)展至 address 處。

現(xiàn)在我們已經(jīng)校驗(yàn)完了 vma，并確定了缺頁(yè)地址 address 是一個(gè)合法的地址，下面就可以放心地調(diào)用 handle_mm_fault 函數(shù)對(duì)這塊 vma 進(jìn)行缺頁(yè)處理了。

/* Handle faults in the user portion of the address space */
static inline
void do_user_addr_fault(struct pt_regs *regs,
            unsigned long hw_error_code,
            unsigned long address)
{
    struct vm_area_struct *vma;
    struct task_struct *tsk;
    struct mm_struct *mm;
 
    tsk = current;
    mm = tsk->mm;

       .............. 省略 ..............

    // 在進(jìn)程虛擬地址空間查找第一個(gè)符合條件：address < vma->vm_end 的虛擬內(nèi)存區(qū)域 vma
    vma = find_vma(mm, address);
    // 如果該缺頁(yè)地址 address 后面沒(méi)有 vma 跳轉(zhuǎn)到 bad_area 處理異常
    if (unlikely(!vma)) {
        bad_area(regs, hw_error_code, address);
        return;
    }
    // 缺頁(yè)地址 address 恰好落在一個(gè) vma 中，跳轉(zhuǎn)到 good_area 處理 vma 中的缺頁(yè)
    if (likely(vma->vm_start <= address))
        goto good_area;
    // 上面第三種情況，vma 不是棧區(qū)，跳轉(zhuǎn)到 bad_area
    if (unlikely(!(vma->vm_flags & VM_GROWSDOWN))) {
        bad_area(regs, hw_error_code, address);
        return;
    }
    // vma 是棧區(qū)，嘗試擴(kuò)展棧區(qū)到 address 地址處
    if (unlikely(expand_stack(vma, address))) {
        bad_area(regs, hw_error_code, address);
        return;
    }

    /*
     * Ok, we have a good vm_area for this memory access, so
     * we can handle it..
     */
good_area:
    // 處理 vma 區(qū)域的缺頁(yè)異常，返回值 fault 是一個(gè)位圖，用于描述缺頁(yè)處理過(guò)程中發(fā)生的狀況信息。
    fault = handle_mm_fault(vma, address, flags);
    // 本次缺頁(yè)是否屬于 VM_FAULT_MAJOR，缺頁(yè)處理過(guò)程中是否發(fā)生了物理內(nèi)存的分配以及磁盤 IO
    // 與其對(duì)應(yīng)的是 VM_FAULT_MINOR 表示缺頁(yè)處理過(guò)程中所需內(nèi)存頁(yè)已經(jīng)存在于內(nèi)存中了，只是修改頁(yè)表即可。
    major |= fault & VM_FAULT_MAJOR;

    /*
     * Major/minor page fault accounting. If any of the events
     * returned VM_FAULT_MAJOR, we account it as a major fault.
     */
    if (major) {
        // 統(tǒng)計(jì)進(jìn)程總共發(fā)生的 VM_FAULT_MAJOR 次數(shù)
        tsk->maj_flt++;
        perf_sw_event(PERF_COUNT_SW_PAGE_FAULTS_MAJ, 1, regs, address);
    } else {
        // 統(tǒng)計(jì)進(jìn)程總共發(fā)生的 VM_FAULT_MINOR 次數(shù)
        tsk->min_flt++;
        perf_sw_event(PERF_COUNT_SW_PAGE_FAULTS_MIN, 1, regs, address);
    }

}
NOKPROBE_SYMBOL(do_user_addr_fault);

handle_mm_fault 函數(shù)會(huì)返回一個(gè) unsigned int 類型的位圖 vm_fault_t，通過(guò)這個(gè)位圖可以簡(jiǎn)要描述一下在整個(gè)缺頁(yè)異常處理的過(guò)程中究竟發(fā)生了哪些狀況，方便內(nèi)核對(duì)各種狀況進(jìn)行針對(duì)性處理。

/**
 * Page fault handlers return a bitmask of %VM_FAULT values.
 */
typedef __bitwise unsigned int vm_fault_t;

比如，位圖 vm_fault_t 的第三個(gè)比特位置為 1 表示 VM_FAULT_MAJOR，置為 0 表示 VM_FAULT_MINOR。

enum vm_fault_reason {
	VM_FAULT_MAJOR          = (__force vm_fault_t)0x000004,
};

VM_FAULT_MAJOR 的意思是本次缺頁(yè)所需要的物理內(nèi)存頁(yè)還不在內(nèi)存中，需要重新分配以及需要啟動(dòng)磁盤 IO，從磁盤中 swap in 進(jìn)來(lái)。

VM_FAULT_MINOR 的意思是本次缺頁(yè)所需要的物理內(nèi)存頁(yè)已經(jīng)加載進(jìn)內(nèi)存中了，缺頁(yè)處理只需要修改頁(yè)表重新映射一下就可以了。

我們來(lái)看一個(gè)具體的例子，筆者在之前的文章?《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)（原理篇）》中為大家介紹多個(gè)進(jìn)程調(diào)用 mmap 對(duì)磁盤上的同一個(gè)文件進(jìn)行共享文件映射的時(shí)候，此時(shí)在各個(gè)進(jìn)程的地址空間中都只是各自分配了一段虛擬內(nèi)存用于共享文件映射而已，還沒(méi)有分配物理內(nèi)存頁(yè)。

當(dāng)?shù)谝粋€(gè)進(jìn)程開始訪問(wèn)這段虛擬內(nèi)存映射區(qū)時(shí)，由于沒(méi)有物理內(nèi)存頁(yè)，頁(yè)表還是空的，于是產(chǎn)生缺頁(yè)中斷，內(nèi)核則會(huì)在伙伴系統(tǒng)中分配一個(gè)物理內(nèi)存頁(yè)，然后將新分配的內(nèi)存頁(yè)加入到 page cache 中。

然后調(diào)用 readpage 激活塊設(shè)備驅(qū)動(dòng)從磁盤中讀取映射的文件內(nèi)容，用讀取到的內(nèi)容填充新分配的內(nèi)存頁(yè)，最后在進(jìn)程 1 頁(yè)表中建立共享映射的這段虛擬內(nèi)存與 page cache 中緩存的文件頁(yè)之間的關(guān)聯(lián)。

由于進(jìn)程 1 的缺頁(yè)處理發(fā)生了物理內(nèi)存的分配以及磁盤 IO ，所以本次缺頁(yè)處理屬于 VM_FAULT_MAJOR。

當(dāng)進(jìn)程 2 訪問(wèn)其地址空間中映射的這段虛擬內(nèi)存時(shí)，由于頁(yè)表是空的，也會(huì)發(fā)生缺頁(yè)，但是當(dāng)進(jìn)程 2 進(jìn)入內(nèi)核中發(fā)現(xiàn)所映射的文件頁(yè)已經(jīng)被進(jìn)程 1 加載進(jìn) page cache 中了，進(jìn)程 2 的缺頁(yè)處理只需要將這個(gè)文件頁(yè)映射進(jìn)自己的頁(yè)表就可以了，不需要重新分配內(nèi)存以及發(fā)生磁盤 IO 。這種情況就屬于 VM_FAULT_MINOR。

最后需要將進(jìn)程總共發(fā)生的 VM_FAULT_MAJOR 次數(shù)以及 VM_FAULT_MINOR 次數(shù)統(tǒng)計(jì)到進(jìn)程 task_struct 結(jié)構(gòu)中的相應(yīng)字段中：

struct task_struct {
    // 進(jìn)程總共發(fā)生的 VM_FAULT_MINOR 次數(shù)
    unsigned long           min_flt;
     // 進(jìn)程總共發(fā)生的 VM_FAULT_MAJOR 次數(shù)
    unsigned long           maj_flt;
}

我們可以在 ps 命令上增加 -o 選項(xiàng)，添加 maj_flt ，min_flt 數(shù)據(jù)列來(lái)查看各個(gè)進(jìn)程的 VM_FAULT_MAJOR 次數(shù)和 VM_FAULT_MINOR 次數(shù)。

5. handle_mm_fault 完善進(jìn)程頁(yè)表體系

饒了一大圈，現(xiàn)在我們終于來(lái)到了缺頁(yè)處理的核心邏輯，之前筆者提到，引起缺頁(yè)中斷的原因大概有三種：

第一種是 CPU 訪問(wèn)的虛擬內(nèi)存地址 address 之前完全沒(méi)有被映射過(guò)，其在頁(yè)表中對(duì)應(yīng)的各級(jí)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)都還是空的。
第二種是 address 之前被映射過(guò)，但是映射的這塊物理內(nèi)存被內(nèi)核 swap out 到磁盤上了。
第三種是 address 背后映射的物理內(nèi)存還在，只是由于訪問(wèn)權(quán)限不夠引起的缺頁(yè)中斷，比如，后面要為大家介紹的寫時(shí)復(fù)制（COW）機(jī)制就屬于這一種。

下面筆者一種接一種的帶大家一起梳理，我們先來(lái)看第一種情況：

由于現(xiàn)在正在被訪問(wèn)的虛擬內(nèi)存地址 address 之前從來(lái)沒(méi)有被映射過(guò)，所以該虛擬內(nèi)存地址在進(jìn)程頁(yè)表中的各級(jí)頁(yè)目錄表中的目錄項(xiàng)以及頁(yè)表中的頁(yè)表項(xiàng)都是空的。內(nèi)核的首要任務(wù)就是先要將這些缺失的頁(yè)目錄項(xiàng)和頁(yè)表項(xiàng)一一補(bǔ)齊。

筆者在之前的文章《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》?中曾為大家介紹過(guò)，在當(dāng)前 64 位體系架構(gòu)下，其實(shí)只使用了 48 位來(lái)描述進(jìn)程的虛擬內(nèi)存空間，其中用戶態(tài)地址空間 128T，內(nèi)核態(tài)地址空間 128T，所以我們只需要使用 48 位的虛擬內(nèi)存地址就可以表示進(jìn)程虛擬內(nèi)存空間中的任意地址了。

而這 48 位的虛擬內(nèi)存地址內(nèi)又分為五個(gè)部分，它們分別是虛擬內(nèi)存地址在全局頁(yè)目錄表 PGD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pgd_t 的偏移，在上層頁(yè)目錄表 PUD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pud_t 的偏移，在中間頁(yè)目錄表 PMD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd_t 的偏移，在頁(yè)表中對(duì)應(yīng)的頁(yè)表項(xiàng) pte_t 的偏移，以及在其背后映射的物理內(nèi)存頁(yè)中的偏移。

內(nèi)核中使用 unsigned long 類型來(lái)表示各級(jí)頁(yè)目錄中的目錄項(xiàng)以及頁(yè)表中的頁(yè)表項(xiàng)，在 64 位系統(tǒng)中它們都是占用 8 字節(jié)。

// 定義在內(nèi)核文件：/arch/x86/include/asm/pgtable_64_types.h
typedef unsigned long pteval_t;
typedef unsigned long pmdval_t;
typedef unsigned long pudval_t;
typedef unsigned long pgdval_t;

typedef struct { pteval_t pte; } pte_t;

// 定義在內(nèi)核文件：/arch/x86/include/asm/pgtable_types.h
typedef struct { pmdval_t pmd; } pmd_t;
typedef struct { pudval_t pud; } pud_t;
typedef struct { pgdval_t pgd; } pgd_t;

而各級(jí)頁(yè)目錄表以及頁(yè)表在內(nèi)核中其實(shí)本質(zhì)上都是一個(gè) 4K 物理內(nèi)存頁(yè)，只不過(guò)這些物理內(nèi)存頁(yè)存放的內(nèi)容比較特殊，它們存放的是頁(yè)目錄項(xiàng)和頁(yè)表項(xiàng)。一張頁(yè)目錄表可以存放 512 個(gè)頁(yè)目錄項(xiàng)，一張頁(yè)表可以存放 512 個(gè)頁(yè)表項(xiàng)

// 全局頁(yè)目錄表 PGD 可以容納的頁(yè)目錄項(xiàng) pgd_t 的個(gè)數(shù)
#define PTRS_PER_PGD  512
// 上層頁(yè)目錄表 PUD 可以容納的頁(yè)目錄項(xiàng) pud_t 的個(gè)數(shù)
#define PTRS_PER_PUD  512
// 中間頁(yè)目錄表 PMD 可以容納的頁(yè)目錄項(xiàng) pmd_t 的個(gè)數(shù)
#define PTRS_PER_PMD  512
// 頁(yè)表可以容納的頁(yè)表項(xiàng) pte_t 的個(gè)數(shù)
#define PTRS_PER_PTE  512

因此我們可以把全局頁(yè)目錄表 PGD 看做是一個(gè)能夠存放 512 個(gè) pgd_t 的數(shù)組 —— pgd_t[PTRS_PER_PGD]，虛擬內(nèi)存地址對(duì)應(yīng)在 pgd_t[PTRS_PER_PGD] 數(shù)組中的索引使用 9 個(gè)比特位就可以表示了。

在內(nèi)核中使用 pgd_offset 函數(shù)來(lái)定位虛擬內(nèi)存地址在全局頁(yè)目錄表 PGD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pgd_t，這個(gè)過(guò)程和訪問(wèn)數(shù)組一模一樣，事實(shí)上整個(gè) PGD 就是一個(gè) pgd_t[PTRS_PER_PGD] 數(shù)組。

首先我們通過(guò) mm_struct-> pgd 獲取 pgd_t[PTRS_PER_PGD] 數(shù)組的首地址（全局頁(yè)目錄表 PGD 的起始內(nèi)存地址），然后將虛擬內(nèi)存地址右移 PGDIR_SHIFT（39）位再用掩碼 PTRS_PER_PGD - 1 將高位全部掩去，只保留低 9 位得到虛擬內(nèi)存地址在 pgd_t[PTRS_PER_PGD] 數(shù)組中的索引偏移 pgd_index。

然后將 mm_struct-> pgd 與 pgd_index 相加就可以定位到虛擬內(nèi)存地址在全局頁(yè)目錄表 PGD 中的頁(yè)目錄項(xiàng) pgd_t 了。

/*
 * a shortcut to get a pgd_t in a given mm
 */
#define pgd_offset(mm, address) pgd_offset_pgd((mm)->pgd, (address))

#define pgd_offset_pgd(pgd, address) (pgd + pgd_index((address)))

#define pgd_index(address) (((address) >> PGDIR_SHIFT) & (PTRS_PER_PGD - 1))

#define PGDIR_SHIFT		39
#define PTRS_PER_PGD		512

在后續(xù)即將要介紹的源碼實(shí)現(xiàn)中，大家還會(huì)看到一個(gè) p4d 的頁(yè)目錄，該頁(yè)目錄用于在五級(jí)頁(yè)表體系下表示四級(jí)頁(yè)目錄。

typedef unsigned long	p4dval_t;
typedef struct { p4dval_t p4d; } p4d_t;

而在四級(jí)頁(yè)表體系下，這個(gè) p4d 就不起作用了，但為了代碼上的統(tǒng)一處理，在四級(jí)頁(yè)表下，前面定位到的*頁(yè)目錄項(xiàng) pgd_t 會(huì)賦值給四級(jí)頁(yè)目錄項(xiàng) p4d_t，后續(xù)處理都會(huì)將 p4d_t 看做是*頁(yè)目錄項(xiàng)，這一點(diǎn)需要和大家在這里先提前交代清楚。

static inline p4d_t *p4d_offset(pgd_t *pgd, unsigned long address)
{
    if (!pgtable_l5_enabled())
        // 四級(jí)頁(yè)表體系下，p4d_t 其實(shí)就是*頁(yè)目錄項(xiàng)
        return (p4d_t *)pgd;
    return (p4d_t *)pgd_page_vaddr(*pgd) + p4d_index(address);
}

現(xiàn)在我們已經(jīng)通過(guò) pgd_offset 定位到虛擬內(nèi)存地址 address 對(duì)應(yīng)在全局頁(yè)目錄 PGD 的頁(yè)目錄項(xiàng) pgd_t（p4d_t）了。

接下來(lái)的任務(wù)就是根據(jù)這個(gè) p4d_t 定位虛擬內(nèi)存對(duì)應(yīng)在上層頁(yè)目錄 PUD 中的頁(yè)目錄項(xiàng) pud_t。但在定位之前，我們需要首先判斷這個(gè) p4d_t 是否是空的，如果是空的，說(shuō)明在目前的進(jìn)程頁(yè)表中還不存在對(duì)應(yīng)的 PUD，需要馬上創(chuàng)建一個(gè)新的出來(lái)。

而 PUD 的相關(guān)信息全部都保存在 p4d_t 里，我們可以通過(guò) native_p4d_val 函數(shù)將*頁(yè)目錄項(xiàng) p4d_t 中的值獲取出來(lái)。

static inline p4dval_t native_p4d_val(p4d_t p4d)
{
	return p4d.p4d;
}

在 64 位系統(tǒng)中，各級(jí)頁(yè)目錄項(xiàng)都是用 unsigned long 類型來(lái)表示的，共 8 個(gè)字節(jié)，64 個(gè) bit，還記得我們之前在《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》一文中介紹的頁(yè)目錄項(xiàng)比特位布局嗎？

在頁(yè)目錄項(xiàng)剛剛被創(chuàng)建出來(lái)的時(shí)候，內(nèi)核會(huì)將他們?nèi)砍跏蓟癁?0 值，如果一個(gè)頁(yè)目錄項(xiàng)中除了第 5 , 6 比特位之外剩下的比特位全都為 0 的話，則表示這個(gè)頁(yè)目錄項(xiàng)是空的。

static inline int p4d_none(p4d_t p4d)
{
    // p4d_t 中除了第 5，6 比特位之外，剩余比特位如果全是 0 則表示 p4d_t 是空的
    return (native_p4d_val(p4d) & ~(_PAGE_KNL_ERRATUM_MASK)) == 0;
}
// 頁(yè)目錄項(xiàng)中第 5, 6 比特位置為 1
#define _PAGE_KNL_ERRATUM_MASK (_PAGE_DIRTY | _PAGE_ACCESSED)

如果我們通過(guò) p4d_none 函數(shù)判斷出*頁(yè)目錄項(xiàng) p4d 是空的，那么就需要調(diào)用 __pud_alloc 函數(shù)分配一個(gè)新的上層頁(yè)目錄表 PUD 出來(lái)，然后用 PUD 的起始物理內(nèi)存地址以及頁(yè)目錄項(xiàng)的初始權(quán)限位 _PAGE_TABLE 填充 p4d。

/*
 * Allocate page upper directory.
 * We've already handled the fast-path in-line.
 */
int __pud_alloc(struct mm_struct *mm, p4d_t *p4d, unsigned long address)
{
    // 調(diào)用 get_zeroed_page 申請(qǐng)一個(gè) 4k 物理內(nèi)存頁(yè)并初始化為 0 值作為新的 PUD
    // new 指向新分配的 PUD 起始內(nèi)存地址
    pud_t *new = pud_alloc_one(mm, address);
    if (!new)
        return -ENOMEM;
    // 操作進(jìn)程頁(yè)表需要加鎖
    spin_lock(&mm->page_table_lock);
    // 如果*頁(yè)目錄項(xiàng) p4d 中的 P 比特位置為 0 表示 p4d 目前還沒(méi)有指向其下一級(jí)頁(yè)目錄 PUD
    // 下面需要填充 p4d
    if (!p4d_present(*p4d)) {
        // 更新 mm->pgtables_bytes 計(jì)數(shù)，該字段用于統(tǒng)計(jì)進(jìn)程頁(yè)表所占用的字節(jié)數(shù)
        // 由于這里新增了一張 PUD 目錄表，所以計(jì)數(shù)需要增加 PTRS_PER_PUD * sizeof(pud_t)
        mm_inc_nr_puds(mm);
        // 將 new 指向的新分配出來(lái)的 PUD 物理內(nèi)存地址以及相關(guān)屬性填充到*頁(yè)目錄項(xiàng) p4d 中
        p4d_populate(mm, p4d, new);
    } else  /* Another has populated it */
        // 釋放新創(chuàng)建的 PMD
        pud_free(mm, new);

    // 釋放頁(yè)表鎖
    spin_unlock(&mm->page_table_lock);
    return 0;
}

下面我們來(lái)看一下填充*頁(yè)目錄項(xiàng) p4d 的一些細(xì)節(jié)，填充的邏輯封裝在下面的 p4d_populate 函數(shù)中。

static inline void p4d_populate(struct mm_struct *mm, p4d_t *p4d, pud_t *pud)
{
	set_p4d(p4d, __p4d(_PAGE_TABLE | __pa(pud)));
}

#define _KERNPG_TABLE	(_PAGE_PRESENT | _PAGE_RW | _PAGE_ACCESSED |	\
			 _PAGE_DIRTY | _PAGE_ENC)
#define _PAGE_TABLE	(_KERNPG_TABLE | _PAGE_USER)

各級(jí)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)，它們的本質(zhì)其實(shí)就是一塊 8 字節(jié)大小，64 bits 的小內(nèi)存塊，內(nèi)核中使用 unsigned long 類型來(lái)修飾，各級(jí)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)在初始的時(shí)候，它們的這 64 個(gè)比特位全部為 0 值，所謂填充頁(yè)目錄項(xiàng)就是按照下圖所示的頁(yè)目錄項(xiàng)比特位布局，根據(jù)每個(gè)比特位的具體含義進(jìn)行相應(yīng)的填充。

由于頁(yè)目錄項(xiàng)所承擔(dān)的一項(xiàng)最重要的工作就是定位其下一級(jí)頁(yè)目錄表的起始物理內(nèi)存地址，這里的下一級(jí)頁(yè)目錄表就是剛剛我們新創(chuàng)建出來(lái)的 PUD。所以第一件重要的事情就是通過(guò) __pa(pud) 來(lái)獲取 PUD 的起始物理內(nèi)存地址，然后將 PUD 的物理內(nèi)存地址填充到*頁(yè)目錄項(xiàng) p4d 中的對(duì)應(yīng)比特位上。

由于物理內(nèi)存地址在內(nèi)核中都是按照 4K 對(duì)齊的，所以 PUD 物理內(nèi)存地址的低 12 位全部都是 0 ，我們可以利用這 12 個(gè)比特位存放一些權(quán)限標(biāo)記位，頁(yè)目錄項(xiàng)在初始化時(shí)需要置為 1 的權(quán)限標(biāo)記位定義在 _PAGE_TABLE 中。也就是說(shuō) _PAGE_TABLE 定義了頁(yè)目錄項(xiàng)初始權(quán)限標(biāo)記位集合。

#define _PAGE_BIT_PRESENT 0 /* is present */
#define _PAGE_BIT_RW  1 /* writeable */
#define _PAGE_BIT_USER  2 /* userspace addressable */
#define _PAGE_BIT_ACCESSED 5 /* was accessed (raised by CPU) */
#define _PAGE_BIT_DIRTY  6 /* was written to (raised by CPU) */


#define _PAGE_PRESENT (_AT(pteval_t, 1) << _PAGE_BIT_PRESENT)
#define _PAGE_RW (_AT(pteval_t, 1) << _PAGE_BIT_RW)
#define _PAGE_USER (_AT(pteval_t, 1) << _PAGE_BIT_USER)
#define _PAGE_ACCESSED (_AT(pteval_t, 1) << _PAGE_BIT_ACCESSED)
#define _PAGE_DIRTY (_AT(pteval_t, 1) << _PAGE_BIT_DIRTY)

我們通過(guò) _PAGE_TABLE 和 __pa(pud) 進(jìn)行或運(yùn)算 —— _PAGE_TABLE | __pa(pud)，這樣就可以按照上圖中的比特位布局構(gòu)造出一個(gè) 8 字節(jié)的 unsigned long 類型的整數(shù)了，這個(gè)整數(shù)的第 12 到 35 比特位通過(guò) __pa(pud) 填充進(jìn)來(lái)，低 12 位比特通過(guò) _PAGE_TABLE 填充進(jìn)來(lái)。

隨后我們通過(guò) __p4d 將這個(gè)剛剛構(gòu)造出來(lái)的 unsigned long 整數(shù)轉(zhuǎn)換成 p4d_t 類型。

#define __p4d(x)	native_make_p4d(x)

static inline p4d_t native_make_p4d(pudval_t val)
{
	return (p4d_t) { val };
}

最后我們通過(guò) set_p4d 將我們剛剛構(gòu)造出來(lái)的 p4d_t 賦值給原始的 p4d_t。

# define set_p4d(p4dp, p4d)		native_set_p4d(p4dp, p4d)

這樣一來(lái)，缺頁(yè)的虛擬內(nèi)存地址對(duì)應(yīng)在*頁(yè)目錄表中的頁(yè)目錄項(xiàng) p4d_t 就被填充好了，現(xiàn)在它已經(jīng)指向了剛剛新創(chuàng)建出來(lái)的 PUD，并且擁有了初始的權(quán)限位。

目前為止，我們只是完善了缺頁(yè)虛擬內(nèi)存地址對(duì)應(yīng)在進(jìn)程頁(yè)表*頁(yè)目錄中的目錄項(xiàng) p4d_t，在四級(jí)頁(yè)表體系下，我們還需要繼續(xù)向下逐級(jí)的去補(bǔ)齊虛擬內(nèi)存地址對(duì)應(yīng)在其他頁(yè)目錄中的目錄項(xiàng)，處理邏輯上都是一模一樣的。

*頁(yè)目錄項(xiàng) p4d 中包含了其下一級(jí)頁(yè)目錄 PUD 的相關(guān)信息，在內(nèi)核中使用 pud_offset 函數(shù)來(lái)定位虛擬內(nèi)存地址 address 對(duì)應(yīng)在 PUD 中的頁(yè)目錄項(xiàng) pud_t。

/* Find an entry in the third-level page table.. */
static inline pud_t *pud_offset(p4d_t *p4d, unsigned long address)
{
	return (pud_t *)p4d_page_vaddr(*p4d) + pud_index(address);
}

和*頁(yè)目錄 PGD 一樣，上層頁(yè)目錄 PUD 也可以看做是一個(gè)能夠存放 512 個(gè) pud_t 的數(shù)組 —— pud_t[PTRS_PER_PUD] 。

// 上層頁(yè)目錄表 PUD 可以容納的頁(yè)目錄項(xiàng) pud_t 的個(gè)數(shù)
#define PTRS_PER_PUD  512

內(nèi)核通過(guò) pud_index 函數(shù)將虛擬內(nèi)存地址右移 PUD_SHIFT（30）位然后用掩碼 PTRS_PER_PUD - 1 將高位全部掩掉，只保留低 9 位得到虛擬內(nèi)存地址在上層頁(yè)目錄 PUD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pud_t 的偏移 —— pud_index。

static inline unsigned long pud_index(unsigned long address)
{
	return (address >> PUD_SHIFT) & (PTRS_PER_PUD - 1);
}

#define PUD_SHIFT	30

現(xiàn)在我們有了 pud_index，如果我們還能夠知道上層頁(yè)目錄表 PUD 的虛擬內(nèi)存地址，兩者一相加就能得到頁(yè)目錄項(xiàng) pud_t 了。而 PUD 的物理內(nèi)存地址恰好保存在剛剛填充好的*頁(yè)目錄項(xiàng) p4d 中，我們可以從 p4d 中將 PUD 的物理內(nèi)存地址提取出來(lái)，然后通過(guò) __va 轉(zhuǎn)換成虛擬內(nèi)存地址不就行了么。

static inline unsigned long p4d_page_vaddr(p4d_t p4d)
{
	return (unsigned long)__va(p4d_val(p4d) & p4d_pfn_mask(p4d));
}

首先我們通過(guò) p4d_val 將*頁(yè)目錄項(xiàng) p4d 的值（8 字節(jié)，64 比特）提取出來(lái)。

#define p4d_val(x)	native_p4d_val(x)

static inline p4dval_t native_p4d_val(p4d_t p4d)
{
	return p4d.p4d;
}

然后再根據(jù)頁(yè)目錄項(xiàng)中的比特位布局，將其下一級(jí)頁(yè)目錄表的物理內(nèi)存地址截取出來(lái)。

那么如何截取呢？上圖中展示的頁(yè)目錄項(xiàng)比特位布局筆者是按照 36 位物理內(nèi)存地址所畫，事實(shí)上 Linux 內(nèi)核最大可支持 52 位的物理內(nèi)存地址。

#define __PHYSICAL_MASK_SHIFT	52

我們將 1 左移 __PHYSICAL_MASK_SHIFT 位然后再減 1 得到 __PHYSICAL_MASK（低 52 位全部為 1）。

#define __PHYSICAL_MASK		((phys_addr_t)((1ULL << __PHYSICAL_MASK_SHIFT) - 1))

然后拿 p4d_val & __PHYSICAL_MASK 就可以將 p4d_val 的高位截取掉，只保留低 52 位。

這低 52 位中包含了兩個(gè)部分，一個(gè)是我們想要提取的下一級(jí)頁(yè)目錄表的物理內(nèi)存地址，另一個(gè)則是低 12 位的權(quán)限標(biāo)記位。

如果我們?cè)倌軌虬堰@低 12 位的權(quán)限標(biāo)記位用掩碼掩掉，就可以得到下一級(jí)頁(yè)目錄表的物理內(nèi)存地址了。

#define PAGE_SHIFT  12
#define PAGE_SIZE   (_AC(1,UL) << PAGE_SHIFT)      
#define PAGE_MASK   (~(PAGE_SIZE-1))     // 0xFFFFFFFFFFFFF000

上面的 PAGE_MASK 掩碼就是用于將頁(yè)目錄項(xiàng) p4d 的低 12 位掩掉的，我們接著在 p4d_val & __PHYSICAL_MASK 的基礎(chǔ)上再與上 PAGE_MASK，就可以將 p4d 中保存的下一級(jí)頁(yè)目錄表 PUD 的物理內(nèi)存地址截取出來(lái)了。

雖然我們是按照 52 位的物理內(nèi)存地址截取的，但是對(duì)于 36 位的物理內(nèi)存地址來(lái)說(shuō)，頁(yè)目錄項(xiàng)中的低 36 位到 51 位之間的比特位都是 0 值，所以也不影響。

static inline unsigned long p4d_page_vaddr(p4d_t p4d)
{
    return (unsigned long)__va(p4d_val(p4d) & p4d_pfn_mask(p4d));
}

static inline p4dval_t p4d_pfn_mask(p4d_t p4d)
{
	/* No 512 GiB huge pages yet */
	return PTE_PFN_MASK;
}

/* Extracts the PFN from a (pte|pmd|pud|pgd)val_t of a 4KB page */
#define PTE_PFN_MASK		((pteval_t)PHYSICAL_PAGE_MASK)

#define PHYSICAL_PAGE_MASK	(((signed long)PAGE_MASK) & __PHYSICAL_MASK)

現(xiàn)在我們已經(jīng)得到 PUD 的物理內(nèi)存地址了，隨后通過(guò) __va 轉(zhuǎn)換成虛擬內(nèi)存地址，然后在加上 pud_index 就得到缺頁(yè)虛擬內(nèi)存地址在進(jìn)程頁(yè)表上層頁(yè)目錄 PUD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pud_t 了。

在得到 pud_t 之后，內(nèi)核還是需要通過(guò) pud_none 來(lái)判斷下該上層頁(yè)目錄項(xiàng) pud_t 是否是空的，如果是空的話，就需要通過(guò) __pmd_alloc 函數(shù)重新分配一張中間頁(yè)目錄表 PMD 出來(lái)，然后填充這個(gè)空的 pud_t，這里的邏輯和前面處理 p4d_t 的邏輯一模一樣。

// 同 p4d_none 的邏輯一樣
static inline int pud_none(pud_t pud)
{
	return (native_pud_val(pud) & ~(_PAGE_KNL_ERRATUM_MASK)) == 0;
}

由于這個(gè) PUD 是之前為了填充*頁(yè)目錄項(xiàng) p4d_t 而新創(chuàng)建出來(lái)的，所以 PUD 這張頁(yè)目錄表里還全是 0 值，缺頁(yè)虛擬內(nèi)存地址在 PUD 中對(duì)應(yīng)的目錄項(xiàng) pud_t 自然也是 0 值，通過(guò) pud_none 判斷自然是返回 true 。

隨后內(nèi)核會(huì)調(diào)用 __pmd_alloc 函數(shù)新分配一張 4K 大小的物理內(nèi)存頁(yè)作為 PMD , 然后用 PMD 的物理內(nèi)存地址去填充這個(gè)空的 pud_t。這里的邏輯和 __pud_alloc 還是一模一樣。

/*
 * Allocate page middle directory.
 * We've already handled the fast-path in-line.
 */
int __pmd_alloc(struct mm_struct *mm, pud_t *pud, unsigned long address)
{
    // 調(diào)用 alloc_pages 從伙伴系統(tǒng)申請(qǐng)一個(gè) 4K 大小的物理內(nèi)存頁(yè)，作為新的 PMD
    pmd_t *new = pmd_alloc_one(mm, address);
    if (!new)
        return -ENOMEM;
    // 如果 pud 還未指向其下一級(jí)頁(yè)目錄 PMD，則需要初始化填充 pud
    if (!pud_present(*pud)) {
        mm_inc_nr_pmds(mm);
        // 將 new 指向的新分配出來(lái)的 PMD 物理內(nèi)存地址以及相關(guān)屬性填充到上層頁(yè)目錄項(xiàng) pud 中
        pud_populate(mm, pud, new);
    } else  /* Another has populated it */
        pmd_free(mm, new);

    return 0;
}

填充上層頁(yè)目錄項(xiàng) pud_t 的邏輯和之前填充*頁(yè)目錄項(xiàng) p4d_t 的邏輯也是一樣的。

static inline void pud_populate(struct mm_struct *mm, pud_t *pud, pmd_t *pmd)
{
	set_pud(pud, __pud(_PAGE_TABLE | __pa(pmd)));
}

都是通過(guò) PMD 的物理內(nèi)存地址 __pa(pmd) 以及頁(yè)目錄的初始權(quán)限標(biāo)記位集合 _PAGE_TABLE 來(lái)構(gòu)造一個(gè) unsigned long 類型的整數(shù)。

通過(guò) __pud 將這個(gè)剛剛構(gòu)造出來(lái)的 unsigned long 整數(shù)轉(zhuǎn)換成 pud_t 類型：

#define __pud(x)	native_make_pud(x)

static inline pud_t native_make_pud(pmdval_t val)
{
	return (pud_t) { val };
}

最后將 __pud 的返回值通過(guò) set_pud 賦值給原始的上層頁(yè)目錄項(xiàng) pud 。這樣就算完成了 pud 的填充。

# define set_pud(pudp, pud)		native_set_pud(pudp, pud)

static inline void native_set_pud(pud_t *pudp, pud_t pud)
{
	WRITE_ONCE(*pudp, pud);
}

中間頁(yè)目錄表 PMD 有了，接下來(lái)的任務(wù)就該定位缺頁(yè)虛擬內(nèi)存地址在進(jìn)程頁(yè)表 PMD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd_t 了。

和前面的 PGD ，PUD 一樣, PMD 也可以看做是一個(gè)能夠存放 512 個(gè) pmd_t 的數(shù)組 —— pmd_t[PTRS_PER_PMD] 。

// 中間頁(yè)目錄表 PMD 可以容納的頁(yè)目錄項(xiàng) pmd_t 的個(gè)數(shù)
#define PTRS_PER_PMD  512

內(nèi)核通過(guò) pmd_offset 函數(shù)來(lái)定位虛擬內(nèi)存地址 address 對(duì)應(yīng)在 PMD 中的頁(yè)目錄項(xiàng) pmd_t。

static inline pmd_t *pmd_offset(pud_t *pud, unsigned long address)
{
	return (pmd_t *)pud_page_vaddr(*pud) + pmd_index(address);
}

還是之前的套路，首先需要通過(guò) pud_page_vaddr 從上層頁(yè)目錄 PUD 中的頁(yè)目錄項(xiàng) pud_t 中提取出其下一級(jí)頁(yè)目錄表 PMD 的起始虛擬內(nèi)存地址。

static inline unsigned long pud_page_vaddr(pud_t pud)
{
	return (unsigned long)__va(pud_val(pud) & pud_pfn_mask(pud));
}

然后通過(guò) pmd_index 獲取缺頁(yè)虛擬內(nèi)存地址在 PMD 中的偏移，和之前的處理方式一樣，首先將缺頁(yè)虛擬內(nèi)存地址 address 右移 PMD_SHIFT（21）位，然后和掩碼 PTRS_PER_PMD - 1 相與，只保留低 9 位。

static inline unsigned long pmd_index(unsigned long address)
{
	return (address >> PMD_SHIFT) & (PTRS_PER_PMD - 1);
}

#define PMD_SHIFT	21
#define PTRS_PER_PMD	512

最后用剛剛提取出的 PMD 起始虛擬內(nèi)存地址 pud_page_vaddr 與 pmd_index 相加就得到我們尋找的中間頁(yè)目錄項(xiàng) pmd_t 了。

在我們獲取到 pmd_t 之后，接下來(lái)就該處理頁(yè)表了，而頁(yè)表是直接與物理內(nèi)存頁(yè)進(jìn)行映射的，后續(xù)我們需要到頁(yè)表項(xiàng)中，根據(jù)權(quán)限位的設(shè)置來(lái)解析出具體的缺頁(yè)原因，然后進(jìn)行針對(duì)性的缺頁(yè)處理，這一部分的內(nèi)容封裝在 handle_pte_fault 函數(shù)中，這是我們下一小節(jié)中要介紹的內(nèi)容。

而本小節(jié)中介紹的 __handle_mm_fault 的主要工作是將進(jìn)程頁(yè)表中的三級(jí)頁(yè)目錄表 PGD,PUD,PMD 補(bǔ)齊，然后獲取到 pmd_t 就完成了，隨后會(huì)把 pmd_t 送到 handle_pte_fault 函數(shù)中進(jìn)行頁(yè)表的處理。

在我們理解了以上內(nèi)容之后，再回頭來(lái)看 __handle_mm_fault 源碼實(shí)現(xiàn)就很清晰了：

static vm_fault_t __handle_mm_fault(struct vm_area_struct *vma,
        unsigned long address, unsigned int flags)
{
    // vm_fault 結(jié)構(gòu)用于封裝后續(xù)缺頁(yè)處理用到的相關(guān)參數(shù)
    struct vm_fault vmf = {
        // 發(fā)生缺頁(yè)的 vma
        .vma = vma,
        // 引起缺頁(yè)的虛擬內(nèi)存地址
        .address = address & PAGE_MASK,
        // 處理缺頁(yè)的相關(guān)標(biāo)記 FAULT_FLAG_xxx
        .flags = flags,
        // address 在 vma 中的偏移，單位也頁(yè)
        .pgoff = linear_page_index(vma, address),
        // 后續(xù)用于分配物理內(nèi)存使用的相關(guān)掩碼 gfp_mask
        .gfp_mask = __get_fault_gfp_mask(vma),
    };
    // 獲取進(jìn)程虛擬內(nèi)存空間
    struct mm_struct *mm = vma->vm_mm;
    // 進(jìn)程頁(yè)表的*頁(yè)表地址
    pgd_t *pgd;
    // 五級(jí)頁(yè)表下會(huì)使用，在四級(jí)頁(yè)表下 p4d 與 pgd 的值一樣
    p4d_t *p4d;
    vm_fault_t ret;
    // 獲取 address 在全局頁(yè)目錄表 PGD 中對(duì)應(yīng)的目錄項(xiàng) pgd
    pgd = pgd_offset(mm, address);
    // 在四級(jí)頁(yè)表下，這里只是將 pgd 賦值給 p4d，后續(xù)均已 p4d 作為全局頁(yè)目錄項(xiàng)
    p4d = p4d_alloc(mm, pgd, address);
    if (!p4d)
        return VM_FAULT_OOM;
    // 首先 p4d_none 判斷全局頁(yè)目錄項(xiàng) p4d 是否是空的
    // 如果 p4d 是空的，則調(diào)用 __pud_alloc 分配一個(gè)新的上層頁(yè)目錄表 PUD，然后填充 p4d
    // 如果 p4d 不是空的，則調(diào)用 pud_offset 獲取 address 在上層頁(yè)目錄 PUD 中的目錄項(xiàng) pud
    vmf.pud = pud_alloc(mm, p4d, address);
    if (!vmf.pud)
        return VM_FAULT_OOM;
  
      ........ 省略 1G 大頁(yè)缺頁(yè)處理 ..........
    
    // 首先 pud_none 判斷上層頁(yè)目錄項(xiàng) pud 是不是空的
    // 如果 pud 是空的，則調(diào)用 __pmd_alloc 分配一個(gè)新的中間頁(yè)目錄表 PMD，然后填充 pud
    // 如果 pud 不是空的，則調(diào)用 pmd_offset 獲取 address 在中間頁(yè)目錄 PMD 中的目錄項(xiàng) pmd
    vmf.pmd = pmd_alloc(mm, vmf.pud, address);
    if (!vmf.pmd)
        return VM_FAULT_OOM;

      ........ 省略 2M 大頁(yè)缺頁(yè)處理 ..........

    // 進(jìn)行頁(yè)表的相關(guān)處理以及解析具體的缺頁(yè)原因，后續(xù)針對(duì)性的進(jìn)行缺頁(yè)處理
    return handle_pte_fault(&vmf);
}

6. handle_pte_fault

在上一小節(jié)的開頭，筆者列舉了引起缺頁(yè)異常主要的三種原因，要么缺頁(yè)的虛擬內(nèi)存地址從來(lái)還沒(méi)有被映射過(guò)，要么是雖然之前映射過(guò)，但是物理內(nèi)存頁(yè)被 swap 到磁盤上了，要么是因?yàn)樵L問(wèn)權(quán)限不夠的原因引起的缺頁(yè)。

從總體上來(lái)講引起缺頁(yè)中斷的原因分為兩大類，一類是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)不在內(nèi)存中，另一類是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)在內(nèi)存中。

而每一類下邊又包含若干種缺頁(yè)的場(chǎng)景，在本小節(jié)中筆者會(huì)帶著大家一一把這些場(chǎng)景梳理清楚，下面我們來(lái)看第一類，其中分為了三種缺頁(yè)場(chǎng)景。

第一種場(chǎng)景是，缺頁(yè)虛擬內(nèi)存地址 address 在進(jìn)程頁(yè)表中間頁(yè)目錄對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd_t 是空的，我們可以通過(guò) pmd_none 方法來(lái)判斷。

static inline int pmd_none(pmd_t pmd)
{
	unsigned long val = native_pmd_val(pmd);
	return (val & ~_PAGE_KNL_ERRATUM_MASK) == 0;
}

這種情況表示缺頁(yè)地址 address 對(duì)應(yīng)的 pmd 目前還沒(méi)有對(duì)應(yīng)的頁(yè)表，連頁(yè)表都還沒(méi)有，那么自然 pte 也是空的，物理內(nèi)存頁(yè)就更不用說(shuō)了，肯定還沒(méi)有。

第二種場(chǎng)景是，缺頁(yè)地址 address 對(duì)應(yīng)的 pmd_t 雖然不是空的，頁(yè)表也存在，但是 address 對(duì)應(yīng)在頁(yè)表中的 pte 是空的。內(nèi)核中通過(guò) pte_offset_map 定位 address 在頁(yè)表中的 pte 。這個(gè)過(guò)程和前面介紹的定位頁(yè)目錄項(xiàng)的過(guò)程一模一樣。

#define pte_offset_map(dir, address) pte_offset_kernel((dir), (address))

static inline pte_t *pte_offset_kernel(pmd_t *pmd, unsigned long address)
{
	return (pte_t *)pmd_page_vaddr(*pmd) + pte_index(address);
}

static inline unsigned long pte_index(unsigned long address)
{
	return (address >> PAGE_SHIFT) & (PTRS_PER_PTE - 1);
}

#define PAGE_SHIFT   12
// 頁(yè)表可以容納的頁(yè)表項(xiàng) pte_t 的個(gè)數(shù)
#define PTRS_PER_PTE  512

這種情況下，雖然頁(yè)表是存在的，但是奈何 address 在頁(yè)表中的 pte 是空的，和第一種場(chǎng)景一樣，都說(shuō)明了該 address 之前從來(lái)還沒(méi)有被映射過(guò)。

既然之前都沒(méi)有被映射，那么現(xiàn)在就該把這塊內(nèi)容補(bǔ)齊，筆者在之前的文章《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)（原理篇）》中曾為大家介紹了四種內(nèi)存映射方式，它們分別為：私有匿名映射，私有文件映射，共享文件映射，共享匿名映射。這四種內(nèi)存映射方式從總體上來(lái)說(shuō)分為兩類：一類是匿名映射，另一類是文件映射。

所以在處理虛擬內(nèi)存映射區(qū) vma 中的缺頁(yè)時(shí)，也需要分為匿名映射區(qū)的缺頁(yè)處理以及文件映射區(qū)的缺頁(yè)處理。那么在這里，我們?cè)撊绾螀^(qū)分這個(gè)缺頁(yè)的 vma 到底是屬于匿名映射區(qū)還是文件映射區(qū)呢？

還記得筆者之前在《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)（源碼實(shí)現(xiàn)篇）》一文中介紹的內(nèi)存映射核心函數(shù) mmap_region 嗎？關(guān)于文件映射和匿名映射，有這樣的兩段代碼：

unsigned long mmap_region(struct file *file, unsigned long addr,
        unsigned long len, vm_flags_t vm_flags, unsigned long pgoff,
        struct list_head *uf)
{
                  ........ 省略 ........
    // 文件映射
    if (file) {
        // 將文件與虛擬內(nèi)存映射起來(lái)
        vma->vm_file = get_file(file);
        // 這一步中將虛擬內(nèi)存區(qū)域 vma 的操作函數(shù) vm_ops 映射成文件的操作函數(shù)（和具體文件系統(tǒng)有關(guān)）
        // ext4 文件系統(tǒng)中的操作函數(shù)為 ext4_file_vm_ops
        // 從這一刻開始，讀寫內(nèi)存就和讀寫文件是一樣的了
        error = call_mmap(file, vma);
        if (error)
            goto unmap_and_free_vma;

        addr = vma->vm_start;
        vm_flags = vma->vm_flags;
    }  else {
        // 這里處理私有匿名映射
        // 將  vma->vm_ops 設(shè)置為 null，只有文件映射才需要 vm_ops 這樣才能將內(nèi)存與文件映射起來(lái)
        vma_set_anonymous(vma);
    }
}

在處理文件映射的代碼中，內(nèi)核調(diào)用了一個(gè)叫 call_mmap 的函數(shù)，內(nèi)核在該函數(shù)中將虛擬內(nèi)存的相關(guān)操作函數(shù) vma->vm_ops 映射成了文件相關(guān)的操作函數(shù) ext4_file_vm_ops。正因?yàn)槿绱耍罄m(xù)進(jìn)程讀寫這塊虛擬內(nèi)存就相當(dāng)于讀寫文件了。

static int ext4_file_mmap(struct file *file, struct vm_area_struct *vma)
{
        ........ 省略 ........
        
      vma->vm_ops = &ext4_file_vm_ops;
      
        ........ 省略 ........    
}

而在處理匿名映射的代碼中，內(nèi)核調(diào)用了一個(gè)叫做 vma_set_anonymous 的函數(shù)，在這里會(huì)將 vma->vm_ops 設(shè)置為 null ，因?yàn)檫@里映射的匿名內(nèi)存頁(yè)，背后并沒(méi)有文件來(lái)支撐。

static inline void vma_set_anonymous(struct vm_area_struct *vma)
{
	vma->vm_ops = NULL;
}

所以判斷一個(gè)虛擬內(nèi)存區(qū)域 vma 到底是文件映射區(qū)還是匿名映射區(qū)就是要看這個(gè) vma 的 vm_ops 是否為 null。

static inline bool vma_is_anonymous(struct vm_area_struct *vma)
{
	return !vma->vm_ops;
}

如果 vma_is_anonymous 返回 true，那么內(nèi)核就會(huì)在 handle_pte_fault 函數(shù)中調(diào)用 do_anonymous_page 進(jìn)行匿名映射區(qū)的缺頁(yè)處理。

如果 vma_is_anonymous 返回 false，那么內(nèi)核就調(diào)用 do_fault 進(jìn)行文件映射區(qū)的缺頁(yè)處理。

    // pte 是空的，表示缺頁(yè)地址 address 還從來(lái)沒(méi)有被映射過(guò)，接下來(lái)就要處理物理內(nèi)存的映射
    if (!vmf->pte) {
        // 判斷缺頁(yè)的虛擬內(nèi)存地址 address 所在的虛擬內(nèi)存區(qū)域 vma 是否是匿名映射區(qū)
        if (vma_is_anonymous(vmf->vma))
            // 處理匿名映射區(qū)發(fā)生的缺頁(yè)
            return do_anonymous_page(vmf);
        else
            // 處理文件映射區(qū)發(fā)生的缺頁(yè)
            return do_fault(vmf);
    }

第三種缺頁(yè)場(chǎng)景是，虛擬內(nèi)存地址 address 在進(jìn)程頁(yè)表中的頁(yè)表項(xiàng) pte 不是空的，但是其背后映射的物理內(nèi)存頁(yè)被內(nèi)核 swap out 到磁盤上了，CPU 訪問(wèn)的時(shí)候依然會(huì)產(chǎn)生缺頁(yè)。

那么我們?nèi)绾沃?pte 背后映射的物理內(nèi)存頁(yè)在不在內(nèi)存中呢？

筆者在之前的文章《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》中介紹了頁(yè)表項(xiàng) pte 的比特位布局如下圖所示：

其中 pte 的第 0 個(gè)比特位表示該 pte 映射的物理內(nèi)存頁(yè)是否在內(nèi)存中，值為 1 表示物理內(nèi)存頁(yè)在內(nèi)存中駐留，值為 0 表示物理內(nèi)存頁(yè)不在內(nèi)存中，可能被 swap 到磁盤上了。

#define _PAGE_BIT_PRESENT 0 /* is present */

#define _PAGE_PRESENT (_AT(pteval_t, 1) << _PAGE_BIT_PRESENT)

如果我們可以把 pte 中的相關(guān)權(quán)限位提取出來(lái)，然后判斷權(quán)限位第 0 個(gè)比特位是否為 1 ，是不是就能知道 pte 映射的物理內(nèi)存頁(yè)到底在不在內(nèi)存中了，這個(gè)邏輯封裝在 pte_present 方法中：

static inline int pte_present(pte_t a)
{
	return pte_flags(a) & (_PAGE_PRESENT | _PAGE_PROTNONE);
}

pte_flags 函數(shù)用于從 pte 中提取相關(guān)的權(quán)限位，如何提取呢？可還記得我們?cè)谏闲」?jié)中介紹的從頁(yè)目錄項(xiàng)中提取其下一級(jí)頁(yè)目錄表的物理內(nèi)存地址時(shí)使用到的掩碼 PTE_PFN_MASK 嗎？

static inline unsigned long p4d_page_vaddr(p4d_t p4d)
{
    return (unsigned long)__va(p4d_val(p4d) & PTE_PFN_MASK;
}

/* Extracts the PFN from a (pte|pmd|pud|pgd)val_t of a 4KB page */
#define PTE_PFN_MASK        ((pteval_t)PHYSICAL_PAGE_MASK)

#define PHYSICAL_PAGE_MASK  (((signed long)PAGE_MASK) & __PHYSICAL_MASK)

如果我們把掩碼 PTE_PFN_MASK 取反，然后在和 pte 做與運(yùn)算，這樣 pte 中的相關(guān)權(quán)限標(biāo)記位不就提取出來(lái)么。

#define PTE_FLAGS_MASK		(~PTE_PFN_MASK)

static inline pteval_t pte_flags(pte_t pte)
{
	return native_pte_val(pte) & PTE_FLAGS_MASK;
}

static inline pteval_t native_pte_val(pte_t pte)
{
	return pte.pte;
}

然后用權(quán)限標(biāo)記位 pte_flags 和 _PAGE_PRESENT 做 & 運(yùn)算就可以知道 pte 背后映射的物理內(nèi)存頁(yè)是否在內(nèi)存中了。

如果我們通過(guò) pte_present 判斷映射的物理內(nèi)存頁(yè)不在內(nèi)存中了，說(shuō)明它已經(jīng)被內(nèi)核 swap out 到磁盤上了，這種情況下的缺頁(yè)處理就需要調(diào)用 do_swap_page 函數(shù)，將磁盤上的物理內(nèi)存頁(yè)重新 swap in 到內(nèi)存中來(lái)。

   if (!pte_present(vmf->orig_pte))
        // 將之前映射的物理內(nèi)存頁(yè)從磁盤中重新 swap in 到內(nèi)存中
        return do_swap_page(vmf);

以上介紹的這三種缺頁(yè)場(chǎng)景都是屬于缺頁(yè)內(nèi)存地址 address 背后映射的物理內(nèi)存頁(yè)不在內(nèi)存中的類別。

下面我們來(lái)看下另一類別，也就是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)在內(nèi)存中的情況，這里又會(huì)近一步分為兩種缺頁(yè)場(chǎng)景。

筆者曾在?《深入理解 Linux 物理內(nèi)存管理》一文中為大家介紹了 Linux 內(nèi)核在 NUMA 架構(gòu)下物理內(nèi)存管理的相關(guān)內(nèi)容。

在 NUMA 架構(gòu)下，CPU 訪問(wèn)自己的本地內(nèi)存節(jié)點(diǎn)是最快的，但訪問(wèn)其他內(nèi)存節(jié)點(diǎn)就會(huì)慢很多，這就導(dǎo)致了 CPU 訪問(wèn)內(nèi)存的速度不一致。

回到我們?nèi)表?yè)處理的場(chǎng)景中就是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)雖然在內(nèi)存中，但是它可能是進(jìn)程所在 CPU 中的本地 NUMA 節(jié)點(diǎn)上的內(nèi)存，也可能是其他 NUMA 節(jié)點(diǎn)上的內(nèi)存。

因?yàn)?CPU 對(duì)不同 NUMA 節(jié)點(diǎn)上的內(nèi)存有訪問(wèn)速度上的差異，所以內(nèi)核通常傾向于讓 CPU 盡量訪問(wèn)本地 NUMA 節(jié)點(diǎn)上的內(nèi)存。NUMA Balancing 機(jī)制就是用來(lái)解決這個(gè)問(wèn)題的。

通俗來(lái)講，NUMA Balancing 主要干兩件事情，一件事是讓內(nèi)存跟著 CPU 走，另一件事是讓 CPU 跟著內(nèi)存走。

進(jìn)程申請(qǐng)到的物理內(nèi)存頁(yè)可能在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上，也可能在其他 NUMA 節(jié)點(diǎn)上。

所謂讓內(nèi)存跟著 CPU 走的意思就是，當(dāng)進(jìn)程訪問(wèn)的物理內(nèi)存頁(yè)不在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上時(shí)，NUMA Balancing 就會(huì)嘗試將遠(yuǎn)程 NUMA 節(jié)點(diǎn)上的物理內(nèi)存頁(yè)遷移到本地 NUMA 節(jié)點(diǎn)上，加快進(jìn)程訪問(wèn)內(nèi)存的速度。

所謂讓 CPU 跟著內(nèi)存走的意思就是，當(dāng)進(jìn)程經(jīng)常訪問(wèn)的大部分物理內(nèi)存頁(yè)均不在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上時(shí)，NUMA Balancing 干脆就把進(jìn)程重新調(diào)度到這些物理內(nèi)存頁(yè)所在的 NUMA 節(jié)點(diǎn)上。當(dāng)然整個(gè) NUMA Balancing 的過(guò)程會(huì)根據(jù)我們?cè)O(shè)置的 NUMA policy 以及各個(gè) NUMA 節(jié)點(diǎn)上缺頁(yè)的次數(shù)來(lái)綜合考慮是否遷移內(nèi)存頁(yè)。這里涉及到的細(xì)節(jié)很多，筆者就不一一展開了。

NUMA Balancing 會(huì)周期性掃描進(jìn)程虛擬內(nèi)存地址空間，如果發(fā)現(xiàn)虛擬內(nèi)存背后映射的物理內(nèi)存頁(yè)不在當(dāng)前 CPU 本地 NUMA 節(jié)點(diǎn)的時(shí)候，就會(huì)把對(duì)應(yīng)的頁(yè)表項(xiàng) pte 標(biāo)記為 _PAGE_PROTNONE，也就是將 pte 的第 8 個(gè) 比特位置為 1，隨后會(huì)將 pte 的 Present 位置為 0 。

#define _PAGE_PROTNONE	(_AT(pteval_t, 1) << _PAGE_BIT_PROTNONE)

#define _PAGE_BIT_PROTNONE	_PAGE_BIT_GLOBAL

#define _PAGE_BIT_GLOBAL	8

這種情況下調(diào)用 pte_present 依然很返回 true ，因?yàn)楫?dāng)前的物理內(nèi)存頁(yè)畢竟是在內(nèi)存中的，只不過(guò)不在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上而已。

當(dāng) pte 被標(biāo)記為 _PAGE_PROTNONE 之后，這意味著該 pte 背后映射的物理內(nèi)存頁(yè)進(jìn)程對(duì)其沒(méi)有讀寫權(quán)限，也沒(méi)有可執(zhí)行的權(quán)限。進(jìn)程在訪問(wèn)這段虛擬內(nèi)存地址的時(shí)候就會(huì)發(fā)生缺頁(yè)。

當(dāng)進(jìn)入缺頁(yè)異常的處理程序之后，內(nèi)核會(huì)在 handle_pte_fault 函數(shù)中通過(guò) pte_protnone 函數(shù)判斷，缺頁(yè)的 pte 是否被標(biāo)記了 _PAGE_PROTNONE 標(biāo)識(shí)。

static inline int pte_protnone(pte_t pte)
{
	return (pte_flags(pte) & (_PAGE_PROTNONE | _PAGE_PRESENT))
		== _PAGE_PROTNONE;
}

如果 pte 被標(biāo)記了 _PAGE_PROTNONE，并且對(duì)應(yīng)的虛擬內(nèi)存區(qū)域是一個(gè)具有讀寫，可執(zhí)行權(quán)限的 vma。這就說(shuō)明該 vma 背后映射的物理內(nèi)存頁(yè)不在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上。

static inline bool vma_is_accessible(struct vm_area_struct *vma)
{
	return vma->vm_flags & (VM_READ | VM_EXEC | VM_WRITE);
}

這里需要調(diào)用 do_numa_page，將這個(gè)遠(yuǎn)程 NUMA 節(jié)點(diǎn)上的物理內(nèi)存頁(yè)遷移到當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上，從而加快進(jìn)程訪問(wèn)內(nèi)存的速度。

  if (pte_protnone(vmf->orig_pte) && vma_is_accessible(vmf->vma))
        return do_numa_page(vmf);

NUMA Balancing 機(jī)制看起來(lái)非常好，但是同時(shí)也會(huì)為系統(tǒng)引入很多開銷，比如，掃描進(jìn)程地址空間的開銷，缺頁(yè)的開銷，更主要的是頁(yè)面遷移的開銷會(huì)很大，這也會(huì)引起 CPU 有時(shí)候莫名其妙的飆到 100 %。因此筆者建議在一般情況下還是將 NUMA Balancing 關(guān)閉為好，除非你有明確的理由開啟。

我們可以將內(nèi)核參數(shù) /proc/sys/kernel/numa_balancing 設(shè)置為 0 或者通過(guò) sysctl 命令來(lái)關(guān)閉 NUMA Balancing。

echo 0 > /proc/sys/kernel/numa_balancing

sysctl -w kernel.numa_balancing=0

第二種場(chǎng)景就是寫時(shí)復(fù)制了（Copy On Write， COW），這種場(chǎng)景和 NUMA Balancing 一樣，都屬于缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)在內(nèi)存中而引起的缺頁(yè)中斷。

COW 在內(nèi)核的內(nèi)存管理子系統(tǒng)中很常見(jiàn)了，比如，父進(jìn)程通過(guò) fork 系統(tǒng)調(diào)用創(chuàng)建子進(jìn)程之后，父子進(jìn)程的虛擬內(nèi)存空間完全是一模一樣的，包括父子進(jìn)程的頁(yè)表內(nèi)容都是一樣的，父子進(jìn)程頁(yè)表中的 PTE 均指向同一物理內(nèi)存頁(yè)面，此時(shí)內(nèi)核會(huì)將父子進(jìn)程頁(yè)表中的 PTE 均改為只讀的，并將父子進(jìn)程共同映射的這個(gè)物理頁(yè)面引用計(jì)數(shù) + 1。

static inline unsigned long
copy_one_pte(struct mm_struct *dst_mm, struct mm_struct *src_mm,
        pte_t *dst_pte, pte_t *src_pte, struct vm_area_struct *vma,
        unsigned long addr, int *rss)
{
    /*
     * If it's a COW mapping, write protect it both
     * in the parent and the child
     */
    if (is_cow_mapping(vm_flags) && pte_write(pte)) {
        // 設(shè)置父進(jìn)程的 pte 為只讀
        ptep_set_wrprotect(src_mm, addr, src_pte);
        // 設(shè)置子進(jìn)程的 pte 為只讀
        pte = pte_wrprotect(pte);
    }
    // 獲取 pte 中映射的物理內(nèi)存頁(yè)（此時(shí)父子進(jìn)程共享該頁(yè)）
    page = vm_normal_page(vma, addr, pte);
    // 物理內(nèi)存頁(yè)的引用計(jì)數(shù) + 1
    get_page(page);
}

當(dāng)父進(jìn)程或者子進(jìn)程對(duì)該頁(yè)面發(fā)生寫操作的時(shí)候，我們現(xiàn)在假設(shè)子進(jìn)程先對(duì)頁(yè)面發(fā)生寫操作，隨后子進(jìn)程發(fā)現(xiàn)自己頁(yè)表中的 PTE 是只讀的，于是產(chǎn)生缺頁(yè)中斷，子進(jìn)程進(jìn)入內(nèi)核態(tài)，內(nèi)核會(huì)在本小節(jié)介紹的缺頁(yè)中斷處理程序中發(fā)現(xiàn)，訪問(wèn)的這個(gè)物理頁(yè)面引用計(jì)數(shù)大于 1，說(shuō)明此時(shí)該物理內(nèi)存頁(yè)面存在多進(jìn)程共享的情況，于是發(fā)生寫時(shí)復(fù)制（Copy On Write， COW），內(nèi)核為子進(jìn)程重新分配一個(gè)新的物理頁(yè)面，然后將原來(lái)物理頁(yè)中的內(nèi)容拷貝到新的頁(yè)面中，最后子進(jìn)程頁(yè)表中的 PTE 指向新的物理頁(yè)面并將 PTE 的 R/W 位設(shè)置為 1，原來(lái)物理頁(yè)面的引用計(jì)數(shù) - 1。

后面父進(jìn)程在對(duì)頁(yè)面進(jìn)行寫操作的時(shí)候，同樣也會(huì)發(fā)現(xiàn)父進(jìn)程的頁(yè)表中 PTE 是只讀的，也會(huì)產(chǎn)生缺頁(yè)中斷，但是在內(nèi)核的缺頁(yè)中斷處理程序中，發(fā)現(xiàn)訪問(wèn)的這個(gè)物理頁(yè)面引用計(jì)數(shù)為 1 了，那么就只需要將父進(jìn)程頁(yè)表中的 PTE 的 R/W 位設(shè)置為 1 就可以了。

還有筆者在之前的文章?《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)（原理篇）》中介紹的私有文件映射，也用到了 COW，當(dāng)多個(gè)進(jìn)程采用私有文件映射的方式對(duì)同一文件的同一部分進(jìn)行映射的時(shí)候，后續(xù)產(chǎn)生的 pte 也都是只讀的。

當(dāng)任意進(jìn)程開始對(duì)它的私有文件映射區(qū)進(jìn)行寫操作時(shí)，就會(huì)發(fā)生寫時(shí)復(fù)制，隨后內(nèi)核會(huì)在這里介紹的缺頁(yè)中斷程序中重新申請(qǐng)一個(gè)內(nèi)存頁(yè)，然后將 page cache 中的內(nèi)容拷貝到這個(gè)新的內(nèi)存頁(yè)中，進(jìn)程頁(yè)表中對(duì)應(yīng)的 pte 會(huì)重新關(guān)聯(lián)到這個(gè)新的內(nèi)存頁(yè)上，此時(shí) pte 的權(quán)限變?yōu)榭蓪憽?/p>

在以上介紹的兩種寫時(shí)復(fù)制應(yīng)用場(chǎng)景中，他們都有一個(gè)共同的特點(diǎn)，就是進(jìn)程的虛擬內(nèi)存區(qū)域 vma 的權(quán)限是可寫的，但是其對(duì)應(yīng)在頁(yè)表中的 pte 卻是只讀的，而 pte 映射的物理內(nèi)存頁(yè)也在內(nèi)存中。

內(nèi)核正是利用這個(gè)特點(diǎn)來(lái)判斷本次缺頁(yè)中斷是否是由寫時(shí)復(fù)制引起的。如果是，則調(diào)用 do_wp_page 進(jìn)行寫時(shí)復(fù)制的缺頁(yè)處理。

    // 判斷本次缺頁(yè)是否為寫時(shí)復(fù)制引起的
    if (vmf->flags & FAULT_FLAG_WRITE) {
        // 這里說(shuō)明 vma 是可寫的，但是 pte 被標(biāo)記為不可寫，說(shuō)明是寫保護(hù)類型的中斷
        if (!pte_write(entry))
            // 進(jìn)行寫時(shí)復(fù)制處理，cow 就發(fā)生在這里
            return do_wp_page(vmf);
    }

在我們清楚了以上背景知識(shí)之后，再來(lái)看 handle_pte_fault 的缺頁(yè)處理邏輯就很清晰了：

static vm_fault_t handle_pte_fault(struct vm_fault *vmf)
{
    pte_t entry;

    if (unlikely(pmd_none(*vmf->pmd))) {
        // 如果 pmd 是空的，說(shuō)明現(xiàn)在連頁(yè)表都沒(méi)有，頁(yè)表項(xiàng) pte 自然是空的
        vmf->pte = NULL;
    } else {
        // vmf->pte 表示缺頁(yè)虛擬內(nèi)存地址在頁(yè)表中對(duì)應(yīng)的頁(yè)表項(xiàng) pte
        // 通過(guò) pte_offset_map 定位到虛擬內(nèi)存地址 address 對(duì)應(yīng)在頁(yè)表中的 pte
        // 這里根據(jù) address 獲取 pte_index，然后從 pmd 中提取頁(yè)表起始虛擬內(nèi)存地址相加獲取 pte
        vmf->pte = pte_offset_map(vmf->pmd, vmf->address);
        //  vmf->orig_pte 表示發(fā)生缺頁(yè)時(shí)，address 對(duì)應(yīng)的 pte 值
        vmf->orig_pte = *vmf->pte;

        // 這里 pmd 不是空的，表示現(xiàn)在是有頁(yè)表存在的，但缺頁(yè)虛擬內(nèi)存地址在頁(yè)表中的 pte 是空值
        if (pte_none(vmf->orig_pte)) {
            pte_unmap(vmf->pte);
            vmf->pte = NULL;
        }
    }

    // pte 是空的，表示缺頁(yè)地址 address 還從來(lái)沒(méi)有被映射過(guò)，接下來(lái)就要處理物理內(nèi)存的映射
    if (!vmf->pte) {
        // 判斷缺頁(yè)的虛擬內(nèi)存地址 address 所在的虛擬內(nèi)存區(qū)域 vma 是否是匿名映射區(qū)
        if (vma_is_anonymous(vmf->vma))
            // 處理匿名映射區(qū)發(fā)生的缺頁(yè)
            return do_anonymous_page(vmf);
        else
            // 處理文件映射區(qū)發(fā)生的缺頁(yè)
            return do_fault(vmf);
    }

    // 走到這里表示 pte 不是空的，但是 pte 中的 p 比特位是 0 值，表示之前映射的物理內(nèi)存頁(yè)已不在內(nèi)存中（swap out）
    if (!pte_present(vmf->orig_pte))
        // 將之前映射的物理內(nèi)存頁(yè)從磁盤中重新 swap in 到內(nèi)存中
        return do_swap_page(vmf);

    // 這里表示 pte 背后映射的物理內(nèi)存頁(yè)在內(nèi)存中，但是 NUMA Balancing 發(fā)現(xiàn)該內(nèi)存頁(yè)不在當(dāng)前進(jìn)程運(yùn)行的 numa 節(jié)點(diǎn)上
    // 所以將該 pte 標(biāo)記為 _PAGE_PROTNONE（無(wú)讀寫，可執(zhí)行權(quán)限）
    // 進(jìn)程訪問(wèn)該內(nèi)存頁(yè)時(shí)發(fā)生缺頁(yè)中斷，在這里的 do_numa_page 中，內(nèi)核將該 page 遷移到進(jìn)程運(yùn)行的 numa 節(jié)點(diǎn)上。
    if (pte_protnone(vmf->orig_pte) && vma_is_accessible(vmf->vma))
        return do_numa_page(vmf);

    entry = vmf->orig_pte;
    // 如果本次缺頁(yè)中斷是由寫操作引起的
    if (vmf->flags & FAULT_FLAG_WRITE) {
        // 這里說(shuō)明 vma 是可寫的，但是 pte 被標(biāo)記為不可寫，說(shuō)明是寫保護(hù)類型的中斷
        if (!pte_write(entry))
            // 進(jìn)行寫時(shí)復(fù)制處理，cow 就發(fā)生在這里
            return do_wp_page(vmf);
        // 如果 pte 是可寫的，就將 pte 標(biāo)記為臟頁(yè)
        entry = pte_mkdirty(entry);
    }
    // 將 pte 的 access 比特位置 1 ，表示該 page 是活躍的。避免被 swap 出去
    entry = pte_mkyoung(entry);

    // 經(jīng)過(guò)上面的缺頁(yè)處理，這里會(huì)判斷原來(lái)的頁(yè)表項(xiàng) entry（orig_pte） 值是否發(fā)生了變化
    // 如果發(fā)生了變化，就把 entry 更新到 vmf->pte 中。
    if (ptep_set_access_flags(vmf->vma, vmf->address, vmf->pte, entry,
                vmf->flags & FAULT_FLAG_WRITE)) {
        // pte 既然變化了，則刷新 mmu （體系結(jié)構(gòu)相關(guān)）
        update_mmu_cache(vmf->vma, vmf->address, vmf->pte);
    } else {
        // 如果 pte 內(nèi)容本身沒(méi)有變化，則不需要刷新任何東西
        // 但是有個(gè)特殊情況就是寫保護(hù)類型中斷，產(chǎn)生的寫時(shí)復(fù)制，產(chǎn)生了新的映射關(guān)系，需要刷新一下 tlb
		/*
		 * This is needed only for protection faults but the arch code
		 * is not yet telling us if this is a protection fault or not.
		 * This still avoids useless tlb flushes for .text page faults
		 * with threads.
		 */
        if (vmf->flags & FAULT_FLAG_WRITE)
            flush_tlb_fix_spurious_fault(vmf->vma, vmf->address);
    }

    return 0;
}

7. do_anonymous_page 處理匿名頁(yè)缺頁(yè)

在本文的第五小節(jié)中，我們完成了各級(jí)頁(yè)目錄的補(bǔ)齊填充工作，但是現(xiàn)在最后一級(jí)頁(yè)表還沒(méi)有著落，所以在處理缺頁(yè)之前，我們需要調(diào)用 pte_alloc 繼續(xù)把頁(yè)表補(bǔ)齊了。

#define pte_alloc(mm, pmd) (unlikely(pmd_none(*(pmd))) && __pte_alloc(mm, pmd))

首先我們通過(guò) pmd_none 判斷缺頁(yè)地址 address 在進(jìn)程頁(yè)表中間頁(yè)目錄 PMD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd 是否是空的，如果 pmd 是空的，說(shuō)明此時(shí)還不存在一級(jí)頁(yè)表，這樣一來(lái)，就需要調(diào)用 __pte_alloc 來(lái)分配一張頁(yè)表，然后用頁(yè)表的 pfn 以及初始權(quán)限位 _PAGE_TABLE 來(lái)填充 pmd。

static inline void pmd_populate(struct mm_struct *mm, pmd_t *pmd,
                struct page *pte)
{
    // 通過(guò)頁(yè)表 page 獲取對(duì)應(yīng)的 pfn
    unsigned long pfn = page_to_pfn(pte);
    // 將頁(yè)表 page 的 pfn 以及初始權(quán)限位 _PAGE_TABLE 填充到 pmd 中
    set_pmd(pmd, __pmd(((pteval_t)pfn << PAGE_SHIFT) | _PAGE_TABLE));
}

這里 __pte_alloc 的流程邏輯和前面我們介紹的__pud_alloc，__pmd_alloc 可以說(shuō)是一模一樣，都是創(chuàng)建其下一級(jí)頁(yè)目錄或者頁(yè)表，然后填充對(duì)應(yīng)的頁(yè)目錄項(xiàng)，這里就不做過(guò)多的介紹了。

int __pte_alloc(struct mm_struct *mm, pmd_t *pmd)
{
    spinlock_t *ptl;
    // 調(diào)用 get_zeroed_page 申請(qǐng)一個(gè) 4k 物理內(nèi)存頁(yè)并初始化為 0 值作為新的 頁(yè)表
    // new 指向新分配的 頁(yè)表 起始內(nèi)存地址
    pgtable_t new = pte_alloc_one(mm);
    if (!new)
        return -ENOMEM;
    // 鎖定中間頁(yè)目錄項(xiàng) pmd
    ptl = pmd_lock(mm, pmd);
    // 如果 pmd 是空的，說(shuō)明此時(shí) pmd 并未指向頁(yè)表，下面就需要用新頁(yè)表 new 來(lái)填充 pmd 
    if (likely(pmd_none(*pmd))) {  
        // 更新 mm->pgtables_bytes 計(jì)數(shù)，該字段用于統(tǒng)計(jì)進(jìn)程頁(yè)表所占用的字節(jié)數(shù)
        // 由于這里新增了一張頁(yè)表，所以計(jì)數(shù)需要增加 PTRS_PER_PTE * sizeof(pte_t)
        mm_inc_nr_ptes(mm);
        // 將 new 指向的新分配出來(lái)的頁(yè)表 page 的 pfn 以及相關(guān)初始權(quán)限位填充到 pmd 中
        pmd_populate(mm, pmd, new);
        new = NULL;
    }
    spin_unlock(ptl);
    return 0;
}

// 頁(yè)表可以容納的頁(yè)表項(xiàng) pte_t 的個(gè)數(shù)
#define PTRS_PER_PTE  512

現(xiàn)在我們已經(jīng)有了一級(jí)頁(yè)表，但是頁(yè)表中的 pte 還都是空的，接下來(lái)就該用這個(gè)空的 pte 來(lái)映射物理內(nèi)存頁(yè)了。

首先我們通過(guò) alloc_zeroed_user_highpage_movable 來(lái)分配一個(gè)物理內(nèi)存頁(yè)出來(lái)，關(guān)于物理內(nèi)存詳細(xì)的分配過(guò)程，感興趣的讀者可以看下筆者的這篇文章——《深入理解 Linux 物理內(nèi)存分配全鏈路實(shí)現(xiàn)》。

這個(gè)物理內(nèi)存頁(yè)就是為缺頁(yè)地址 address 映射的物理內(nèi)存了，隨后我們通過(guò) mk_pte 利用物理內(nèi)存頁(yè) page 的 pfn 以及缺頁(yè)內(nèi)存區(qū)域 vma 中記錄的頁(yè)屬性 vma->vm_page_prot 填充一個(gè)新的頁(yè)表項(xiàng) entry 出來(lái)。

entry 這里只是一個(gè)臨時(shí)的值，后續(xù)會(huì)將 entry 的值設(shè)置到真正的 pte 中。

#define mk_pte(page, pgprot)   pfn_pte(page_to_pfn(page), (pgprot))

如果缺頁(yè)內(nèi)存地址 address 所在的虛擬內(nèi)存區(qū)域 vma 是可寫的，那么我們就通過(guò) pte_mkwrite 和 pte_mkdirty 將臨時(shí)頁(yè)表項(xiàng) entry 的 R/W(1) 比特位和D(6) 比特位置為 1 。表示該頁(yè)表項(xiàng)背后映射的物理內(nèi)存頁(yè) page 是可寫的，并且標(biāo)記為臟頁(yè)。

  if (vma->vm_flags & VM_WRITE)
        entry = pte_mkwrite(pte_mkdirty(entry));

注意，此時(shí)缺頁(yè)內(nèi)存地址 address 在頁(yè)表中的 pte 還是空的，我們還沒(méi)有設(shè)置呢，目前只是先將值初始化到臨時(shí)的頁(yè)表項(xiàng) entry 中，下面才到設(shè)置真正的 pte 的時(shí)候。

調(diào)用 pte_offset_map_lock，首先獲取 address 在一級(jí)頁(yè)表中的真正 pte，然后將一級(jí)頁(yè)表鎖定。

#define pte_offset_map_lock(mm, pmd, address, ptlp) \
({                          \
    // 獲取 pmd 映射的一級(jí)頁(yè)表鎖
    spinlock_t *__ptl = pte_lockptr(mm, pmd);   \
    // 獲取 pte
    pte_t *__pte = pte_offset_map(pmd, address);    \
    *(ptlp) = __ptl;                \
    // 鎖定一級(jí)頁(yè)表
    spin_lock(__ptl);               \
    __pte;                      \
})

按理說(shuō)此時(shí)獲取到的 pte 應(yīng)該是空的，如果 pte 不為空，說(shuō)明已經(jīng)有其他線程把缺頁(yè)處理好了，pte 已經(jīng)被填充了，那么本次缺頁(yè)處理就該停止，不能在往下走了，直接跳轉(zhuǎn)到 release 處，釋放頁(yè)表鎖，釋放新分配的物理內(nèi)存頁(yè) page。

    if (!pte_none(*vmf->pte))
        goto release;

如果 pte 為空，說(shuō)明此時(shí)沒(méi)有其他線程對(duì)缺頁(yè)進(jìn)行并發(fā)處理，我們可以接著處理缺頁(yè)。

進(jìn)程使用到的常駐內(nèi)存等相關(guān)統(tǒng)計(jì)信息保存在 task->rss_stat 字段中：

struct task_struct {
    // 統(tǒng)計(jì)進(jìn)程常駐內(nèi)存信息
    struct task_rss_stat rss_stat;
}

由于這里我們新分配一個(gè)匿名內(nèi)存頁(yè)用于缺頁(yè)處理，所以相關(guān) rss_stat 統(tǒng)計(jì)信息 —— task->rss_stat.count[MM_ANONPAGES] 要加 1 。

// MM_ANONPAGES —— Resident anonymous pages 
inc_mm_counter_fast(vma->vm_mm, MM_ANONPAGES);

#define inc_mm_counter_fast(mm, member) add_mm_counter_fast(mm, member, 1)

static void add_mm_counter_fast(struct mm_struct *mm, int member, int val)
{
	struct task_struct *task = current;

	if (likely(task->mm == mm))
		task->rss_stat.count[member] += val;
	else
		add_mm_counter(mm, member, val);
}

隨后調(diào)用 page_add_new_anon_rmap 建立匿名頁(yè)的反向映射關(guān)系，關(guān)于匿名頁(yè)的反向映射筆者已經(jīng)在之前的文章 —— ?《深入理解 Linux 物理內(nèi)存管理》中詳細(xì)介紹過(guò)了，感興趣的朋友可以回看下。

反向映射建立好之后，調(diào)用 lru_cache_add_active_or_unevictable 將匿名內(nèi)存頁(yè)加入到 LRU 活躍鏈表中。

最后調(diào)用 set_pte_at 將之間我們臨時(shí)填充的頁(yè)表項(xiàng) entry 賦值給缺頁(yè) address 真正對(duì)應(yīng)的 pte。

set_pte_at(vma->vm_mm, vmf->address, vmf->pte, entry);

#define set_pte_at(mm, addr, ptep, pte)	native_set_pte_at(mm, addr, ptep, pte)

static inline void native_set_pte_at(struct mm_struct *mm, unsigned long addr,
				     pte_t *ptep , pte_t pte)
{
	native_set_pte(ptep, pte);
}

static inline void native_set_pte(pte_t *ptep, pte_t pte)
{
	WRITE_ONCE(*ptep, pte);
}

到這里我們才算是真正把進(jìn)程的頁(yè)表體系給補(bǔ)齊了。

在明白以上內(nèi)容之后，我們回過(guò)頭來(lái)看在 do_anonymous_page 匿名頁(yè)缺頁(yè)處理的邏輯就很清晰了：

static vm_fault_t do_anonymous_page(struct vm_fault *vmf)
{
    // 缺頁(yè)地址 address 所在的虛擬內(nèi)存區(qū)域 vma
    struct vm_area_struct *vma = vmf->vma;
    // 指向分配的物理內(nèi)存頁(yè)，后面與虛擬內(nèi)存進(jìn)行映射
    struct page *page;
    vm_fault_t ret = 0;
    // 臨時(shí)的 pte 用于構(gòu)建 pte 中的值，后續(xù)會(huì)賦值給 address 在頁(yè)表中對(duì)應(yīng)的真正 pte
    pte_t entry;

    // 如果 pmd 是空的，表示現(xiàn)在還沒(méi)有一級(jí)頁(yè)表
    // pte_alloc 這里會(huì)創(chuàng)建一級(jí)頁(yè)表，并填充 pmd 中的內(nèi)容
    if (pte_alloc(vma->vm_mm, vmf->pmd))
        return VM_FAULT_OOM;
  
    // 頁(yè)表創(chuàng)建好之后，這里從伙伴系統(tǒng)中分配一個(gè) 4K 物理內(nèi)存頁(yè)出來(lái)
    page = alloc_zeroed_user_highpage_movable(vma, vmf->address);
    if (!page)
        goto oom;
    // 將 page 的 pfn 以及相關(guān)權(quán)限標(biāo)記位 vm_page_prot 初始化一個(gè)臨時(shí) pte 出來(lái) 
    entry = mk_pte(page, vma->vm_page_prot);
    // 如果 vma 是可寫的，則將 pte 標(biāo)記為可寫，臟頁(yè)。
    if (vma->vm_flags & VM_WRITE)
        entry = pte_mkwrite(pte_mkdirty(entry));
    // 鎖定一級(jí)頁(yè)表，并獲取 address 在頁(yè)表中對(duì)應(yīng)的真實(shí) pte
    vmf->pte = pte_offset_map_lock(vma->vm_mm, vmf->pmd, vmf->address,
            &vmf->ptl);
    // 是否有其他線程在并發(fā)處理缺頁(yè)
    if (!pte_none(*vmf->pte))
        goto release;
    // 增加 進(jìn)程 rss 相關(guān)計(jì)數(shù)，匿名內(nèi)存頁(yè)計(jì)數(shù) + 1
    inc_mm_counter_fast(vma->vm_mm, MM_ANONPAGES);
    // 建立匿名頁(yè)反向映射關(guān)系
    page_add_new_anon_rmap(page, vma, vmf->address, false);
    // 將匿名頁(yè)添加到 LRU 鏈表中
    lru_cache_add_active_or_unevictable(page, vma);
setpte:
    // 將 entry 賦值給真正的 pte，這里 pte 就算被填充好了，進(jìn)程頁(yè)表體系也就補(bǔ)齊了
    set_pte_at(vma->vm_mm, vmf->address, vmf->pte, entry);
    // 刷新 mmu 
    update_mmu_cache(vma, vmf->address, vmf->pte);
unlock:
    // 解除 pte 的映射
    pte_unmap_unlock(vmf->pte, vmf->ptl);
    return ret;
release:
    // 釋放 page 
    put_page(page);
    goto unlock;
oom:
    return VM_FAULT_OOM;
}

8. do_fault 處理文件頁(yè)缺頁(yè)

筆者在之前的文章《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)（源碼實(shí)現(xiàn)篇）》?中，在為大家介紹到 mmap 文件映射的源碼實(shí)現(xiàn)時(shí)，特別強(qiáng)調(diào)了一下，mmap 內(nèi)存文件映射的本質(zhì)其實(shí)就是將虛擬映射區(qū) vma 的相關(guān)操作 vma->vm_ops 映射成文件的相關(guān)操作 ext4_file_vm_ops。

unsigned long mmap_region(struct file *file, unsigned long addr,
        unsigned long len, vm_flags_t vm_flags, unsigned long pgoff,
        struct list_head *uf)
{
                  ........ 省略 ........
    // 文件映射
    if (file) {
        // 將文件與虛擬內(nèi)存映射起來(lái)
        vma->vm_file = get_file(file);
        // 這一步中將虛擬內(nèi)存區(qū)域 vma 的操作函數(shù) vm_ops 映射成文件的操作函數(shù)（和具體文件系統(tǒng)有關(guān)）
        // ext4 文件系統(tǒng)中的操作函數(shù)為 ext4_file_vm_ops
        // 從這一刻開始，讀寫內(nèi)存就和讀寫文件是一樣的了
        error = call_mmap(file, vma);
    } 
}

static int ext4_file_mmap(struct file *file, struct vm_area_struct *vma)
{     
      vma->vm_ops = &ext4_file_vm_ops;
}

在 vma->vm_ops 中有個(gè)重要的函數(shù) fault，在 ext4 文件系統(tǒng)中的實(shí)現(xiàn)是：ext4_filemap_fault 函數(shù)。

static const struct vm_operations_struct ext4_file_vm_ops = {
    .fault      = ext4_filemap_fault,
    .map_pages  = filemap_map_pages,
    .page_mkwrite   = ext4_page_mkwrite,
};

vma->vm_ops->fault 函數(shù)就是專門用于處理文件映射區(qū)缺頁(yè)的，本小節(jié)要介紹的文件頁(yè)的缺頁(yè)處理的核心就是依賴這個(gè)函數(shù)完成的。

我們知道 mmap 進(jìn)行文件映射的時(shí)候只是單純地建立了虛擬內(nèi)存與文件之間的映射關(guān)系，此時(shí)并沒(méi)有物理內(nèi)存分配。當(dāng)進(jìn)程對(duì)這段文件映射區(qū)進(jìn)行讀取操作的時(shí)候，會(huì)觸發(fā)缺頁(yè)，然后分配物理內(nèi)存（文件頁(yè)），這一部分邏輯在下面的 do_read_fault 函數(shù)中完成，它主要處理的是由于對(duì)文件映射區(qū)的讀取操作而引起的缺頁(yè)情況。

而 mmap 文件映射又分為私有文件映射與共享文件映射兩種映射方式，而私有文件映射的核心特點(diǎn)是讀共享的，當(dāng)任意進(jìn)程對(duì)私有文件映射區(qū)發(fā)生寫入操作時(shí)候，就會(huì)發(fā)生寫時(shí)復(fù)制 COW，這一部分邏輯在下面的 do_cow_fault 函數(shù)中完成。

對(duì)共享文件映射區(qū)進(jìn)行的寫入操作而引起的缺頁(yè)，內(nèi)核放在 do_shared_fault 函數(shù)中進(jìn)行處理。

static vm_fault_t do_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    struct mm_struct *vm_mm = vma->vm_mm;
    vm_fault_t ret;

    // 處理 vm_ops->fault 為 null 的異常情況
    if (!vma->vm_ops->fault) {
        // 如果中間頁(yè)目錄 pmd 指向的一級(jí)頁(yè)表不在內(nèi)存中，則返回 SIGBUS 錯(cuò)誤
        if (unlikely(!pmd_present(*vmf->pmd)))
            ret = VM_FAULT_SIGBUS;
        else {
            // 獲取缺頁(yè)的頁(yè)表項(xiàng) pte
            vmf->pte = pte_offset_map_lock(vmf->vma->vm_mm,
                               vmf->pmd,
                               vmf->address,
                               &vmf->ptl);
            // pte 為空，則返回 SIGBUS 錯(cuò)誤
            if (unlikely(pte_none(*vmf->pte)))
                ret = VM_FAULT_SIGBUS;
            else
                // pte 不為空，返回 NOPAGE，即本次缺頁(yè)處理不會(huì)分配物理內(nèi)存頁(yè)
                ret = VM_FAULT_NOPAGE;

            pte_unmap_unlock(vmf->pte, vmf->ptl);
        }
    } else if (!(vmf->flags & FAULT_FLAG_WRITE))
        // 缺頁(yè)如果是讀操作引起的，進(jìn)入 do_read_fault 處理
        ret = do_read_fault(vmf);
    else if (!(vma->vm_flags & VM_SHARED))
        // 缺頁(yè)是由私有映射區(qū)的寫入操作引起的，則進(jìn)入 do_cow_fault 處理寫時(shí)復(fù)制
        ret = do_cow_fault(vmf);
    else
        // 處理共享映射區(qū)的寫入缺頁(yè)
        ret = do_shared_fault(vmf);

    return ret;
}

8.1 do_read_fault 處理讀操作引起的缺頁(yè)

當(dāng)我們調(diào)用 mmap 對(duì)文件進(jìn)行映射的時(shí)候，無(wú)論是采用私有文件映射的方式還是共享文件映射的方式，內(nèi)核都只是會(huì)在進(jìn)程的地址空間中為本次映射創(chuàng)建出一段虛擬映射區(qū) vma 出來(lái)，然后將這段虛擬映射區(qū) vma 與映射文件關(guān)聯(lián)起來(lái)就結(jié)束了，整個(gè)映射過(guò)程并未涉及到物理內(nèi)存的分配。

下面是多進(jìn)程對(duì)同一文件中的同一段文件區(qū)域進(jìn)行私有映射后，內(nèi)核中的結(jié)構(gòu)圖：

當(dāng)任意進(jìn)程開始訪問(wèn)其地址空間中的這段虛擬內(nèi)存區(qū)域 vma 時(shí)，由于背后沒(méi)有對(duì)應(yīng)文件頁(yè)進(jìn)行映射，所以會(huì)發(fā)生缺頁(yè)中斷，在缺頁(yè)中斷中內(nèi)核會(huì)首先分配一個(gè)物理內(nèi)存頁(yè)并加入到 page cache 中，隨后將映射的文件內(nèi)容讀取到剛剛創(chuàng)建出來(lái)的物理內(nèi)存頁(yè)中，然后將這個(gè)物理內(nèi)存頁(yè)映射到缺頁(yè)虛擬內(nèi)存地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表中的 pte 中。

除此之外，內(nèi)核還會(huì)考慮到進(jìn)程訪問(wèn)內(nèi)存的空間局部性，所以內(nèi)核除了會(huì)映射本次缺頁(yè)需要的文件頁(yè)之外，還會(huì)將其相鄰的文件頁(yè)讀取到 page cache 中，然后將這些相鄰的文件頁(yè)映射到對(duì)應(yīng)的 pte 中。這一部分預(yù)先提前映射的邏輯在 map_pages 函數(shù)中實(shí)現(xiàn)。

static const struct vm_operations_struct ext4_file_vm_ops = {
    .fault      = ext4_filemap_fault,
    .map_pages  = filemap_map_pages,
    .page_mkwrite   = ext4_page_mkwrite,
};

如果不滿足預(yù)先提前映射的條件，那么內(nèi)核就只會(huì)專注處理映射本次缺頁(yè)所需要的文件頁(yè)。

首先通過(guò)上面的 fault 函數(shù)，當(dāng)映射文件所在文件系統(tǒng)是 ext4 時(shí)，該函數(shù)的實(shí)現(xiàn)為 ext4_filemap_fault，該函數(shù)只負(fù)責(zé)獲取本次缺頁(yè)所需要的文件頁(yè)。

當(dāng)獲取到文件頁(yè)之后，內(nèi)核會(huì)調(diào)用 finish_fault 函數(shù)，將文件頁(yè)映射到缺頁(yè)地址 address 在進(jìn)程頁(yè)表中對(duì)應(yīng)的 pte 中，do_read_fault 函數(shù)處理就完成了，不過(guò)需要注意的是，對(duì)于私有文件映射的話，此時(shí)的這個(gè) pte 還是只讀的，多進(jìn)程之間讀共享，當(dāng)任意進(jìn)程嘗試寫入的時(shí)候，會(huì)發(fā)生寫時(shí)復(fù)制。

static unsigned long fault_around_bytes __read_mostly =
	rounddown_pow_of_two(65536);

static vm_fault_t do_read_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    vm_fault_t ret = 0;

    // map_pages 用于提前預(yù)先映射文件頁(yè)相鄰的若干文件頁(yè)到相關(guān) pte 中，從而減少缺頁(yè)次數(shù)
    // fault_around_bytes 控制預(yù)先映射的的字節(jié)數(shù)默認(rèn)初始值為 65536（16個(gè)物理內(nèi)存頁(yè)）
    if (vma->vm_ops->map_pages && fault_around_bytes >> PAGE_SHIFT > 1) {
        // 這里會(huì)嘗試使用 map_pages 將缺頁(yè)地址 address 附近的文件頁(yè)預(yù)讀進(jìn) page cache
        // 然后填充相關(guān)的 pte，目的是減少缺頁(yè)次數(shù)
        ret = do_fault_around(vmf);
        if (ret)
            return ret;
    }

    // 如果不滿足預(yù)先映射的條件，則只映射本次需要的文件頁(yè)
    // 首先會(huì)從 page cache 中讀取文件頁(yè)，如果 page cache 中不存在則從磁盤中讀取，并預(yù)讀若干文件頁(yè)到 page cache 中
    ret = __do_fault(vmf);     // 這里需要負(fù)責(zé)獲取文件頁(yè)，并不映射
    // 將本次缺頁(yè)所需要的文件頁(yè)映射到 pte 中。
    ret |= finish_fault(vmf);
    unlock_page(vmf->page);
    return ret;
}

__do_fault 函數(shù)底層會(huì)調(diào)用到 vma->vm_ops->fault，在 ext4 文件系統(tǒng)中對(duì)應(yīng)的實(shí)現(xiàn)是 ext4_filemap_fault。

static vm_fault_t __do_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    vm_fault_t ret;
          ...... 省略 ......
    ret = vma->vm_ops->fault(vmf);
          ...... 省略 ......
    return ret;
}

vm_fault_t ext4_filemap_fault(struct vm_fault *vmf)
{
    ret = filemap_fault(vmf);
    return ret;
}

filemap_fault 主要的任務(wù)就是先把缺頁(yè)所需要的文件頁(yè)獲取出來(lái)，為后面的映射做準(zhǔn)備。

以下內(nèi)容涉及到文件以及 page cache 的相關(guān)操作，對(duì)細(xì)節(jié)感興趣的讀者可以回看下筆者之前的文章 —— 《從 Linux 內(nèi)核角度探秘 JDK NIO 文件讀寫本質(zhì)》

內(nèi)核在這里首先會(huì)調(diào)用 find_get_page 從 page cache 中嘗試獲取文件頁(yè)，如果文件頁(yè)存在，則繼續(xù)調(diào)用 do_async_mmap_readahead 啟動(dòng)異步預(yù)讀機(jī)制，將相鄰的若干文件頁(yè)一起預(yù)讀進(jìn) page cache 中。

如果文件頁(yè)不在 page cache 中，內(nèi)核則會(huì)調(diào)用 do_sync_mmap_readahead 來(lái)同步預(yù)讀，這里首先會(huì)分配一個(gè)物理內(nèi)存頁(yè)出來(lái)，然后將新分配的內(nèi)存頁(yè)加入到 page cache 中，并增加頁(yè)引用計(jì)數(shù)。

隨后會(huì)通過(guò) address_space_operations 中定義的 readpage 激活塊設(shè)備驅(qū)動(dòng)從磁盤中讀取映射的文件內(nèi)容，然后將讀取到的內(nèi)容填充新分配的內(nèi)存頁(yè)中。并同步預(yù)讀若干相鄰的文件頁(yè)到 page cache 中。

static const struct address_space_operations ext4_aops = {
    .readpage       = ext4_readpage
}

vm_fault_t filemap_fault(struct vm_fault *vmf)
{
    int error;
    // 獲取映射文件
    struct file *file = vmf->vma->vm_file;
    // 獲取 page cache
    struct address_space *mapping = file->f_mapping;    
    // 獲取映射文件的 inode
    struct inode *inode = mapping->host;
    // 獲取映射文件內(nèi)容在文件中的偏移
    pgoff_t offset = vmf->pgoff;
    // 從 page cache 讀取到的文件頁(yè)，存放在 vmf->page 中返回
    struct page *page;
    vm_fault_t ret = 0;

    // 根據(jù)文件偏移 offset，到 page cache 中查找對(duì)應(yīng)的文件頁(yè)
    page = find_get_page(mapping, offset);
    if (likely(page) && !(vmf->flags & FAULT_FLAG_TRIED)) {
        // 如果文件頁(yè)在 page cache 中，則啟動(dòng)異步預(yù)讀，預(yù)讀后面的若干文件頁(yè)到 page cache 中
        fpin = do_async_mmap_readahead(vmf, page);
    } else if (!page) {
        // 如果文件頁(yè)不在 page cache，那么就需要啟動(dòng) io 從文件中讀取內(nèi)容到 page cahe
        // 由于涉及到了磁盤 io ，所以本次缺頁(yè)類型為 VM_FAULT_MAJOR
        count_vm_event(PGMAJFAULT);
        count_memcg_event_mm(vmf->vma->vm_mm, PGMAJFAULT);
        ret = VM_FAULT_MAJOR;
        // 啟動(dòng)同步預(yù)讀，將所需的文件數(shù)據(jù)讀取進(jìn) page cache 中并同步預(yù)讀若干相鄰的文件數(shù)據(jù)到 page cache 
        fpin = do_sync_mmap_readahead(vmf);
retry_find:
        // 嘗試到 page cache 中重新讀取文件頁(yè)，這一次就可以讀到了
        page = pagecache_get_page(mapping, offset,
                      FGP_CREAT|FGP_FOR_MMAP,
                      vmf->gfp_mask);
        }
    }

    ..... 省略 ......
}
EXPORT_SYMBOL(filemap_fault);

文件頁(yè)現(xiàn)在有了，接下來(lái)內(nèi)核就會(huì)調(diào)用 finish_fault 將文件頁(yè)映射到 pte 中。

vm_fault_t finish_fault(struct vm_fault *vmf)
{
    // 為本次缺頁(yè)準(zhǔn)備好的物理內(nèi)存頁(yè)，即后續(xù)需要用 pte 映射的內(nèi)存頁(yè)
    struct page *page;
    vm_fault_t ret = 0;

    if ((vmf->flags & FAULT_FLAG_WRITE) &&
        !(vmf->vma->vm_flags & VM_SHARED))
        // 如果是寫時(shí)復(fù)制場(chǎng)景，那么 pte 要映射的是這個(gè) cow 復(fù)制過(guò)來(lái)的內(nèi)存頁(yè)
        page = vmf->cow_page;
    else
        // 在 filemap_fault 函數(shù)中讀取到的文件頁(yè)，后面需要將文件頁(yè)映射到 pte 中
        page = vmf->page;

    // 對(duì)于私有映射來(lái)說(shuō)，這里需要檢查進(jìn)程地址空間是否被標(biāo)記了 MMF_UNSTABLE
    // 如果是，那么 oom 后續(xù)會(huì)回收這塊地址空間，這會(huì)導(dǎo)致私有映射的文件頁(yè)丟失
    // 所以在為私有映射建立 pte 映射之前，需要檢查一下
    if (!(vmf->vma->vm_flags & VM_SHARED))
        // 地址空間沒(méi)有被標(biāo)記 MMF_UNSTABLE 則會(huì)返回 o
        ret = check_stable_address_space(vmf->vma->vm_mm);
    if (!ret)
        // 將創(chuàng)建出來(lái)的物理內(nèi)存頁(yè)映射到 address 對(duì)應(yīng)在頁(yè)表中的 pte 中
        ret = alloc_set_pte(vmf, vmf->memcg, page);
    if (vmf->pte)
        // 釋放頁(yè)表鎖
        pte_unmap_unlock(vmf->pte, vmf->ptl);
    return ret;
}

alloc_set_pte 將之前我們準(zhǔn)備好的文件頁(yè)，映射到缺頁(yè)地址 address 在進(jìn)程頁(yè)表對(duì)應(yīng)的 pte 中。

vm_fault_t alloc_set_pte(struct vm_fault *vmf, struct mem_cgroup *memcg,
        struct page *page)
{
    struct vm_area_struct *vma = vmf->vma;
    // 判斷本次缺頁(yè)是否是 寫時(shí)復(fù)制
    bool write = vmf->flags & FAULT_FLAG_WRITE;
    pte_t entry;
    vm_fault_t ret;
    // 如果頁(yè)表還不存在，需要先創(chuàng)建一個(gè)頁(yè)表出來(lái)
    if (!vmf->pte) {
        // 如果 pmd 為空，則創(chuàng)建一個(gè)頁(yè)表出來(lái)，并填充 pmd
        // 如果頁(yè)表存在，則獲取 address 在頁(yè)表中對(duì)應(yīng)的 pte 保存在 vmf->pte 中
        ret = pte_alloc_one_map(vmf);
        if (ret)
            return ret;
    }
    // 根據(jù)之前分配出來(lái)的內(nèi)存頁(yè) pfn 以及相關(guān)頁(yè)屬性 vma->vm_page_prot 構(gòu)造一個(gè) pte 出來(lái)
    // 對(duì)于私有文件映射來(lái)說(shuō)，這里的 pte 是只讀的
    entry = mk_pte(page, vma->vm_page_prot);
    // 如果是寫時(shí)復(fù)制，這里才會(huì)將 pte 改為可寫的
    if (write) 
        entry = maybe_mkwrite(pte_mkdirty(entry), vma);
    // 將構(gòu)造出來(lái)的 pte （entry）賦值給 address 在頁(yè)表中真正對(duì)應(yīng)的 vmf->pte
    // 現(xiàn)在進(jìn)程頁(yè)表體系就全部被構(gòu)建出來(lái)了，文件頁(yè)缺頁(yè)處理到此結(jié)束
    set_pte_at(vma->vm_mm, vmf->address, vmf->pte, entry);
    // 刷新 mmu
    update_mmu_cache(vma, vmf->address, vmf->pte);

    return 0;
}

8.2 do_cow_fault 處理私有文件映射的寫時(shí)復(fù)制

上小節(jié) do_read_fault 函數(shù)處理的場(chǎng)景是，進(jìn)程在調(diào)用 mmap 對(duì)文件進(jìn)行私有映射或者共享映射之后，立馬進(jìn)行讀取的缺頁(yè)場(chǎng)景。

但是如果當(dāng)我們采用的是 mmap 進(jìn)行私有文件映射時(shí)，在映射之后，立馬進(jìn)行寫入操作時(shí)，就會(huì)發(fā)生寫時(shí)復(fù)制，寫時(shí)復(fù)制的缺頁(yè)處理流程內(nèi)核封裝在 do_cow_fault 函數(shù)中。

由于我們這里要進(jìn)行寫時(shí)復(fù)制，所以首先要調(diào)用 alloc_page_vma 從伙伴系統(tǒng)中重新申請(qǐng)一個(gè)物理內(nèi)存頁(yè)出來(lái)，我們先把這個(gè)剛剛新申請(qǐng)出來(lái)用于寫時(shí)復(fù)制的內(nèi)存頁(yè)稱為 cow_page

然后調(diào)用上小節(jié)中介紹的 __do_fault 函數(shù)，將原來(lái)的文件頁(yè)從 page cache 中讀取出來(lái)，我們把原來(lái)的文件頁(yè)稱為 page 。

最后調(diào)用 copy_user_highpage 將原來(lái)文件頁(yè) page 中的內(nèi)容拷貝到剛剛新申請(qǐng)的內(nèi)存頁(yè) cow_page 中，完成寫時(shí)復(fù)制之后，接著調(diào)用 finish_fault 將 cow_page 映射到缺頁(yè)地址 address 在進(jìn)程頁(yè)表中的 pte 上。

這樣一來(lái)，進(jìn)程的這段虛擬文件映射區(qū)就映射到了專屬的物理內(nèi)存頁(yè) cow_page 上，而且內(nèi)容和原來(lái)文件頁(yè) page 中的內(nèi)容一模一樣，進(jìn)程對(duì)各自虛擬內(nèi)存區(qū)的修改只能反應(yīng)到各自對(duì)應(yīng)的 cow_page上，而且各自的修改在進(jìn)程之間是互不可見(jiàn)的。

由于 cow_page 已經(jīng)脫離了 page cache，所以這些修改也都不會(huì)回寫到磁盤文件中，這就是私有文件映射的核心特點(diǎn)。

static vm_fault_t do_cow_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    vm_fault_t ret;
    // 從伙伴系統(tǒng)重新申請(qǐng)一個(gè)用于寫時(shí)復(fù)制的物理內(nèi)存頁(yè) cow_page
    vmf->cow_page = alloc_page_vma(GFP_HIGHUSER_MOVABLE, vma, vmf->address);
    // 從  page cache 讀取原來(lái)的文件頁(yè)
    ret = __do_fault(vmf);
    // 將原來(lái)文件頁(yè)中的內(nèi)容拷貝到 cow_page 中完成寫時(shí)復(fù)制
    copy_user_highpage(vmf->cow_page, vmf->page, vmf->address, vma);
    // 將 cow_page 重新映射到缺頁(yè)地址 address 對(duì)應(yīng)在頁(yè)表中的 pte 上。
    ret |= finish_fault(vmf);
    unlock_page(vmf->page);
    // 原來(lái)的文件頁(yè)引用計(jì)數(shù) - 1
    put_page(vmf->page);
    return ret;
}

8.3 do_shared_fault 處理對(duì)共享文件映射區(qū)寫入引起的缺頁(yè)

上小節(jié)我們介紹的 do_cow_fault 函數(shù)處理的場(chǎng)景是，當(dāng)我們采用 mmap 進(jìn)行私有文件映射之后，立即對(duì)虛擬映射區(qū)進(jìn)行寫入操作之后的缺頁(yè)處理邏輯。

如果我們調(diào)用 mmap 對(duì)文件進(jìn)行共享文件映射之后，然后立即對(duì)虛擬映射區(qū)進(jìn)行寫入操作，這背后的缺頁(yè)處理邏輯又是怎樣的呢？

其實(shí)和之前的文件缺頁(yè)處理邏輯的核心流程都差不多，不同的是由于這里我們進(jìn)行的共享文件映射，所以多個(gè)進(jìn)程中的虛擬文件映射區(qū)都會(huì)映射到 page cache 中的文件頁(yè)上，由于沒(méi)有寫時(shí)復(fù)制，所以進(jìn)程對(duì)文件頁(yè)的修改都會(huì)直接反映到 page cache 中，近而后續(xù)會(huì)回寫到磁盤文件上。

由于共享文件映射涉及到臟頁(yè)回寫，所以在共享文件映射的缺頁(yè)處理場(chǎng)景中，為了防止數(shù)據(jù)的丟失會(huì)額外有一些文件系統(tǒng)日志的記錄工作。

static vm_fault_t do_shared_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    vm_fault_t ret, tmp;
    // 從 page cache 中讀取文件頁(yè)
    ret = __do_fault(vmf);
   
    if (vma->vm_ops->page_mkwrite) {
        unlock_page(vmf->page);
        // 將文件頁(yè)變?yōu)榭蓪憼顟B(tài)，并為后續(xù)記錄文件日志做一些準(zhǔn)備工作
        tmp = do_page_mkwrite(vmf);
    }

    // 將文件頁(yè)映射到缺頁(yè) address 在頁(yè)表中對(duì)應(yīng)的 pte 上
    ret |= finish_fault(vmf);

    // 將 page 標(biāo)記為臟頁(yè)，記錄相關(guān)文件系統(tǒng)的日志，防止數(shù)據(jù)丟失
    // 判斷是否將臟頁(yè)回寫
    fault_dirty_shared_page(vma, vmf->page);
    return ret;
}

9. do_wp_page 進(jìn)行寫時(shí)復(fù)制

本小節(jié)即將要介紹的 do_wp_page 函數(shù)和之前介紹的 do_cow_fault 函數(shù)都是用于處理寫時(shí)復(fù)制的，其最為核心的邏輯都是差不多的，只是在觸發(fā)場(chǎng)景上會(huì)略有不同。

do_cow_fault 函數(shù)主要處理的寫時(shí)復(fù)制場(chǎng)景是，當(dāng)我們使用 mmap 進(jìn)行私有文件映射時(shí)，在剛映射完之后，此時(shí)進(jìn)程的頁(yè)表或者相關(guān)頁(yè)表項(xiàng) pte 還是空的，就立即進(jìn)行寫入操作。

do_wp_page 函數(shù)主要處理的寫時(shí)復(fù)制場(chǎng)景是，訪問(wèn)的這塊虛擬內(nèi)存背后是有物理內(nèi)存頁(yè)映射的，對(duì)應(yīng)的 pte 不為空，只不過(guò)相關(guān) pte 的權(quán)限是只讀的，而虛擬內(nèi)存區(qū)域 vma 是有寫權(quán)限的，在這種類型的虛擬內(nèi)存進(jìn)行寫入操作的時(shí)候，觸發(fā)的寫時(shí)復(fù)制就在 do_wp_page 函數(shù)中處理。

比如，我們使用 mmap 進(jìn)行私有文件映射之后，此時(shí)只是分配了虛擬內(nèi)存，進(jìn)程頁(yè)表或者相關(guān) pte 還是空的，這時(shí)對(duì)這塊映射的虛擬內(nèi)存進(jìn)行訪問(wèn)的時(shí)候就會(huì)觸發(fā)缺頁(yè)中斷，最后在之前介紹的 do_read_fault 函數(shù)中將映射的文件內(nèi)容加載到 page cache 中，pte 指向 page cache 中的文件頁(yè)。

但此時(shí)的 pte 是只讀的，如果我們對(duì)這塊映射的虛擬內(nèi)存進(jìn)行寫入操作，就會(huì)發(fā)生寫時(shí)復(fù)制，由于現(xiàn)在 pte 不為空，背后也映射著文件頁(yè)，所以會(huì)在 do_wp_page 函數(shù)中進(jìn)行處理。

除了私有映射的文件頁(yè)之外，do_wp_page 還會(huì)對(duì)匿名頁(yè)相關(guān)的寫時(shí)復(fù)制進(jìn)行處理。

比如，我們通過(guò) fork 系統(tǒng)調(diào)用創(chuàng)建子進(jìn)程的時(shí)候，內(nèi)核會(huì)拷貝父進(jìn)程占用的所有資源到子進(jìn)程中，其中也包括了父進(jìn)程的地址空間以及父進(jìn)程的頁(yè)表。

一個(gè)進(jìn)程中申請(qǐng)的物理內(nèi)存頁(yè)既會(huì)有文件頁(yè)也會(huì)有匿名頁(yè)，而這些文件頁(yè)和匿名頁(yè)既可以是私有的也可以是共享的，當(dāng)內(nèi)核在拷貝父進(jìn)程的頁(yè)表時(shí)，如果遇到私有的匿名頁(yè)或者文件頁(yè)，就會(huì)將其對(duì)應(yīng)在父子進(jìn)程頁(yè)表中的 pte 設(shè)置為只讀，進(jìn)行寫保護(hù)。并將父子進(jìn)程共同引用的匿名頁(yè)或者文件頁(yè)的引用計(jì)數(shù)加 1。

static inline unsigned long
copy_one_pte(struct mm_struct *dst_mm, struct mm_struct *src_mm,
        pte_t *dst_pte, pte_t *src_pte, struct vm_area_struct *vma,
        unsigned long addr, int *rss)
{
    /*
     * If it's a COW mapping, write protect it both
     * in the parent and the child
     */
    if (is_cow_mapping(vm_flags) && pte_write(pte)) {
        // 設(shè)置父進(jìn)程的 pte 為只讀
        ptep_set_wrprotect(src_mm, addr, src_pte);
        // 設(shè)置子進(jìn)程的 pte 為只讀
        pte = pte_wrprotect(pte);
    }
    // 獲取 pte 中映射的物理內(nèi)存頁(yè)（此時(shí)父子進(jìn)程共享該頁(yè)）
    page = vm_normal_page(vma, addr, pte);
    // 物理內(nèi)存頁(yè)的引用技術(shù) + 1
    get_page(page);
}

static inline bool is_cow_mapping(vm_flags_t flags)
{
        // vma 是私有可寫的
	return (flags & (VM_SHARED | VM_MAYWRITE)) == VM_MAYWRITE;
}

現(xiàn)在父子進(jìn)程擁有了一模一樣的地址空間，頁(yè)表是一樣的，頁(yè)表中的 pte 均指向同一個(gè)物理內(nèi)存頁(yè)面，對(duì)于私有的物理內(nèi)存頁(yè)來(lái)說(shuō)，父子進(jìn)程的相關(guān) pte 此時(shí)均變?yōu)榱酥蛔x的，私有物理內(nèi)存頁(yè)的引用計(jì)數(shù)為 2 。而對(duì)于共享的物理內(nèi)存頁(yè)來(lái)說(shuō)，內(nèi)核就只是簡(jiǎn)單的將父進(jìn)程的 pte 拷貝到子進(jìn)程頁(yè)表中即可，然后將子進(jìn)程 pte 中的臟頁(yè)標(biāo)記清除，其他的不做改變。

當(dāng)父進(jìn)程或者子進(jìn)程對(duì)該頁(yè)面發(fā)生寫操作的時(shí)候，我們現(xiàn)在假設(shè)子進(jìn)程先對(duì)頁(yè)面發(fā)生寫操作，隨后子進(jìn)程發(fā)現(xiàn)自己頁(yè)表中的 pte 是只讀的，于是就會(huì)產(chǎn)生寫保護(hù)類型的缺頁(yè)中斷，由于子進(jìn)程頁(yè)表中的 pte 不為空，所以會(huì)進(jìn)入到 do_wp_page 函數(shù)中處理。

由于現(xiàn)在子進(jìn)程和父子進(jìn)程頁(yè)表中的相關(guān) pte 指向的均是同一個(gè)物理內(nèi)存頁(yè)，內(nèi)核在 do_wp_page 函數(shù)中會(huì)發(fā)現(xiàn)這個(gè)物理內(nèi)存頁(yè)的引用計(jì)數(shù)大于 1，存在多進(jìn)程共享的情況，所以就會(huì)觸發(fā)寫時(shí)復(fù)制，這一過(guò)程在 wp_page_copy 函數(shù)中處理。

在 wp_page_copy 函數(shù)中，內(nèi)核會(huì)首先為子進(jìn)程分配一個(gè)新的物理內(nèi)存頁(yè) new_page，然后調(diào)用 cow_user_page 將原有內(nèi)存頁(yè) old_page 中的內(nèi)容全部拷貝到新內(nèi)存頁(yè)中。

創(chuàng)建一個(gè)臨時(shí)的頁(yè)表項(xiàng) entry，然后讓 entry 指向新的內(nèi)存頁(yè)，將 entry 重新設(shè)置為可寫，通過(guò) set_pte_at_notify 將 entry 值設(shè)置到子進(jìn)程頁(yè)表中的 pte 上。最后將原有內(nèi)存頁(yè) old_page 的引用計(jì)數(shù)減 1 。

static vm_fault_t wp_page_copy(struct vm_fault *vmf)
{
    // 缺頁(yè)地址 address 所在 vma
    struct vm_area_struct *vma = vmf->vma;
    // 當(dāng)前進(jìn)程地址空間
    struct mm_struct *mm = vma->vm_mm;
    // 原來(lái)映射的物理內(nèi)存頁(yè)，pte 為只讀
    struct page *old_page = vmf->page;
    // 用于寫時(shí)復(fù)制的新內(nèi)存頁(yè)
    struct page *new_page = NULL;
    // 寫時(shí)復(fù)制之后，需要修改原來(lái)的 pte，這里是臨時(shí)構(gòu)造的一個(gè) pte 值
    pte_t entry;
    // 是否發(fā)生寫時(shí)復(fù)制
    int page_copied = 0;

    // 如果 pte 原來(lái)映射的是一個(gè)零頁(yè)
    if (is_zero_pfn(pte_pfn(vmf->orig_pte))) {
        // 新申請(qǐng)一個(gè)零頁(yè)出來(lái)，內(nèi)存頁(yè)中的內(nèi)容被零初始化
        new_page = alloc_zeroed_user_highpage_movable(vma,
                                  vmf->address);
        if (!new_page)
            goto oom;
    } else {
        // 新申請(qǐng)一個(gè)物理內(nèi)存頁(yè)
        new_page = alloc_page_vma(GFP_HIGHUSER_MOVABLE, vma,
                vmf->address);
        if (!new_page)
            goto oom;
        // 將原來(lái)內(nèi)存頁(yè) old page 中的內(nèi)容拷貝到新內(nèi)存頁(yè) new page 中
        cow_user_page(new_page, old_page, vmf->address, vma);
    }

    // 給頁(yè)表加鎖，并重新獲取 address 在頁(yè)表中對(duì)應(yīng)的 pte
    vmf->pte = pte_offset_map_lock(mm, vmf->pmd, vmf->address, &vmf->ptl);
    // 判斷加鎖前的 pte （orig_pte）與加鎖后的 pte （vmf->pte）是否相同
    // 目的是判斷此時(shí)是否有其他線程正在并發(fā)修改 pte
    if (likely(pte_same(*vmf->pte, vmf->orig_pte))) {
        if (old_page) {
            // 更新進(jìn)程常駐內(nèi)存信息 rss_state
            if (!PageAnon(old_page)) {
                // 減少 MM_FILEPAGES 計(jì)數(shù)
                dec_mm_counter_fast(mm,
                        mm_counter_file(old_page));
                // 由于發(fā)生寫時(shí)復(fù)制，這里匿名頁(yè)個(gè)數(shù)加 1 
                inc_mm_counter_fast(mm, MM_ANONPAGES);
            }
        } else {
            inc_mm_counter_fast(mm, MM_ANONPAGES);
        }
        // 將舊的 tlb 緩存刷出
        flush_cache_page(vma, vmf->address, pte_pfn(vmf->orig_pte));
        // 創(chuàng)建一個(gè)臨時(shí)的 pte 映射到新內(nèi)存頁(yè) new page 上
        entry = mk_pte(new_page, vma->vm_page_prot);
        // 設(shè)置 entry 為可寫的，正是這里, pte 的權(quán)限由只讀變?yōu)榱丝蓪?        entry = maybe_mkwrite(pte_mkdirty(entry), vma);
        // 為新的內(nèi)存頁(yè)建立反向映射關(guān)系
        page_add_new_anon_rmap(new_page, vma, vmf->address, false);
        // 將新的內(nèi)存頁(yè)加入到 LRU active 鏈表中
        lru_cache_add_active_or_unevictable(new_page, vma);
        // 將 entry 值重新設(shè)置到子進(jìn)程頁(yè)表 pte 中
        set_pte_at_notify(mm, vmf->address, vmf->pte, entry);
        // 更新 mmu
        update_mmu_cache(vma, vmf->address, vmf->pte);
        if (old_page) {
            // 將原來(lái)的內(nèi)存頁(yè)從當(dāng)前進(jìn)程的反向映射關(guān)系中解除
            page_remove_rmap(old_page, false);
        }

        /* Free the old page.. */
        new_page = old_page;
        page_copied = 1;
    } else {
        mem_cgroup_cancel_charge(new_page, memcg, false);
    }
    // 釋放頁(yè)表鎖
    pte_unmap_unlock(vmf->pte, vmf->ptl);

    if (old_page) {
        // 舊內(nèi)存頁(yè)的引用計(jì)數(shù)減 1
        put_page(old_page);
    }
    return page_copied ? VM_FAULT_WRITE : 0;
}

現(xiàn)在子進(jìn)程處理完了，下面我們?cè)賮?lái)看當(dāng)父進(jìn)程發(fā)生寫入操作的時(shí)候會(huì)發(fā)生什么？

首先和子進(jìn)程一樣，現(xiàn)在父進(jìn)程頁(yè)表中的相關(guān) pte 仍然是只讀的，訪問(wèn)這段虛擬內(nèi)存地址依然會(huì)產(chǎn)生寫保護(hù)類型的缺頁(yè)中斷，和子進(jìn)程不同的是，此時(shí)父進(jìn)程 pte 中指向的原有物理內(nèi)存頁(yè) old_page 的引用計(jì)數(shù)已經(jīng)變?yōu)?1 了，說(shuō)明父進(jìn)程是獨(dú)占的，復(fù)用原來(lái)的 old_page 即可，不必進(jìn)行寫時(shí)復(fù)制，只是簡(jiǎn)單的將父進(jìn)程頁(yè)表中的相關(guān) pte 改為可寫就行了。

static inline void wp_page_reuse(struct vm_fault *vmf)
    __releases(vmf->ptl)
{
    struct vm_area_struct *vma = vmf->vma;
    struct page *page = vmf->page;
    pte_t entry;
    // 先將 tlb cache 中緩存的 address 對(duì)應(yīng)的 pte 刷出緩存
    flush_cache_page(vma, vmf->address, pte_pfn(vmf->orig_pte));
    // 將原來(lái) pte 的 access 位置 1 ，表示該 pte 映射的物理內(nèi)存頁(yè)是活躍的
    entry = pte_mkyoung(vmf->orig_pte);
    // 將原來(lái)只讀的 pte 改為可寫的，并標(biāo)記為臟頁(yè)
    entry = maybe_mkwrite(pte_mkdirty(entry), vma);
    // 將更新后的 entry 值設(shè)置到頁(yè)表 pte 中
    if (ptep_set_access_flags(vma, vmf->address, vmf->pte, entry, 1))
        // 更新 mmu 
        update_mmu_cache(vma, vmf->address, vmf->pte);
    pte_unmap_unlock(vmf->pte, vmf->ptl);
}

理解了上面的核心內(nèi)容，我們?cè)賮?lái)看 do_wp_page 的處理邏輯就很清晰了：

static vm_fault_t do_wp_page(struct vm_fault *vmf)
    __releases(vmf->ptl)
{
    struct vm_area_struct *vma = vmf->vma;
    // 獲取 pte 映射的物理內(nèi)存頁(yè)
    vmf->page = vm_normal_page(vma, vmf->address, vmf->orig_pte);

         ...... 省略處理特殊映射相關(guān)邏輯 ....
    // 物理內(nèi)存頁(yè)為匿名頁(yè)的情況
    if (PageAnon(vmf->page)) {

         ...... 省略處理 ksm page 相關(guān)邏輯 ....
        // reuse_swap_page 判斷匿名頁(yè)的引用計(jì)數(shù)是否為 1
        if (reuse_swap_page(vmf->page, &total_map_swapcount)) {
            // 如果當(dāng)前物理內(nèi)存頁(yè)的引用計(jì)數(shù)為 1 ，并且只有當(dāng)前進(jìn)程在引用該物理內(nèi)存頁(yè)
            // 則不做寫時(shí)復(fù)制處理，而是復(fù)用當(dāng)前物理內(nèi)存頁(yè)，只是將 pte 改為可寫即可 
            wp_page_reuse(vmf);
            return VM_FAULT_WRITE;
        }
        unlock_page(vmf->page);
    } else if (unlikely((vma->vm_flags & (VM_WRITE|VM_SHARED)) ==
                    (VM_WRITE|VM_SHARED))) {
        // 處理共享可寫的內(nèi)存頁(yè)
        // 由于大家都可寫，所以這里也只是調(diào)用 wp_page_reuse 復(fù)用當(dāng)前內(nèi)存頁(yè)即可，不做寫時(shí)復(fù)制處理
        // 由于是共享的，對(duì)于文件頁(yè)來(lái)說(shuō)是可以回寫到磁盤上的，所以會(huì)額外調(diào)用一次 fault_dirty_shared_page 判斷是否進(jìn)行臟頁(yè)的回寫
        return wp_page_shared(vmf);
    }
copy:
    // 走到這里表示當(dāng)前物理內(nèi)存頁(yè)的引用計(jì)數(shù)大于 1 被多個(gè)進(jìn)程引用
    // 對(duì)于私有可寫的虛擬內(nèi)存區(qū)域來(lái)說(shuō)，就要發(fā)生寫時(shí)復(fù)制
    // 而對(duì)于私有文件頁(yè)的情況來(lái)說(shuō)，不必判斷內(nèi)存頁(yè)的引用計(jì)數(shù)
    // 因?yàn)槭撬接形募?yè)，不管文件頁(yè)的引用計(jì)數(shù)是不是 1 ，都要進(jìn)行寫時(shí)復(fù)制
    return wp_page_copy(vmf);
}

10. do_swap_page 處理 swap 缺頁(yè)異常

如果在遍歷進(jìn)程頁(yè)表的時(shí)候發(fā)現(xiàn)，虛擬內(nèi)存地址 address 對(duì)應(yīng)的頁(yè)表項(xiàng) pte 不為空，但是 pte 中第 0 個(gè)比特位置為 0 ，則表示該 pte 之前是被物理內(nèi)存映射過(guò)的，只不過(guò)后來(lái)被內(nèi)核 swap out 出去了。

我們需要的物理內(nèi)存頁(yè)不在內(nèi)存中反而在磁盤中，現(xiàn)在我們就需要將物理內(nèi)存頁(yè)從磁盤中 swap in 進(jìn)來(lái)。但在 swap in 之前內(nèi)核需要知道該物理內(nèi)存頁(yè)的內(nèi)容被保存在磁盤的什么位置上。

筆者在之前文章《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》?中的第 4.2.1 小節(jié)中詳細(xì)介紹了 64 位頁(yè)表項(xiàng) pte 的比特位布局，以及各個(gè)比特位的含義。

typedef unsigned long   pteval_t;
typedef struct { pteval_t pte; } pte_t;

64 位的 pte 主要用來(lái)表示物理內(nèi)存頁(yè)的地址以及相關(guān)的權(quán)限標(biāo)識(shí)位，但是當(dāng)物理內(nèi)存頁(yè)不在內(nèi)存中的時(shí)候，這些比特位就沒(méi)有了任何意義。我們何不將這些已經(jīng)沒(méi)有任何意義的比特位利用起來(lái)，在物理內(nèi)存頁(yè)被 swap out 到磁盤上的時(shí)候，將物理內(nèi)存頁(yè)在磁盤上的位置保存在這些比特位中。本質(zhì)上還利用的是之前 pte 中的那 64 個(gè)比特，為了區(qū)別 swap 的場(chǎng)景，內(nèi)核使用了一個(gè)新的結(jié)構(gòu)體 swp_entry_t 來(lái)包裝。

typedef struct {
	unsigned long val;
} swp_entry_t;

swap in 的首要任務(wù)就是先要從進(jìn)程頁(yè)表中將這個(gè) swp_entry_t 讀取出來(lái)，然后從 swp_entry_t 中解析出內(nèi)存頁(yè)在 swap 交換區(qū)中的位置，根據(jù)磁盤位置信息將內(nèi)存頁(yè)的內(nèi)容讀取到內(nèi)存中。由于產(chǎn)生了新的物理內(nèi)存頁(yè)，所以就要?jiǎng)?chuàng)建新的 pte 來(lái)映射這個(gè)物理內(nèi)存頁(yè)，然后將新的 pte 設(shè)置到頁(yè)表中，替換原來(lái)的 swp_entry_t。

這里筆者需要為大家解釋的第一個(gè)問(wèn)題就是 —— 這個(gè) swp_entry_t 究竟是長(zhǎng)什么樣子的，它是如何保存 swap 交換區(qū)相關(guān)位置信息的？

10.1 交換區(qū)的布局及其組織結(jié)構(gòu)

要明白這個(gè)，我們就需要先了解一下 swap 交換區(qū)（swap area）的布局，swap 交換區(qū)共有兩種類型，一種是 swap 分區(qū)（swap partition），另一種是 swap 文件（swap file）。

swap partition 可以認(rèn)為是一個(gè)沒(méi)有文件系統(tǒng)的裸磁盤分區(qū)，分區(qū)中的磁盤塊在磁盤中是連續(xù)分布的。

swap file 可以認(rèn)為是在某個(gè)現(xiàn)有的文件系統(tǒng)上，創(chuàng)建的一個(gè)定長(zhǎng)的普通文件，專門用于保存匿名頁(yè)被 swap 出來(lái)的內(nèi)容。背后的磁盤塊是不連續(xù)的。

Linux 系統(tǒng)中可以允許多個(gè)這樣的 swap 交換區(qū)存在，我們可以同時(shí)使用多個(gè)交換區(qū)，也可以為這些交換區(qū)指定優(yōu)先級(jí)，優(yōu)先級(jí)高的會(huì)被內(nèi)核優(yōu)先使用。這些交換區(qū)都可以被靈活地添加，刪除，而不需要重啟系統(tǒng)。多個(gè)交換區(qū)可以分散在不同的磁盤設(shè)備上，這樣可以實(shí)現(xiàn)硬件的并行訪問(wèn)。

在使用交換區(qū)之前，我們可以通過(guò) mkswap 首先創(chuàng)建一個(gè)交換區(qū)出來(lái)，如果我們創(chuàng)建的是 swap partition，則在 mkswap 命令后面直接指定分區(qū)的設(shè)備文件名稱即可。

mkswap /dev/sdb7

如果我們創(chuàng)建的是 swap file，則需要額外先使用 dd 命令在現(xiàn)有文件系統(tǒng)中創(chuàng)建出一個(gè)定長(zhǎng)的文件出來(lái)。比如下面通過(guò) dd 命令從 /dev/zero 中拷貝創(chuàng)建一個(gè) /swapfile 文件，大小為 4G。

dd if=/dev/zero of=/swapfile bs=1M count=4096

然后使用 mkswap 命令創(chuàng)建 swap file ：

mkswap /swapfile

當(dāng) swap partition 或者 swap file 創(chuàng)建好之后，我們通過(guò) swapon 命令來(lái)初始化并激活這個(gè)交換區(qū)。

swapon /swapfile

當(dāng)前系統(tǒng)中各個(gè)交換區(qū)的情況，我們可以通過(guò) cat /proc/swaps 或者 swapon -s 命令產(chǎn)看：

交換區(qū)在內(nèi)核中使用 struct swap_info_struct 結(jié)構(gòu)體來(lái)表示，系統(tǒng)中眾多的交換區(qū)被組織在一個(gè)叫做 swap_info 的數(shù)組中，數(shù)組中的最大長(zhǎng)度為 MAX_SWAPFILES，MAX_SWAPFILES 在內(nèi)核中是一個(gè)常量，一般指定為 32，也就是說(shuō)，系統(tǒng)中最大允許 32 個(gè)交換區(qū)存在。

struct swap_info_struct *swap_info[MAX_SWAPFILES];

由于交換區(qū)是有優(yōu)先級(jí)的，所以內(nèi)核又會(huì)按照優(yōu)先級(jí)高低，將交換區(qū)組織在一個(gè)叫做 swap_avail_heads 的雙向鏈表中。

static struct plist_head *swap_avail_heads;

swap_info_struct 結(jié)構(gòu)用于描述單個(gè)交換區(qū)中的各種信息：

/*
 * The in-memory structure used to track swap areas.
 */
struct swap_info_struct {
    // 用于表示該交換區(qū)的狀態(tài)，比如 SWP_USED 表示正在使用狀態(tài)，SWP_WRITEOK 表示交換區(qū)是可寫的狀態(tài)
    unsigned long   flags;      /* SWP_USED etc: see above */
    // 交換區(qū)的優(yōu)先級(jí)
    signed short    prio;       /* swap priority of this type */
    // 指向該交換區(qū)在 swap_avail_heads 鏈表中的位置
    struct plist_node list;     /* entry in swap_active_head */
    // 該交換區(qū)在 swap_info 數(shù)組中的索引
    signed char type;       /* strange name for an index */
    // 該交換區(qū)可以容納 swap 的匿名頁(yè)總數(shù)
    unsigned int pages;     /* total of usable pages of swap */
    // 已經(jīng) swap 到該交換區(qū)的匿名頁(yè)總數(shù)
    unsigned int inuse_pages;   /* number of those currently in use */
    // 如果該交換區(qū)是 swap partition 則指向該磁盤分區(qū)的塊設(shè)備結(jié)構(gòu) block_device
    // 如果該交換區(qū)是 swap file 則指向文件底層依賴的塊設(shè)備結(jié)構(gòu) block_device
    struct block_device *bdev;  /* swap device or bdev of swap file */
    // 指向 swap file 的 file 結(jié)構(gòu)
    struct file *swap_file;     /* seldom referenced */
};

而在每個(gè)交換區(qū) swap area 內(nèi)部又會(huì)分為很多連續(xù)的 slot (槽)，每個(gè) slot 的大小剛好和一個(gè)物理內(nèi)存頁(yè)的大小相同都是 4K，物理內(nèi)存頁(yè)在被 swap out 到交換區(qū)時(shí)，就會(huì)存放在 slot 中。

交換區(qū)中的這些 slot 會(huì)被組織在一個(gè)叫做 swap_map 的數(shù)組中，數(shù)組中的索引就是 slot 在交換區(qū)中的 offset （這個(gè)位置信息很重要），數(shù)組中的值表示該 slot 總共被多少個(gè)進(jìn)程同時(shí)引用。

什么意思呢？比如現(xiàn)在系統(tǒng)中一共有三個(gè)進(jìn)程同時(shí)共享一個(gè)物理內(nèi)存頁(yè)（內(nèi)存中的概念），當(dāng)這個(gè)物理內(nèi)存頁(yè)被 swap out 到交換區(qū)上時(shí)，就變成了 slot （內(nèi)存頁(yè)在交換區(qū)中的概念），現(xiàn)在物理內(nèi)存頁(yè)沒(méi)了，這三個(gè)共享進(jìn)程就只能在各自的頁(yè)表中指向這個(gè) slot，因此該 slot 的引用計(jì)數(shù)就是 3，對(duì)應(yīng)在數(shù)組 swap_map 中的值也是 3 。

交換區(qū)中的第一個(gè) slot 用于存儲(chǔ)交換區(qū)的元信息，比如交換區(qū)對(duì)應(yīng)底層各個(gè)磁盤塊的壞塊列表。因此筆者將其標(biāo)注了紅色，表示不能使用。

swap_map 數(shù)組中的值表示的就是對(duì)應(yīng) slot 被多少個(gè)進(jìn)程同時(shí)引用，值為 0 表示該 slot 是空閑的，下次 swap out 的時(shí)候首先查找的就是空閑 slot 。查找范圍就是 lowest_bit 到 highest_bit 之間的 slot。當(dāng)查找到空閑 slot 之后，就會(huì)將整個(gè)物理內(nèi)存頁(yè)回寫到這個(gè) slot 中。

struct swap_info_struct {
	unsigned char *swap_map;	/* vmalloc'ed array of usage counts */
	unsigned int lowest_bit;	/* index of first free in swap_map */
	unsigned int highest_bit;	/* index of last free in swap_map */

但是這里會(huì)有一個(gè)問(wèn)題就是交換區(qū)面向的是整個(gè)系統(tǒng)，而系統(tǒng)中會(huì)有很多進(jìn)程，如果多個(gè)進(jìn)程并發(fā)進(jìn)行 swap 的時(shí)候，swap_map 數(shù)組就會(huì)面臨并發(fā)操作的問(wèn)題，這樣一來(lái)就不得不需要一個(gè)全局鎖來(lái)保護(hù)，但是這也導(dǎo)致了多個(gè) CPU 只能串行訪問(wèn)，大大降低了并發(fā)度。

那怎么辦呢？想想 JDK 中的 ConcurrentHashMap，將鎖分段唄，這樣可以將鎖競(jìng)爭(zhēng)分散開來(lái)，大大提升并發(fā)度。

內(nèi)核會(huì)將 swap_map 數(shù)組中的這些 slot，按照常量 SWAPFILE_CLUSTER 指定的個(gè)數(shù)，256 個(gè) slot 分為一個(gè) cluster。

#define SWAPFILE_CLUSTER	256

每個(gè) cluster 中包含一把 spinlock_t 鎖，如果 cluster 是空閑的，那么 swap_cluster_info 結(jié)構(gòu)中的 data 指向下一個(gè)空閑的 cluster，如果 cluster 不是空閑的，那么 data 保存的是該 cluster 中已經(jīng)分配的 slot 個(gè)數(shù)。

struct swap_cluster_info {
    spinlock_t lock;    /*
                 * Protect swap_cluster_info fields
                 * and swap_info_struct->swap_map
                 * elements correspond to the swap
                 * cluster
                 */
    unsigned int data:24;
    unsigned int flags:8;
};
#define CLUSTER_FLAG_FREE 1 /* This cluster is free */
#define CLUSTER_FLAG_NEXT_NULL 2 /* This cluster has no next cluster */
#define CLUSTER_FLAG_HUGE 4 /* This cluster is backing a transparent huge page */

這樣一來(lái) swap_map 數(shù)組中的這些獨(dú)立的 slot，就被按照以 cluster 為單位重新組織了起來(lái)，這些 cluster 被串聯(lián)在 cluster_info 鏈表中。

為了進(jìn)一步利用 cpu cache，以及實(shí)現(xiàn)無(wú)鎖化查找 slot，內(nèi)核會(huì)給每個(gè) cpu 分配一個(gè) cluster —— percpu_cluster，cpu 直接從自己的 cluster 中查找空閑 slot，近一步提高了 swap out 的吞吐。

當(dāng) cpu 自己的 percpu_cluster 用盡之后，內(nèi)核則會(huì)調(diào)用 swap_alloc_cluster 函數(shù)從 free_clusters 中獲取一個(gè)新的 cluster。

struct swap_info_struct {
    struct swap_cluster_info *cluster_info; /* cluster info. Only for SSD */
    struct swap_cluster_list free_clusters; /* free clusters list */

    struct percpu_cluster __percpu *percpu_cluster; /* per cpu's swap location */
}

現(xiàn)在交換區(qū)的整體布局筆者就為大家介紹完了，可能大家這里有一點(diǎn)還是會(huì)比較困惑 —— 你說(shuō)來(lái)說(shuō)去，這個(gè) slot 到底是個(gè)啥？

哈哈，大家先別急，我們現(xiàn)在已經(jīng)對(duì)進(jìn)程的虛擬內(nèi)存空間非常熟悉了，這里我們把交換區(qū) swap_info_struct 與進(jìn)程的內(nèi)存空間 mm_struct 放到一起一對(duì)比就很清楚了。

首先進(jìn)程虛擬內(nèi)存空間中的虛擬內(nèi)存別管說(shuō)的如何天花亂墜，說(shuō)到底還是要保存在真實(shí)的物理內(nèi)存中的，虛擬內(nèi)存與物理內(nèi)存通過(guò)頁(yè)表來(lái)關(guān)聯(lián)起來(lái)。

同樣的道理，別管交換區(qū)布局的如何天花亂墜，swap out 出來(lái)的數(shù)據(jù)說(shuō)到底還是要保存在真實(shí)的磁盤中的，而交換區(qū)中是按照 slot 為單位進(jìn)行組織管理的，磁盤中是按照磁盤塊來(lái)組織管理的，大小都是 4K 。

交換區(qū)中的 slot 就好比于虛擬內(nèi)存空間中的虛擬內(nèi)存，都是虛擬的概念，物理內(nèi)存頁(yè)與磁盤塊才是真實(shí)本質(zhì)的東西。

虛擬內(nèi)存是連續(xù)的，但其背后映射的物理內(nèi)存可能是不連續(xù)，交換區(qū)中的 slot 也都是連續(xù)的，但磁盤中磁盤塊的扇區(qū)地址卻不一定是連續(xù)的。頁(yè)表可以將不連續(xù)的物理內(nèi)存映射到連續(xù)的虛擬內(nèi)存上，內(nèi)核也需要一種機(jī)制，將不連續(xù)的磁盤塊映射到連續(xù)的 slot 中。

當(dāng)我們使用 swapon 命令來(lái)初始化激活交換區(qū)時(shí)，內(nèi)核會(huì)掃描交換區(qū)中各個(gè)磁盤塊的扇區(qū)地址，以確定磁盤塊與扇區(qū)的對(duì)應(yīng)關(guān)系，然后搜集扇區(qū)地址連續(xù)的磁盤塊，將這些連續(xù)的磁盤塊組成一個(gè)塊組，slot 就會(huì)一個(gè)一個(gè)的映射到這些塊組上，塊組之間的扇區(qū)地址是不連續(xù)的，但是 slot 是連續(xù)的。

slot 與連續(xù)的磁盤塊組的映射關(guān)系保存在 swap_extent 結(jié)構(gòu)中：

/*
 * A swap extent maps a range of a swapfile's PAGE_SIZE pages onto a range of
 * disk blocks.  A list of swap extents maps the entire swapfile.  (Where the
 * term `swapfile' refers to either a blockdevice or an IS_REG file.  Apart
 * from setup, they're handled identically.
 *
 * We always assume that blocks are of size PAGE_SIZE.
 */
struct swap_extent {
    // 紅黑樹節(jié)點(diǎn)
    struct rb_node rb_node;
    // 塊組內(nèi)，第一個(gè)映射的 slot 編號(hào)
    pgoff_t start_page;
    // 映射的 slot 個(gè)數(shù)
    pgoff_t nr_pages;
    // 塊組內(nèi)第一個(gè)磁盤塊
    sector_t start_block;
};

由于一個(gè)塊組內(nèi)的磁盤塊都是連續(xù)的，slot 本來(lái)又是連續(xù)的，所以 swap_extent 結(jié)構(gòu)中只需要保存映射到該塊組內(nèi)第一個(gè) slot 的編號(hào) （start_page），塊組內(nèi)第一個(gè)磁盤塊在磁盤上的塊號(hào)，以及磁盤塊個(gè)數(shù)就可以了。

虛擬內(nèi)存頁(yè)類比 slot，物理內(nèi)存頁(yè)類比磁盤塊，這里的 swap_extent 可以看做是虛擬內(nèi)存區(qū)域 vma，進(jìn)程的虛擬內(nèi)存空間正是由一段一段的 vma 組成，這些 vma 被組織在一顆紅黑樹上。

交換區(qū)也是一樣，它是由一段一段的 swap_extent 組成，同樣也會(huì)被組織在一顆紅黑樹上。我們可以通過(guò) slot 在交換區(qū)中的 offset，在這顆紅黑樹中快速查找出 slot 背后對(duì)應(yīng)的磁盤塊。

struct swap_info_struct {
	struct rb_root swap_extent_root;/* root of the swap extent rbtree */

現(xiàn)在交換區(qū)內(nèi)部的樣子，我們已經(jīng)非常清楚了，有了這些背景知識(shí)之后，我們?cè)诨剡^(guò)頭來(lái)看本小節(jié)最開始提出的問(wèn)題 —— swp_entry_t 到底長(zhǎng)什么樣子。

10.2 一睹 swp_entry_t 真容

匿名內(nèi)存頁(yè)在被內(nèi)核 swap out 到磁盤上之后，內(nèi)存頁(yè)中的內(nèi)容保存在交換區(qū)的 slot 中，在 swap in 的場(chǎng)景中，內(nèi)核需要根據(jù) swp_entry_t 里的信息找到這個(gè) slot，進(jìn)而找到其對(duì)應(yīng)的磁盤塊，然后從磁盤塊中讀取出被 swap out 出去的內(nèi)容。

這個(gè)就和交換區(qū)的布局有很大的關(guān)系，首先系統(tǒng)中存在多個(gè)交換區(qū)，這些交換區(qū)被內(nèi)核組織在 swap_info 數(shù)組中。

struct swap_info_struct *swap_info[MAX_SWAPFILES];

我們首先需要知道匿名內(nèi)存頁(yè)到底被 swap out 到哪個(gè)交換區(qū)里了，所以 swp_entry_t 里必須包含交換區(qū)在 swap_info 數(shù)組中的索引，而這個(gè)索引正是 swap_info_struct 結(jié)構(gòu)中的 type 字段。

struct swap_info_struct {
    // 該交換區(qū)在 swap_info 數(shù)組中的索引
    signed char type;  
}

在確定了交換區(qū)的位置后，我們需要知道匿名頁(yè)被 swap out 到交換區(qū)中的哪個(gè) slot 中，所以 swp_entry_t 中也必須包含 slot 在交換區(qū)中的 offset，這個(gè) offset 就是 swap_info_struct 結(jié)構(gòu)里 slot 所在 swap_map 數(shù)組中的下標(biāo)。

struct swap_info_struct {
    unsigned char *swap_map; 
}

所以總結(jié)下來(lái) swp_entry_t 中需要包含以下三種信息：

第一， swp_entry_t 需要標(biāo)識(shí)該頁(yè)表項(xiàng)是一個(gè) pte 還是 swp_entry_t，因?yàn)樗鼈z本質(zhì)上是一樣的，都是 unsigned long 類型的無(wú)符號(hào)整數(shù)，是可以相互轉(zhuǎn)換的。

#define __pte_to_swp_entry(pte)	((swp_entry_t) { pte_val(pte) })
#define __swp_entry_to_pte(swp)	((pte_t) { (swp).val })

第 0 個(gè)比特位置 1 表示是一個(gè) pte，背后映射的物理內(nèi)存頁(yè)存在于內(nèi)存中。如果第 0 個(gè)比特位置 0 則表示該 pte 背后映射的物理內(nèi)存頁(yè)已經(jīng)被 swap out 出去了，那么它就是一個(gè) swp_entry_t，指向內(nèi)存頁(yè)在交換區(qū)中的位置。

第二，swp_entry_t 需要包含被 swap 出去的匿名頁(yè)所在交換區(qū)的索引 type，第 2 個(gè)比特位到第 7 個(gè)比特位，總共使用 6 個(gè)比特來(lái)表示匿名頁(yè)所在交換區(qū)的索引。

第三，swp_entry_t 需要包含匿名頁(yè)所在 slot 的位置 offset，第 8 個(gè)比特位到第 57 個(gè)比特位，總共 50 個(gè)比特來(lái)表示匿名頁(yè)對(duì)應(yīng)的 slot 在交換區(qū)的 offset 。

/*
 * Encode and decode a swap entry:
 *	bits 0-1:	present (must be zero)
 *	bits 2-7:	swap type
 *	bits 8-57:	swap offset
 *	bit  58:	PTE_PROT_NONE (must be zero)
 */
#define __SWP_TYPE_SHIFT	2
#define __SWP_TYPE_BITS		6
#define __SWP_OFFSET_BITS	50
#define __SWP_OFFSET_SHIFT	(__SWP_TYPE_BITS + __SWP_TYPE_SHIFT)

內(nèi)核提供了宏 __swp_type 用于從 swp_entry_t 中將匿名頁(yè)所在交換區(qū)編號(hào)提取出來(lái)，還提供了宏 __swp_offset 用于從 swp_entry_t 中將匿名頁(yè)所在 slot 的 offset 提取出來(lái)。

#define __swp_type(x)		(((x).val >> __SWP_TYPE_SHIFT) & __SWP_TYPE_MASK)
#define __swp_offset(x)		(((x).val >> __SWP_OFFSET_SHIFT) & __SWP_OFFSET_MASK)

#define __SWP_TYPE_MASK		((1 << __SWP_TYPE_BITS) - 1)
#define __SWP_OFFSET_MASK	((1UL << __SWP_OFFSET_BITS) - 1)

有了這兩個(gè)宏之后，我們就可以根據(jù) swp_entry_t 輕松地定位到匿名頁(yè)在交換區(qū)中的位置了。

內(nèi)核首先會(huì)通過(guò) swp_type 從 swp_entry_t 提取出匿名頁(yè)所在的交換區(qū)索引 type，根據(jù) type 就可以從 swap_info 數(shù)組中定位到交換區(qū)數(shù)據(jù)結(jié)構(gòu) swap_info_struct 。

內(nèi)核將定位交換區(qū) swap_info_struct 結(jié)構(gòu)的邏輯封裝在 swp_swap_info 函數(shù)中：

struct swap_info_struct *swp_swap_info(swp_entry_t entry)
{
	return swap_type_to_swap_info(swp_type(entry));
}

static struct swap_info_struct *swap_type_to_swap_info(int type)
{
	return READ_ONCE(swap_info[type]);
}

得到了交換區(qū)的 swap_info_struct 結(jié)構(gòu)，我們就可以獲取交換區(qū)所在磁盤分區(qū)底層的塊設(shè)備 —— swap_info_struct->bdev。

struct swap_info_struct {
    // 如果該交換區(qū)是 swap partition 則指向該磁盤分區(qū)的塊設(shè)備結(jié)構(gòu) block_device
    // 如果該交換區(qū)是 swap file 則指向文件底層依賴的塊設(shè)備結(jié)構(gòu) block_device
    struct block_device *bdev;  /* swap device or bdev of swap file */
}

最后通過(guò) swp_offset 定位匿名頁(yè)所在 slot 在交換區(qū)中的 offset，然后利用 offset 在紅黑樹 swap_extent_root 中查找其對(duì)應(yīng)的 swap_extent。

struct swap_info_struct {
    struct rb_root swap_extent_root;/* root of the swap extent rbtree */
}

前面我們提到過(guò) swap file 背后所在的磁盤塊不一定是連續(xù)的，而 swap file 中的 slot 卻是連續(xù)的，內(nèi)核需要用 swap_extent 結(jié)構(gòu)來(lái)描述 slot 與磁盤塊的映射關(guān)系。

所以對(duì)于 swap file 來(lái)說(shuō)，我們找到了 swap_extent 也就確定了 slot 對(duì)應(yīng)的磁盤塊了。

static sector_t map_swap_entry(swp_entry_t entry, struct block_device **bdev)
{
    struct swap_info_struct *sis;
    struct swap_extent *se;
    pgoff_t offset;
    // 通過(guò) swap_info[swp_type(entry)]  獲取交換區(qū) swap_info_struct 結(jié)構(gòu)
    sis = swp_swap_info(entry);
    // 獲取交換區(qū)所在磁盤分區(qū)塊設(shè)備
    *bdev = sis->bdev;
    // 獲取匿名頁(yè)在交換區(qū)的偏移 
    offset = swp_offset(entry);
    // 通過(guò) offset 到紅黑樹 swap_extent_root 中查找對(duì)應(yīng)的 swap_extent
    se = offset_to_swap_extent(sis, offset);
    // 獲取 slot 對(duì)應(yīng)的磁盤塊
    return se->start_block + (offset - se->start_page);
}

而 swap partition 是一個(gè)沒(méi)有文件系統(tǒng)的裸磁盤分區(qū)，其背后的磁盤塊都是連續(xù)分布的，所以對(duì)于 swap partition 來(lái)說(shuō)，slot 與磁盤塊是直接映射的，我們獲取到 slot 的 offset 之后，在乘以一個(gè)固定的偏移 2 ^ PAGE_SHIFT - 9 跳過(guò)用于存儲(chǔ)交換區(qū)元信息的 swap header ，就可以直接獲得磁盤塊了。

這里有點(diǎn)像?《深入理解 Linux 虛擬內(nèi)存管理》?一文中提到的內(nèi)核虛擬內(nèi)存空間中的直接映射區(qū)，虛擬內(nèi)存與物理內(nèi)存都是直接映射的，通過(guò)虛擬內(nèi)存地址減去一個(gè)固定的偏移直接就可以獲得物理內(nèi)存地址了。

static sector_t swap_page_sector(struct page *page)
{
    return (sector_t)__page_file_index(page) << (PAGE_SHIFT - 9);
}

pgoff_t __page_file_index(struct page *page)
{
    // 在 swap 場(chǎng)景中，swp_entry_t 的值會(huì)設(shè)置到 page 結(jié)構(gòu)中的 private 字段中
    // 具體什么時(shí)候設(shè)置的，我們這里先不管，后面會(huì)說(shuō)
    swp_entry_t swap = { .val = page_private(page) };
    return swp_offset(swap);
}

以上介紹的就是內(nèi)核在 swap file 和 swap partition 場(chǎng)景下，如何獲取 slot 對(duì)應(yīng)的磁盤塊 sector_t 的邏輯與實(shí)現(xiàn)。

有了 sector_t，內(nèi)核接著就會(huì)利用 bdev_read_page 函數(shù)將 slot 對(duì)應(yīng)在 sector 中的內(nèi)容讀取到物理內(nèi)存頁(yè) page 中，這就是整個(gè) swap in 的過(guò)程。

/**
 * bdev_read_page() - Start reading a page from a block device
 * @bdev: The device to read the page from
 * @sector: The offset on the device to read the page to (need not be aligned)
 * @page: The page to read
 */
int bdev_read_page(struct block_device *bdev, sector_t sector,
			struct page *page)

swap_readpage 函數(shù)負(fù)責(zé)將匿名頁(yè)中的內(nèi)容從交換區(qū)中讀取到物理內(nèi)存頁(yè)中來(lái)，這里也是 swap in 的核心實(shí)現(xiàn)：

int swap_readpage(struct page *page, bool synchronous)
{
    struct bio *bio;
    int ret = 0;
    struct swap_info_struct *sis = page_swap_info(page);
    blk_qc_t qc;
    struct gendisk *disk;
    // 處理交換區(qū)是 swap file 的情況
    if (sis->flags & SWP_FS) {
        // 從交換區(qū)中獲取交換文件 swap_file
        struct file *swap_file = sis->swap_file;
        // swap_file 本質(zhì)上還是文件系統(tǒng)中的一個(gè)文件，所以它也會(huì)有 page cache
        struct address_space *mapping = swap_file->f_mapping;
        // 利用 page cache 中的 readpage 方法，從 swap_file 所在的文件系統(tǒng)中讀取匿名頁(yè)內(nèi)容到 page 中。
        // 注意這里只是利用 page cache 的 readpage 方法從文件系統(tǒng)中讀取數(shù)據(jù)，內(nèi)核并不會(huì)把 page 加入到 page cache 中
        // 這里 swap_file 和普通文件的讀取過(guò)程是不一樣的，page cache 不緩存內(nèi)存頁(yè)。
        // 對(duì)于 swap out 的場(chǎng)景來(lái)說(shuō)，內(nèi)核也只是利用 page cache 的 writepage 方法將匿名頁(yè)的內(nèi)容寫入到 swap_file 中。
        ret = mapping->a_ops->readpage(swap_file, page);
        if (!ret)
            count_vm_event(PSWPIN);
        return ret;
    }

    // 如果交換區(qū)是 swap partition，則直接從磁盤塊中讀取
    // 對(duì)于 swap out 的場(chǎng)景，內(nèi)核調(diào)用 bdev_write_page，直接將匿名頁(yè)的內(nèi)容寫入到磁盤塊中
    ret = bdev_read_page(sis->bdev, swap_page_sector(page), page);

out:
    return ret;
}

swap_readpage 是內(nèi)核 swap 機(jī)制的最底層實(shí)現(xiàn)，直接和磁盤打交道，負(fù)責(zé)搭建磁盤與內(nèi)存之間的橋梁。雖然直接調(diào)用 swap_readpage 可以基本完成 swap in 的目的，但在某些特殊情況下會(huì)導(dǎo)致 swap 的性能非常糟糕。

比如下圖所示，假設(shè)當(dāng)前系統(tǒng)中存在三個(gè)進(jìn)程，它們共享引用了同一個(gè)物理內(nèi)存頁(yè) page。

當(dāng)這個(gè)被共享的 page 被內(nèi)核 swap out 到交換區(qū)之后，三個(gè)共享進(jìn)程的頁(yè)表會(huì)發(fā)生如下變化：

當(dāng) 進(jìn)程1 開始讀取這個(gè)共享 page 的時(shí)候，由于 page 已經(jīng) swap out 到交換區(qū)了，所以會(huì)發(fā)生 swap 缺頁(yè)異常，進(jìn)入內(nèi)核通過(guò) swap_readpage 將共享 page 的內(nèi)容從磁盤中讀取進(jìn)內(nèi)存，此時(shí)三個(gè)進(jìn)程的頁(yè)表結(jié)構(gòu)變?yōu)橄聢D所示：

現(xiàn)在共享 page 已經(jīng)被進(jìn)程1 swap in 進(jìn)來(lái)了，但是進(jìn)程2 和進(jìn)程 3 是不知道的，它們的頁(yè)表中還儲(chǔ)存的是 swp_entry_t，依然指向 page 所在交換區(qū)的位置。

按照之前的邏輯，當(dāng) 進(jìn)程2 以及進(jìn)程3 開始讀取這個(gè)共享 page 的時(shí)候，其實(shí) page 已經(jīng)在內(nèi)存了，但是它們此刻感知不到，因?yàn)?進(jìn)程2 和進(jìn)程3 的頁(yè)表中存儲(chǔ)的依然是 swp_entry_t，還是會(huì)產(chǎn)生 swap 缺頁(yè)中斷，重新通過(guò) swap_readpage 讀取交換區(qū)中的內(nèi)容，這樣一來(lái)就產(chǎn)生了額外重復(fù)的磁盤 IO。

除此之外，更加嚴(yán)重的是，由于進(jìn)程2 和進(jìn)程3 的 swap 缺頁(yè)，又會(huì)產(chǎn)生兩個(gè)新的內(nèi)存頁(yè)用來(lái)存放從 swap_readpage 中讀取進(jìn)來(lái)的交換區(qū)數(shù)據(jù)。

產(chǎn)生了重復(fù)的磁盤 IO 不說(shuō)，還產(chǎn)生了額外的內(nèi)存消耗，并且這樣一來(lái)，三個(gè)進(jìn)程對(duì)內(nèi)存頁(yè)就不是共享的了。

還有一種極端場(chǎng)景是一個(gè)進(jìn)程試圖讀取一個(gè)正在被 swap out 的 page ，由于 page 正在被內(nèi)核 swap out，此時(shí)進(jìn)程頁(yè)表指向該 page 的 pte 已經(jīng)變成了 swp_entry_t。

進(jìn)程在這個(gè)時(shí)候訪問(wèn) page 的時(shí)候，還是會(huì)產(chǎn)生 swap 缺頁(yè)異常，進(jìn)程試圖 swap in 這個(gè)正在被內(nèi)核 swap out 的 page，但是此時(shí) page 仍然還在內(nèi)存中，只不過(guò)是正在被內(nèi)核刷盤。

而按照之前的 swap in 邏輯，進(jìn)程這里會(huì)調(diào)用 swap_readpage 從磁盤中讀取，產(chǎn)生額外的磁盤 IO 以及內(nèi)存消耗不說(shuō)，關(guān)鍵是此刻 swap_readpage 出來(lái)的數(shù)據(jù)都不是完整的，這肯定是個(gè)大問(wèn)題。

內(nèi)核為了解決上面提到的這些問(wèn)題，因此引入了一個(gè)新的結(jié)構(gòu) —— swap cache 。

10.3 swap cache

有了 swap cache 之后，情況就會(huì)變得大不相同，我們?cè)诨剡^(guò)頭來(lái)看第一個(gè)問(wèn)題 —— 多進(jìn)程共享內(nèi)存頁(yè)。

進(jìn)程1 在 swap in 的時(shí)候首先會(huì)到 swap cache 中去查找，看看是否有其他進(jìn)程已經(jīng)把內(nèi)存頁(yè) swap in 進(jìn)來(lái)了，如果 swap cache 中沒(méi)有才會(huì)調(diào)用 swap_readpage 從磁盤中去讀取。

當(dāng)內(nèi)核通過(guò) swap_readpage 將內(nèi)存頁(yè)中的內(nèi)容從磁盤中讀取進(jìn)內(nèi)存之后，內(nèi)核會(huì)把這個(gè)匿名頁(yè)先放入 swap cache 中。進(jìn)程 1 的頁(yè)表將原來(lái)的 swp_entry_t 填充為 pte 并指向 swap cache 中的這個(gè)內(nèi)存頁(yè)。

由于進(jìn)程1 頁(yè)表中對(duì)應(yīng)的頁(yè)表項(xiàng)現(xiàn)在已經(jīng)從 swp_entry_t 變?yōu)?pte 了，指向的是 swap cache 中的內(nèi)存頁(yè)而不是 swap 交換區(qū)，所以對(duì)應(yīng) slot 的引用計(jì)數(shù)就要減 1 。

還記得我們之前介紹的 swap_map 數(shù)組嗎？slot 被進(jìn)程引用的計(jì)數(shù)就保存在這里，現(xiàn)在這個(gè) slot 在 swap_map 數(shù)組中保存的引用計(jì)數(shù)從 3 變成了 2 。表示還有兩個(gè)進(jìn)程也就是進(jìn)程2 和進(jìn)程3 仍在繼續(xù)引用這個(gè) slot 。

當(dāng)進(jìn)程2 發(fā)生 swap 缺頁(yè)中斷的時(shí)候進(jìn)入內(nèi)核之后，也是首先會(huì)到 swap cache 中查找是否現(xiàn)在已經(jīng)有其他進(jìn)程把共享的內(nèi)存頁(yè) swap in 進(jìn)來(lái)了，內(nèi)存頁(yè) page 在 swap cache 的索引就是頁(yè)表中的 swp_entry_t。由于這三個(gè)進(jìn)程共享的同一個(gè)內(nèi)存頁(yè)，所以三個(gè)進(jìn)程頁(yè)表中的 swp_entry_t 都是相同的，都是指向交換區(qū)的同一位置。

由于共享內(nèi)存頁(yè)現(xiàn)在已經(jīng)被進(jìn)程1 swap in 進(jìn)來(lái)了，并存放在 swap cache 中，所以進(jìn)程2 通過(guò) swp_entry_t 一下就在 swap cache 中找到了，同理，進(jìn)程 2 的頁(yè)表也會(huì)將原來(lái)的 swp_entry_t 填充為 pte 并指向 swap cache 中的這個(gè)內(nèi)存頁(yè)。slot 的引用計(jì)數(shù)減 1。

現(xiàn)在這個(gè) slot 在 swap_map 數(shù)組中保存的引用計(jì)數(shù)從 2 變成了 1 。表示只有進(jìn)程3 在引用這個(gè) slot 了。

當(dāng) 進(jìn)程3 發(fā)生 swap 缺頁(yè)中斷的之后，內(nèi)核還是先通過(guò) swp_entry_t 到 swap cache 中去查找，找到之后，將進(jìn)程 3 頁(yè)表原來(lái)的 swp_entry_t 填充為 pte 并指向 swap cache 中的這個(gè)內(nèi)存頁(yè)，slot 的引用計(jì)數(shù)減 1。

現(xiàn)在 slot 的引用計(jì)數(shù)已經(jīng)變?yōu)?0 了，這意味著所有共享該內(nèi)存頁(yè)的進(jìn)程已經(jīng)全部知道了新內(nèi)存頁(yè)的地址，它們的 pte 已經(jīng)全部指向了新內(nèi)存頁(yè)，不在指向 slot 了，此時(shí)內(nèi)核便將這個(gè)內(nèi)存頁(yè)從 swap cache 中移除。

針對(duì)第二個(gè)問(wèn)題 —— 進(jìn)程試圖 swap in 這個(gè)正在被內(nèi)核 swap out 的 page，內(nèi)核的處理方法也是一樣，內(nèi)核在 swap out 的時(shí)候首先會(huì)在交換區(qū)中為這個(gè) page 分配 slot 確定其在交換區(qū)的位置，然后通過(guò)之前文章《深入理解 Linux 物理內(nèi)存管理》中
介紹的匿名頁(yè)反向映射機(jī)制找到所有引用該內(nèi)存頁(yè)的進(jìn)程，將它們頁(yè)表中的 pte 修改為指向 slot 的 swp_entry_t。

然后將匿名頁(yè) page 先是放入到 swap cache 中，慢慢地通過(guò) swap_writepage 回寫。當(dāng)匿名頁(yè)被完全回寫到交換區(qū)中時(shí)，內(nèi)核才會(huì)將 page 從 swap cache 中移除。

如果當(dāng)內(nèi)核正在回寫的過(guò)程中，不巧有一個(gè)進(jìn)程又要訪問(wèn)該內(nèi)存頁(yè)，同樣也會(huì)發(fā)生 swap 缺頁(yè)中斷，但是由于此時(shí)沒(méi)有回寫完成，內(nèi)存頁(yè)還保存在 swap cache 中，內(nèi)核通過(guò)進(jìn)程頁(yè)表中的 swp_entry_t 一下就在 swap cache 中找到了，避免了再次發(fā)生磁盤 IO，后面的過(guò)程就和第一個(gè)問(wèn)題一樣了。

上述查找 swap cache 的過(guò)程。內(nèi)核封裝在 __read_swap_cache_async 函數(shù)里，在 swap in 的過(guò)程中，內(nèi)核會(huì)首先調(diào)用這里查看 swap cache 是否已經(jīng)緩存了內(nèi)存頁(yè)，如果沒(méi)有，則新分配一個(gè)內(nèi)存頁(yè)并加入到 swap cache 中，最后才會(huì)調(diào)用 swap_readpage 從磁盤中將所需內(nèi)容讀取到新內(nèi)存頁(yè)中。

struct page *__read_swap_cache_async(swp_entry_t entry, gfp_t gfp_mask,
            struct vm_area_struct *vma, unsigned long addr,
            bool *new_page_allocated)
{
    struct page *found_page = NULL, *new_page = NULL;
    struct swap_info_struct *si;
    int err;
    // 是否分配新的內(nèi)存頁(yè)，如果內(nèi)存頁(yè)已經(jīng)在 swap cache 中則無(wú)需分配
    *new_page_allocated = false;

    do {
        // 獲取交換區(qū)結(jié)構(gòu) swap_info_struct
        si = get_swap_device(entry);
        // 首先根據(jù) swp_entry_t 到 swap cache 中查找，內(nèi)存頁(yè)是否已經(jīng)被其他進(jìn)程 swap in 進(jìn)來(lái)了
        found_page = find_get_page(swap_address_space(entry),
                       swp_offset(entry));
        // swap cache 已經(jīng)緩存了，就直接返回，不必啟動(dòng)磁盤 IO
        if (found_page)
            break;
        // 如果 swap cache 中沒(méi)有，則需要新分配一個(gè)內(nèi)存頁(yè)
        // 用來(lái)存儲(chǔ)從交換區(qū)中 swap in 進(jìn)來(lái)的內(nèi)容
        if (!new_page) {
            new_page = alloc_page_vma(gfp_mask, vma, addr);
            if (!new_page)
                break;      /* Out of memory */
        }
        // swap 沒(méi)有完成時(shí)，內(nèi)存頁(yè)需要加鎖，禁止訪問(wèn)
        __SetPageLocked(new_page);
        __SetPageSwapBacked(new_page);
        // 將新的內(nèi)存頁(yè)先放入 swap cache 中
        // 在這里會(huì)將 swp_entry_t 設(shè)置到 page 結(jié)構(gòu)的 private 屬性中
        err = add_to_swap_cache(new_page, entry, gfp_mask & GFP_KERNEL);
    } while (err != -ENOMEM);

    return found_page;
}

前面我們提到，Linux 系統(tǒng)中同時(shí)允許多個(gè)交換區(qū)存在，內(nèi)核將這些交換區(qū)組織在 swap_info 數(shù)組中。

struct swap_info_struct *swap_info[MAX_SWAPFILES];

內(nèi)核會(huì)為系統(tǒng)中每一個(gè)交換區(qū)分配一個(gè) swap cache，被內(nèi)核組織在一個(gè)叫做 swapper_spaces 的數(shù)組中。交換區(qū)的 swap cache 在 swapper_spaces 數(shù)組中的索引也是 swp_entry_t 中存儲(chǔ)的 type 信息，通過(guò) swp_type 來(lái)提取。

// 一個(gè)交換區(qū)對(duì)應(yīng)一個(gè) swap cache
struct address_space *swapper_spaces[MAX_SWAPFILES] __read_mostly;

這里我們可以看到，交換區(qū)的 swap cache 和文件的 page cache 一樣，都是 address_space 結(jié)構(gòu)來(lái)描述的，而對(duì)于 swap file 來(lái)說(shuō)，因?yàn)樗举|(zhì)上是文件系統(tǒng)里的一個(gè)文件，所以 swap file 既有 swap cache 也有 page cache 。

這里大家需要區(qū)分 swap file 的 swap cache 和 page cache，前面在介紹 swap_readpage 函數(shù)的時(shí)候，筆者也提過(guò)，swap file 的 page cache 在 swap 的場(chǎng)景中是不會(huì)緩存內(nèi)存頁(yè)的，內(nèi)核只是利用 page cache 相關(guān)的操作函數(shù) —— address_space->a_ops ，從 swap file 所在的文件系統(tǒng)中讀取或者寫入匿名頁(yè)，匿名頁(yè)是不會(huì)加入到 page cache 中的。

而交換區(qū)是針對(duì)整個(gè)系統(tǒng)來(lái)說(shuō)的，系統(tǒng)中會(huì)存在很多進(jìn)程，當(dāng)發(fā)生 swap 的時(shí)候，系統(tǒng)中的這些進(jìn)程會(huì)對(duì)同一個(gè) swap cache 進(jìn)行爭(zhēng)搶，所以為了近一步提高 swap 的并行度，內(nèi)核會(huì)將一個(gè)交換區(qū)中的 swap cache 分裂多個(gè)出來(lái)，將競(jìng)爭(zhēng)的壓力分散開來(lái)。

這樣一來(lái)，一個(gè)交換就演變出多個(gè) swap cache 出來(lái)，swapper_spaces 數(shù)組其實(shí)是一個(gè) address_space 結(jié)構(gòu)的二維數(shù)組。每個(gè) swap cache 能夠管理的匿名頁(yè)個(gè)數(shù)為 2^SWAP_ADDRESS_SPACE_SHIFT 個(gè)，涉及到的內(nèi)存大小為 4K * SWAP_ADDRESS_SPACE_PAGES —— 64M。

/* One swap address space for each 64M swap space */
#define SWAP_ADDRESS_SPACE_SHIFT	14
#define SWAP_ADDRESS_SPACE_PAGES	(1 << SWAP_ADDRESS_SPACE_SHIFT)

通過(guò)一個(gè)給定的 swp_entry_t 查找對(duì)應(yīng)的 swap cache 的邏輯，內(nèi)核定義在 swap_address_space 宏中。

首先內(nèi)核通過(guò) swp_type 提取交換區(qū)在 swapper_spaces 數(shù)組中的索引（一維索引）。
通過(guò) swp_offset >> SWAP_ADDRESS_SPACE_SHIFT（二維索引），定位 slot 具體歸哪一個(gè) swap cache 管理。

#define swap_address_space(entry)			    \
	(&swapper_spaces[swp_type(entry)][swp_offset(entry) \
		>> SWAP_ADDRESS_SPACE_SHIFT])

struct page * lookup_swap_cache(swp_entry_t entry)  
{          
    struct swap_info_struct *si = get_swap_device(entry);
    // 通過(guò) swp_entry_t 定位 swap cache
    // 根據(jù) swp_offset 在 swap cache 中查找內(nèi)存頁(yè)
    page = find_get_page(swap_address_space(entry), swp_offset(entry));        
    return page;  
}

當(dāng)我們通過(guò) swapon 命令來(lái)初始化并激活一個(gè)交換區(qū)的時(shí)候，內(nèi)核會(huì)在 init_swap_address_space 函數(shù)中為交換區(qū)初始化 swap cache。

int init_swap_address_space(unsigned int type, unsigned long nr_pages)
{
    struct address_space *spaces, *space;
    unsigned int i, nr;
    // 計(jì)算交換區(qū)包含的 swap cache 個(gè)數(shù)
    nr = DIV_ROUND_UP(nr_pages, SWAP_ADDRESS_SPACE_PAGES);
    // 為交換區(qū)分配 address_space 數(shù)組，用于存放多個(gè) swap cache
    spaces = kvcalloc(nr, sizeof(struct address_space), GFP_KERNEL);
    // 挨個(gè)初始化交換區(qū)中的 swap cache
    for (i = 0; i < nr; i++) {
        space = spaces + i;
        // 將 a_ops 指定為 swap_aops
        space->a_ops = &swap_aops;
        /* swap cache doesn't use writeback related tags */
        // swap cache 不會(huì)回寫
        mapping_set_no_writeback_tags(space);
    }
    // 保存交換區(qū)中的 swap cache 個(gè)數(shù)
    nr_swapper_spaces[type] = nr;
    // 將初始化好的 address_space 數(shù)組放入 swapper_spaces 數(shù)組中（二維數(shù)組）
    swapper_spaces[type] = spaces;

    return 0;
}

// 交換區(qū)中的 swap cache 個(gè)數(shù)
static unsigned int nr_swapper_spaces[MAX_SWAPFILES] __read_mostly;

struct address_space *swapper_spaces[MAX_SWAPFILES] __read_mostly;

這里我們可以看到，對(duì)于 swap cache 來(lái)說(shuō)，內(nèi)核會(huì)將 address_space-> a_ops 初始化為 swap_aops。

static const struct address_space_operations swap_aops = {
	.writepage	= swap_writepage,
	.set_page_dirty	= swap_set_page_dirty,
#ifdef CONFIG_MIGRATION
	.migratepage	= migrate_page,
#endif
};

10.4 swap 預(yù)讀

現(xiàn)在我們已經(jīng)清楚了當(dāng)進(jìn)程虛擬內(nèi)存空間中的某一段 vma 發(fā)生 swap 缺頁(yè)異常之后，內(nèi)核的 swap in 核心處理流程。但是整個(gè)完整的 swap 流程還沒(méi)有結(jié)束，內(nèi)核還需要考慮內(nèi)存訪問(wèn)的空間局部性原理。

當(dāng)進(jìn)程訪問(wèn)某一段內(nèi)存的時(shí)候，在不久之后，其附近的內(nèi)存地址也將被訪問(wèn)。對(duì)應(yīng)于本小節(jié)的 swap 場(chǎng)景來(lái)說(shuō)，當(dāng)進(jìn)程地址空間中的某一個(gè)虛擬內(nèi)存地址 address 被訪問(wèn)之后，那么其周圍的虛擬內(nèi)存地址在不久之后，也會(huì)被進(jìn)程訪問(wèn)。

而那些相鄰的虛擬內(nèi)存地址，在進(jìn)程頁(yè)表中對(duì)應(yīng)的頁(yè)表項(xiàng)也都是相鄰的，當(dāng)我們處理完了缺頁(yè)地址 address 的 swap 缺頁(yè)異常之后，如果其相鄰的頁(yè)表項(xiàng)均是 swp_entry_t，那么這些相鄰的 swp_entry_t 所指向交換區(qū)的內(nèi)容也需要被內(nèi)核預(yù)讀進(jìn)內(nèi)存中。

這樣一來(lái)，當(dāng) address 附近的虛擬內(nèi)存地址發(fā)生 swap 缺頁(yè)的時(shí)候，內(nèi)核就可以直接從 swap cache 中讀到了，避免了磁盤 IO，使得 swap in 可以快速完成，這里和文件的預(yù)讀機(jī)制有點(diǎn)類似。

swap 預(yù)讀在 Linux 內(nèi)核中由 swapin_readahead 函數(shù)負(fù)責(zé)，它有兩種實(shí)現(xiàn)方式：

第一種是根據(jù)缺頁(yè)地址 address 周圍的虛擬內(nèi)存地址進(jìn)行預(yù)讀，但前提是它們必須屬于同一個(gè) vma，這個(gè)邏輯在 swap_vma_readahead 函數(shù)中完成。

第二種是根據(jù)內(nèi)存頁(yè)在交換區(qū)中周圍的磁盤地址進(jìn)行預(yù)讀，但前提是它們必須屬于同一個(gè)交換區(qū)，這個(gè)邏輯在 swap_cluster_readahead 函數(shù)中完成。

struct page *swapin_readahead(swp_entry_t entry, gfp_t gfp_mask,
                struct vm_fault *vmf)
{
    return swap_use_vma_readahead() ?
            swap_vma_readahead(entry, gfp_mask, vmf) :
            swap_cluster_readahead(entry, gfp_mask, vmf);
}

在本小節(jié)介紹的 swap 缺頁(yè)場(chǎng)景中，內(nèi)核是按照缺頁(yè)地址周圍的虛擬內(nèi)存地址進(jìn)行預(yù)讀的。在函數(shù) swap_vma_readahead 的開始，內(nèi)核首先調(diào)用 swap_ra_info 方法來(lái)計(jì)算本次需要預(yù)讀的頁(yè)表項(xiàng)集合。

預(yù)讀的最大頁(yè)表項(xiàng)個(gè)數(shù)由 page_cluster 決定，但最大不能超過(guò) 2 ^ SWAP_RA_ORDER_CEILING。

#ifdef CONFIG_64BIT
#define SWAP_RA_ORDER_CEILING	5
// 最大預(yù)讀窗口
max_win = 1 << min_t(unsigned int, READ_ONCE(page_cluster),
			     SWAP_RA_ORDER_CEILING);

page_cluster 的值可以通過(guò)內(nèi)核參數(shù) /proc/sys/vm/page-cluster 來(lái)調(diào)整，默認(rèn)值為 3，我們可以通過(guò)設(shè)置 page_cluster = 0來(lái)禁止 swap 預(yù)讀。

當(dāng)要 swap in 的內(nèi)存頁(yè)在交換區(qū)的位置已經(jīng)接近末尾了，則需要減少預(yù)讀頁(yè)的個(gè)數(shù)，防止預(yù)讀超出交換區(qū)的邊界。

如果預(yù)讀的頁(yè)表項(xiàng)不是 swp_entry_t，則說(shuō)明該頁(yè)表項(xiàng)是一個(gè)空的還沒(méi)有進(jìn)行過(guò)映射或者頁(yè)表項(xiàng)指向的內(nèi)存頁(yè)還在內(nèi)存中，這種情況下則跳過(guò)，繼續(xù)預(yù)讀后面的 swp_entry_t。

/**
 * swap_vma_readahead - swap in pages in hope we need them soon
 * @entry: swap entry of this memory
 * @gfp_mask: memory allocation flags
 * @vmf: fault information
 *
 * Returns the struct page for entry and addr, after queueing swapin.
 *
 * Primitive swap readahead code. We simply read in a few pages whoes
 * virtual addresses are around the fault address in the same vma.
 *
 * Caller must hold read mmap_sem if vmf->vma is not NULL.
 *
 */
static struct page *swap_vma_readahead(swp_entry_t fentry, gfp_t gfp_mask,
                       struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    struct vma_swap_readahead ra_info = {0,};
    // 獲取本次要進(jìn)行預(yù)讀的頁(yè)表項(xiàng)
    swap_ra_info(vmf, &ra_info);
    // 遍歷預(yù)讀窗口 ra_info 中的頁(yè)表項(xiàng)，挨個(gè)進(jìn)行預(yù)讀
    for (i = 0, pte = ra_info.ptes; i < ra_info.nr_pte;
         i++, pte++) {
        // 獲取要進(jìn)行預(yù)讀的頁(yè)表項(xiàng)
        pentry = *pte;
        // 頁(yè)表項(xiàng)為空，表示還未進(jìn)行內(nèi)存映射，直接跳過(guò)
        if (pte_none(pentry))
            continue;
        // 頁(yè)表項(xiàng)指向的內(nèi)存頁(yè)仍然在內(nèi)存中，跳過(guò)
        if (pte_present(pentry))
            continue;
        // 將 pte 轉(zhuǎn)換為 swp_entry_t
        entry = pte_to_swp_entry(pentry);
        if (unlikely(non_swap_entry(entry)))
            continue;
        // 利用 swp_entry_t 先到 swap cache 中去查找
        // 如果沒(méi)有，則新分配一個(gè)內(nèi)存頁(yè)并添加到 swap cache 中，這種情況下 page_allocated = true
        // 如果有，則直接從swap cache 中獲取內(nèi)存頁(yè)，也就不需要預(yù)讀了，page_allocated = false
        page = __read_swap_cache_async(entry, gfp_mask, vma,
                           vmf->address, &page_allocated);

        if (page_allocated) {
            // 發(fā)生磁盤 IO，從交換區(qū)中讀取內(nèi)存頁(yè)的內(nèi)容到新分配的 page 中
            swap_readpage(page, false);
        }
    }
}

這樣一來(lái)，經(jīng)過(guò) swap_vma_readahead 預(yù)讀之后，缺頁(yè)內(nèi)存地址 address 周圍的頁(yè)表項(xiàng)所指向的內(nèi)存頁(yè)就全部被加載到 swap cache 中了。

當(dāng)進(jìn)程下次訪問(wèn) address 周圍的內(nèi)存地址時(shí)，雖然也會(huì)發(fā)生 swap 缺頁(yè)異常，但是內(nèi)核直接從 swap cache 中就可以讀取到了，避免了磁盤 IO。

10.5 還原 do_swap_page 完整面貌

當(dāng)我們明白了前面介紹的這些背景知識(shí)之后，再回過(guò)頭來(lái)看內(nèi)核完整的 swap in 過(guò)程就很清晰了

首先內(nèi)核會(huì)通過(guò) pte_to_swp_entry 將進(jìn)程頁(yè)表中的 pte 轉(zhuǎn)換為 swp_entry_t
通過(guò) lookup_swap_cache 根據(jù) swp_entry_t 到 swap cache 中查找是否已經(jīng)有其他進(jìn)程將內(nèi)存頁(yè) swap 進(jìn)來(lái)了。
如果 swap cache 沒(méi)有對(duì)應(yīng)的內(nèi)存頁(yè)，則調(diào)用 swapin_readahead 啟動(dòng)預(yù)讀，在這個(gè)過(guò)程中，內(nèi)核會(huì)重新分配物理內(nèi)存頁(yè)，并將這個(gè)物理內(nèi)存頁(yè)加入到 swap cache 中，隨后通過(guò) swap_readpage 將交換區(qū)的內(nèi)容讀取到這個(gè)內(nèi)存頁(yè)中。
現(xiàn)在我們需要的內(nèi)存頁(yè)已經(jīng) swap in 到內(nèi)存中了，后面的流程就和普通的缺頁(yè)處理一樣了，根據(jù) swap in 進(jìn)來(lái)的內(nèi)存頁(yè)地址重新創(chuàng)建初始化一個(gè)新的 pte，然后用這個(gè)新的 pte，將進(jìn)程頁(yè)表中原來(lái)的 swp_entry_t 替換掉。
為新的內(nèi)存頁(yè)建立反向映射關(guān)系，加入 lru active list 中，最后 swap_free 釋放交換區(qū)中的資源。

vm_fault_t do_swap_page(struct vm_fault *vmf)
{
    // 將缺頁(yè)內(nèi)存地址 address 對(duì)應(yīng)的 pte 轉(zhuǎn)換為 swp_entry_t
    entry = pte_to_swp_entry(vmf->orig_pte);  
    // 首先利用 swp_entry_t 到 swap cache 查找，看內(nèi)存頁(yè)已經(jīng)其他進(jìn)程被 swap in 進(jìn)來(lái)
    page = lookup_swap_cache(entry, vma, vmf->address);
    swapcache = page;
    // 處理匿名頁(yè)不在 swap cache 的情況
    if (!page) {
        // 通過(guò) swp_entry_t 獲取對(duì)應(yīng)的交換區(qū)結(jié)構(gòu)
        struct swap_info_struct *si = swp_swap_info(entry);
        // 針對(duì) fast swap storage 比如 zram 等 swap 的性能優(yōu)化，跳過(guò) swap cache
        if (si->flags & SWP_SYNCHRONOUS_IO &&
                __swap_count(entry) == 1) {
            /* skip swapcache */
            // 當(dāng)只有單進(jìn)程引用這個(gè)匿名頁(yè)的時(shí)候，直接跳過(guò) swap cache
            // 從伙伴系統(tǒng)中申請(qǐng)內(nèi)存頁(yè) page，注意這里的 page 并不會(huì)加入到 swap cache 中
            page = alloc_page_vma(GFP_HIGHUSER_MOVABLE, vma,
                            vmf->address);
            if (page) {
                __SetPageLocked(page);
                __SetPageSwapBacked(page);
                set_page_private(page, entry.val);
                // 加入 lru 鏈表
                lru_cache_add_anon(page);
                // 直接從 fast storage device 中讀取被換出的內(nèi)容到 page 中
                swap_readpage(page, true);
            }
        } else {
            // 啟動(dòng) swap 預(yù)讀
            page = swapin_readahead(entry, GFP_HIGHUSER_MOVABLE,
                        vmf);
            swapcache = page;
        }

        // 因?yàn)樯婕暗搅舜疟P IO，所以本次缺頁(yè)異常屬于 FAULT_MAJOR 類型
        ret = VM_FAULT_MAJOR;
        count_vm_event(PGMAJFAULT);
        count_memcg_event_mm(vma->vm_mm, PGMAJFAULT);
    } 

    // 現(xiàn)在之前被換出的內(nèi)存頁(yè)已經(jīng)被內(nèi)核重新 swap in 到內(nèi)存中了。
    // 下面就是重新設(shè)置 pte，將原來(lái)頁(yè)表中的 swp_entry_t 替換掉
    vmf->pte = pte_offset_map_lock(vma->vm_mm, vmf->pmd, vmf->address,
            &vmf->ptl);
    // 增加匿名頁(yè)的統(tǒng)計(jì)計(jì)數(shù)
    inc_mm_counter_fast(vma->vm_mm, MM_ANONPAGES);
    // 減少 swap entries 計(jì)數(shù)
    dec_mm_counter_fast(vma->vm_mm, MM_SWAPENTS);
    // 根據(jù)被 swap in 進(jìn)來(lái)的新內(nèi)存頁(yè)重新創(chuàng)建 pte
    pte = mk_pte(page, vma->vm_page_prot);
    // 用新的 pte 替換掉頁(yè)表中的 swp_entry_t
    set_pte_at(vma->vm_mm, vmf->address, vmf->pte, pte);
    vmf->orig_pte = pte;

    // 建立新內(nèi)存頁(yè)的反向映射關(guān)系
    do_page_add_anon_rmap(page, vma, vmf->address, exclusive);
    // 將內(nèi)存頁(yè)添加到 lru 的 active list 中
    activate_page(page);
    // 釋放交換區(qū)中的資源
    swap_free(entry);
    // 刷新 mmu cache
    update_mmu_cache(vma, vmf->address, vmf->pte);
    return ret;
}

總結(jié)

本文我們介紹了 Linux 內(nèi)核如何通過(guò)缺頁(yè)中斷將進(jìn)程頁(yè)表從 0 到 1 一步一步的完整構(gòu)建出來(lái)。從進(jìn)程虛擬內(nèi)存空間布局的角度來(lái)講，缺頁(yè)中斷主要分為兩個(gè)方面：

內(nèi)核態(tài)缺頁(yè)異常處理 —— do_kern_addr_fault，這里主要是處理 vmalloc 虛擬內(nèi)存區(qū)域的缺頁(yè)異常，其中涉及到主內(nèi)核頁(yè)表與進(jìn)程頁(yè)表內(nèi)核部分的同步問(wèn)題。
用戶態(tài)缺頁(yè)異常處理 —— do_user_addr_fault，其中涉及到的主內(nèi)容是如何從 0 到 1 一步一步構(gòu)建完善進(jìn)程頁(yè)表體系。

總體上來(lái)講引起缺頁(yè)中斷的原因分為兩大類：

第一類是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)不在內(nèi)存中
第二類是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)在內(nèi)存中。

第一類缺頁(yè)中斷的原因涉及到三種場(chǎng)景：

缺頁(yè)虛擬內(nèi)存地址 address 在進(jìn)程頁(yè)表中間頁(yè)目錄對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd_t 是空的。
缺頁(yè)地址 address 對(duì)應(yīng)的 pmd_t 雖然不是空的，頁(yè)表也存在，但是 address 對(duì)應(yīng)在頁(yè)表中的 pte 是空的。
虛擬內(nèi)存地址 address 在進(jìn)程頁(yè)表中的頁(yè)表項(xiàng) pte 不是空的，但是其背后映射的物理內(nèi)存頁(yè)被內(nèi)核 swap out 到磁盤上了。

第二類缺頁(yè)中斷的原因涉及到兩種場(chǎng)景：

NUMA Balancing。
寫時(shí)復(fù)制了（Copy On Write， COW）。

最后我們介紹了內(nèi)核整個(gè) swap in 的完整過(guò)程，其中涉及到的重要內(nèi)容包括交換區(qū)的布局以及在內(nèi)核中的組織結(jié)構(gòu)，swap cache 與 page cache 之間的區(qū)別，swap 預(yù)讀機(jī)制。

好了，今天的內(nèi)容到這里就結(jié)束了，感謝大家的收看，我們下篇文章見(jiàn)~~~~

總結(jié)

以上是生活随笔為你收集整理的一文聊透 Linux 缺页异常的处理 —— 图解 Page Faults的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：神经网络优化篇：详解dropout 正则
下一篇：找到了！GitHub Copilot的最

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

linux

一文聊透 Linux 缺页异常的处理 —— 图解 Page Faults

1. 缺頁(yè)中斷產(chǎn)生的原因

2. 內(nèi)核處理缺頁(yè)中斷的入口 —— do_page_fault

3. 內(nèi)核態(tài)缺頁(yè)異常處理 —— do_kern_addr_fault

3.1 vmalloc

3.2 vmalloc_fault

4. 用戶態(tài)缺頁(yè)異常處理 —— do_user_addr_fault

5. handle_mm_fault 完善進(jìn)程頁(yè)表體系

6. handle_pte_fault

7. do_anonymous_page 處理匿名頁(yè)缺頁(yè)

8. do_fault 處理文件頁(yè)缺頁(yè)

8.1 do_read_fault 處理讀操作引起的缺頁(yè)

8.2 do_cow_fault 處理私有文件映射的寫時(shí)復(fù)制

8.3 do_shared_fault 處理對(duì)共享文件映射區(qū)寫入引起的缺頁(yè)

9. do_wp_page 進(jìn)行寫時(shí)復(fù)制

10. do_swap_page 處理 swap 缺頁(yè)異常

10.1 交換區(qū)的布局及其組織結(jié)構(gòu)

10.2 一睹 swp_entry_t 真容

10.3 swap cache

10.4 swap 預(yù)讀

10.5 還原 do_swap_page 完整面貌

總結(jié)

總結(jié)