3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 运维知识 > linux >内容正文

linux

一文聊透 Linux 缺页异常的处理 —— 图解 Page Faults

發(fā)布時(shí)間:2023/12/24 linux 30 coder
生活随笔 收集整理的這篇文章主要介紹了 一文聊透 Linux 缺页异常的处理 —— 图解 Page Faults 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文基于內(nèi)核 5.4 版本源碼討論

在前面兩篇介紹 mmap 的文章中,筆者分別從原理角度以及源碼實(shí)現(xiàn)角度帶著大家深入到內(nèi)核世界深度揭秘了 mmap 內(nèi)存映射的本質(zhì)。從整個(gè) mmap 映射的過(guò)程可以看出,內(nèi)核只是在進(jìn)程的虛擬地址空間中尋找出一段空閑的虛擬內(nèi)存區(qū)域 vma 然后分配給本次映射而已。

    vma = vm_area_alloc(mm);
    vma->vm_start = addr;
    vma->vm_end = addr + len;
    vma->vm_flags = vm_flags;
    vma->vm_page_prot = vm_get_page_prot(vm_flags);
    vma->vm_pgoff = pgoff;

如果是文件映射的話,內(nèi)核還會(huì)額外做一項(xiàng)工作,就是將分配出來(lái)的這段虛擬內(nèi)存區(qū)域 vma 與映射文件關(guān)聯(lián)映射起來(lái)。

vma->vm_file = get_file(file);
error = call_mmap(file, vma);

映射的核心就是將虛擬內(nèi)存區(qū)域 vm_area_struct 相關(guān)的內(nèi)存操作 vma->vm_ops 設(shè)置為文件系統(tǒng)的相關(guān)操作 ext4_file_vm_ops。這樣一來(lái),進(jìn)程后續(xù)對(duì)這段虛擬內(nèi)存的讀寫就相當(dāng)于是讀寫映射文件了。

無(wú)論是匿名映射還是文件映射,內(nèi)核在處理 mmap 映射過(guò)程中貌似都是在進(jìn)程的虛擬地址空間中和虛擬內(nèi)存打交道,僅僅只是為 mmap 映射分配出一段虛擬內(nèi)存而已,整個(gè)映射過(guò)程我們并沒(méi)有看到物理內(nèi)存的身影。

那么大家所關(guān)心的物理內(nèi)存到底是什么時(shí)候映射進(jìn)來(lái)的呢 ?這就是今天本文要討論的主題 —— 缺頁(yè)中斷。

1. 缺頁(yè)中斷產(chǎn)生的原因

如下圖所示,當(dāng) mmap 系統(tǒng)調(diào)用成功返回之后,內(nèi)核只是為進(jìn)程分配了一段 [vm_start , vm_end] 范圍內(nèi)的虛擬內(nèi)存區(qū)域 vma ,由于還未與物理內(nèi)存發(fā)生關(guān)聯(lián),所以此時(shí)進(jìn)程頁(yè)表中與 mmap 映射的虛擬內(nèi)存相關(guān)的各級(jí)頁(yè)目錄和頁(yè)表項(xiàng)還都是空的。

當(dāng) CPU 訪問(wèn)這段由 mmap 映射出來(lái)的虛擬內(nèi)存區(qū)域 vma 中的任意虛擬地址時(shí),MMU 在遍歷進(jìn)程頁(yè)表的時(shí)候就會(huì)發(fā)現(xiàn),該虛擬內(nèi)存地址在進(jìn)程*頁(yè)目錄 PGD(Page Global Directory)中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pgd_t 是空的,該 pgd_t 并沒(méi)有指向其下一級(jí)頁(yè)目錄 PUD(Page Upper Directory)。

也就是說(shuō),此時(shí)進(jìn)程頁(yè)表中只有一張*頁(yè)目錄表 PGD,而上層頁(yè)目錄 PUD(Page Upper Directory),中間頁(yè)目錄 PMD(Page Middle Directory),一級(jí)頁(yè)表(Page Table)內(nèi)核都還沒(méi)有創(chuàng)建。

由于現(xiàn)在被訪問(wèn)到的虛擬內(nèi)存地址對(duì)應(yīng)的 pgd_t 是空的,進(jìn)程的四級(jí)頁(yè)表體系還未建立,所以 MMU 會(huì)產(chǎn)生一個(gè)缺頁(yè)中斷,進(jìn)程從用戶態(tài)轉(zhuǎn)入內(nèi)核態(tài)來(lái)處理這個(gè)缺頁(yè)異常。

此時(shí) CPU 會(huì)將發(fā)生缺頁(yè)異常時(shí),進(jìn)程正在使用的相關(guān)寄存器中的值壓入內(nèi)核棧中。比如,引起進(jìn)程缺頁(yè)異常的虛擬內(nèi)存地址會(huì)被存放在 CR2 寄存器中。同時(shí) CPU 還會(huì)將缺頁(yè)異常的錯(cuò)誤碼 error_code 壓入內(nèi)核棧中。

隨后內(nèi)核會(huì)在 do_page_fault 函數(shù)中來(lái)處理缺頁(yè)異常,該函數(shù)的參數(shù)都是內(nèi)核在處理缺頁(yè)異常的時(shí)候需要用到的基本信息:

dotraplinkage void
do_page_fault(struct pt_regs *regs, unsigned long error_code, unsigned long address)

struct pt_regs 結(jié)構(gòu)中存放的是缺頁(yè)異常發(fā)生時(shí),正在使用中的寄存器值的集合。address 表示觸發(fā)缺頁(yè)異常的虛擬內(nèi)存地址。

error_code 是對(duì)缺頁(yè)異常的一個(gè)描述,目前內(nèi)核只使用了 error_code 的前六個(gè)比特位來(lái)描述引起缺頁(yè)異常的具體原因,后面比特位的含義我們先暫時(shí)忽略。

P(0) : 如果 error_code 第 0 個(gè)比特位置為 0 ,表示該缺頁(yè)異常是由于 CPU 訪問(wèn)的這個(gè)虛擬內(nèi)存地址 address 背后并沒(méi)有一個(gè)物理內(nèi)存頁(yè)與之映射而引起的,站在進(jìn)程頁(yè)表的角度來(lái)說(shuō),就是 CPU 訪問(wèn)的這個(gè)虛擬內(nèi)存地址 address 在進(jìn)程四級(jí)頁(yè)表體系中對(duì)應(yīng)的各級(jí)頁(yè)目錄項(xiàng)或者頁(yè)表項(xiàng)是空的(頁(yè)目錄項(xiàng)或者頁(yè)表項(xiàng)中的 P 位為 0 )。

如果 error_code 第 0 個(gè)比特位置為 1,表示 CPU 訪問(wèn)的這個(gè)虛擬內(nèi)存地址背后雖然有物理內(nèi)存頁(yè)與之映射,但是由于訪問(wèn)權(quán)限不夠而引起的缺頁(yè)異常(保護(hù)異常),比如,進(jìn)程嘗試對(duì)一個(gè)只讀的物理內(nèi)存頁(yè)進(jìn)行寫操作,那么就會(huì)引起寫保護(hù)類型的缺頁(yè)異常。

R/W(1) : 表示引起缺頁(yè)異常的訪問(wèn)類型是什么 ? 如果 error_code 第 1 個(gè)比特位置為 0,表示是由于讀訪問(wèn)引起的。置為 1 表示是由于寫訪問(wèn)引起的。

注意:該標(biāo)志位只是為了描述是哪種訪問(wèn)類型造成了本次缺頁(yè)異常,這個(gè)和前面提到的訪問(wèn)權(quán)限沒(méi)有關(guān)系。比如,進(jìn)程嘗試對(duì)一個(gè)可寫的虛擬內(nèi)存頁(yè)進(jìn)行寫入,訪問(wèn)權(quán)限沒(méi)有問(wèn)題,但是該虛擬內(nèi)存頁(yè)背后并未有物理內(nèi)存與之關(guān)聯(lián),所以也會(huì)導(dǎo)致缺頁(yè)異常。這種情況下,error_code 的 P 位就會(huì)設(shè)置為 0,R/W 位就會(huì)設(shè)置為 1 。

U/S(2):表示缺頁(yè)異常發(fā)生在用戶態(tài)還是內(nèi)核態(tài),error_code 第 2 個(gè)比特位設(shè)置為 0 表示 CPU 訪問(wèn)內(nèi)核空間的地址引起的缺頁(yè)異常,設(shè)置為 1 表示 CPU 訪問(wèn)用戶空間的地址引起的缺頁(yè)異常。

RSVD(3):這里用于檢測(cè)頁(yè)表項(xiàng)中的保留位(Reserved 相關(guān)的比特位)是否設(shè)置,這些頁(yè)表項(xiàng)中的保留位都是預(yù)留給內(nèi)核以后的相關(guān)功能使用的,所以在缺頁(yè)的時(shí)候需要檢查這些保留位是否設(shè)置,從而決定近一步的擴(kuò)展處理。設(shè)置為 1 表示頁(yè)表項(xiàng)中預(yù)留的這些比特位被使用了。設(shè)置為 0 表示頁(yè)表項(xiàng)中預(yù)留的這些比特位還沒(méi)有被使用。

I/D(4):設(shè)置為 1 ,表示本次缺頁(yè)異常是在 CPU 獲取指令的時(shí)候引起的。

PK(5):設(shè)置為 1,表示引起缺頁(yè)異常的虛擬內(nèi)存地址對(duì)應(yīng)頁(yè)表項(xiàng)中的 Protection 相關(guān)的比特位被設(shè)置了。

error_code 比特位的含義定義在文件 /arch/x86/include/asm/traps.h 中:

/*
 * Page fault error code bits:
 *
 *   bit 0 ==	 0: no page found	1: protection fault
 *   bit 1 ==	 0: read access		1: write access
 *   bit 2 ==	 0: kernel-mode access	1: user-mode access
 *   bit 3 ==				1: use of reserved bit detected
 *   bit 4 ==				1: fault was an instruction fetch
 *   bit 5 ==				1: protection keys block access
 */
enum x86_pf_error_code {
	X86_PF_PROT	=		1 << 0,
	X86_PF_WRITE	=		1 << 1,
	X86_PF_USER	=		1 << 2,
	X86_PF_RSVD	=		1 << 3,
	X86_PF_INSTR	=		1 << 4,
	X86_PF_PK	=		1 << 5,
};

2. 內(nèi)核處理缺頁(yè)中斷的入口 —— do_page_fault

經(jīng)過(guò)上一小節(jié)的介紹我們知道,缺頁(yè)中斷產(chǎn)生的根本原因是由于 CPU 訪問(wèn)的這段虛擬內(nèi)存背后沒(méi)有物理內(nèi)存與之映射,表現(xiàn)的具體形式主要有三種:

  1. 虛擬內(nèi)存對(duì)應(yīng)在進(jìn)程頁(yè)表體系中的相關(guān)各級(jí)頁(yè)目錄或者頁(yè)表是空的,也就是說(shuō)這段虛擬內(nèi)存完全沒(méi)有被映射過(guò)。

  2. 虛擬內(nèi)存之前被映射過(guò),其在進(jìn)程頁(yè)表的各級(jí)頁(yè)目錄以及頁(yè)表中均有對(duì)應(yīng)的頁(yè)目錄項(xiàng)和頁(yè)表項(xiàng),但是其對(duì)應(yīng)的物理內(nèi)存被內(nèi)核 swap out 到磁盤上了。

  3. 虛擬內(nèi)存雖然背后映射著物理內(nèi)存,但是由于對(duì)物理內(nèi)存的訪問(wèn)權(quán)限不夠而導(dǎo)致的保護(hù)類型的缺頁(yè)中斷。比如,嘗試去寫一個(gè)只讀的物理內(nèi)存頁(yè)。

雖然缺頁(yè)中斷產(chǎn)生的原因多種多樣,內(nèi)核也會(huì)根據(jù)不同的缺頁(yè)原因進(jìn)行不同的處理,但不管怎么說(shuō),一切的起點(diǎn)都是從 CPU 訪問(wèn)虛擬內(nèi)存開始的,既然提到了虛擬內(nèi)存,我們就不得不回顧一下進(jìn)程虛擬內(nèi)存空間的布局:

在 64 位體系結(jié)構(gòu)下,進(jìn)程虛擬內(nèi)存空間總體上分為兩個(gè)部分,一部分是 128T 的用戶空間,地址范圍為:0x0000 0000 0000 0000 - 0x0000 7FFF FFFF FFFF 。但實(shí)際上,Linux 內(nèi)核是用 TASK_SIZE_MAX 來(lái)定義用戶空間的末尾的,也就是說(shuō) Linux 內(nèi)核是使用 TASK_SIZE_MAX 來(lái)分割用戶虛擬地址空間與內(nèi)核虛擬地址空間的

#define TASK_SIZE_MAX  task_size_max()

#define task_size_max()  ((_AC(1,UL) << __VIRTUAL_MASK_SHIFT) - PAGE_SIZE)

#define __VIRTUAL_MASK_SHIFT 47

#define PAGE_SHIFT  12
#define PAGE_SIZE  (_AC(1,UL) << PAGE_SHIFT)

TASK_SIZE_MAX 的計(jì)算邏輯首先是將 1 左移 47 位得到的地址是 0x0000800000000000,然后減去一個(gè) PAGE_SIZE (4K),就是 0x00007FFFFFFFF000,所以實(shí)際上,64 位體系結(jié)構(gòu)的 Linux 內(nèi)核中,進(jìn)程用戶空間實(shí)際可用的虛擬地址范圍是:0x0000 0000 0000 0000 - 0x0000 7FFF FFFF F000

進(jìn)程虛擬內(nèi)存空間的另一部分則是 128T 的內(nèi)核空間,虛擬地址范圍為:0xFFFF 8000 0000 0000 - 0xFFFF FFFF FFFF FFFF。由于在內(nèi)核空間的一開始包含了 8T 的地址空洞,所以內(nèi)核空間實(shí)際可用的虛擬地址范圍是:0xFFFF 8800 0000 0000 - 0xFFFF FFFF FFFF FFFF

既然進(jìn)程虛擬內(nèi)存地址范圍有用戶空間與內(nèi)核空間之分,那么當(dāng) CPU 訪問(wèn)虛擬內(nèi)存地址時(shí)產(chǎn)生的缺頁(yè)中斷也要區(qū)分下是用戶空間產(chǎn)生的缺頁(yè)還是內(nèi)核空間產(chǎn)生的缺頁(yè)。

static int fault_in_kernel_space(unsigned long address)
{
    /*
     * On 64-bit systems, the vsyscall page is at an address above
     * TASK_SIZE_MAX, but is not considered part of the kernel
     * address space.
     */
    if (IS_ENABLED(CONFIG_X86_64) && is_vsyscall_vaddr(address))
        return false;
    // 在進(jìn)程虛擬內(nèi)存空間中,TASK_SIZE_MAX 以上的虛擬地址均屬于內(nèi)核空間
    return address >= TASK_SIZE_MAX;
}

當(dāng)引起缺頁(yè)中斷的虛擬內(nèi)存地址 address 是在 TASK_SIZE_MAX 之上時(shí),表示該缺頁(yè)地址是屬于內(nèi)核空間的,內(nèi)核的缺頁(yè)處理程序 __do_page_fault 就要進(jìn)入 do_kern_addr_fault 分支去處理內(nèi)核空間的缺頁(yè)中斷。

當(dāng)引起缺頁(yè)中斷的虛擬內(nèi)存地址 address 是在 TASK_SIZE_MAX 之下時(shí),表示該缺頁(yè)地址是屬于用戶空間的,內(nèi)核則進(jìn)入 do_user_addr_fault 分支處理用戶空間的缺頁(yè)中斷。

static noinline void
__do_page_fault(struct pt_regs *regs, unsigned long hw_error_code,
        unsigned long address)
{
    // mmap_sem 是進(jìn)程虛擬內(nèi)存空間 mm_struct 的讀寫鎖
    // 內(nèi)核這里將 mmap_sem 預(yù)取到 cacheline 中,并標(biāo)記為獨(dú)占狀態(tài)( MESI 協(xié)議中的 X 狀態(tài))
    prefetchw(&current->mm->mmap_sem);

    // 這里判斷引起缺頁(yè)異常的虛擬內(nèi)存地址 address 是屬于內(nèi)核空間的還是用戶空間的
    if (unlikely(fault_in_kernel_space(address)))
        // 如果缺頁(yè)異常發(fā)生在內(nèi)核空間,則由 vmalloc_fault 進(jìn)行處理
        // 這里使用 unlikely 的原因是,內(nèi)核對(duì)內(nèi)存的使用通常是高優(yōu)先級(jí)的而且使用比較頻繁,所以內(nèi)核空間一般很少發(fā)生缺頁(yè)異常。
        do_kern_addr_fault(regs, hw_error_code, address);
    else
        // 缺頁(yè)異常發(fā)生在用戶態(tài)
        do_user_addr_fault(regs, hw_error_code, address);
}
NOKPROBE_SYMBOL(__do_page_fault);

進(jìn)程工作在內(nèi)核空間,就相當(dāng)于你工作在你們公司的核心部門,負(fù)責(zé)的是公司的核心業(yè)務(wù),公司所有的資源都會(huì)向核心部門傾斜,可以說(shuō)是要什么給什么。

進(jìn)程在內(nèi)核空間工作也是一樣的道理,由于內(nèi)核負(fù)責(zé)的是整個(gè)系統(tǒng)最為核心的任務(wù),基本上系統(tǒng)中所有的資源都會(huì)向內(nèi)核傾斜,物理內(nèi)存資源也是一樣。內(nèi)核對(duì)內(nèi)存的申請(qǐng)優(yōu)先級(jí)是最高的,使用頻率也是最頻繁的。

所以在為內(nèi)核分配完虛擬內(nèi)存之后,都會(huì)立即分配物理內(nèi)存,而且是申請(qǐng)多少給多少,最大程度上優(yōu)先保證內(nèi)核的工作穩(wěn)定進(jìn)行。因此通常在內(nèi)核中,缺頁(yè)中斷一般很少發(fā)生,這也是在上面那段內(nèi)核代碼中,用 unlikely 修飾 fault_in_kernel_space 函數(shù)的原因。

而進(jìn)程工作在用戶空間,就相當(dāng)于你工作在你們公司的非核心部門,負(fù)責(zé)的是公司的邊緣業(yè)務(wù),公司沒(méi)有那么多的資源提供給你,你在工作中需要申請(qǐng)的資源,公司不會(huì)馬上提供給你,而是需要延遲到?jīng)]有這些資源你的工作就無(wú)法進(jìn)行的時(shí)候(你真正必須使用的時(shí)候),公司迫不得已才會(huì)把資源分配給你。也就是說(shuō),你用到什么的時(shí)候才會(huì)給你什么,而不是像你在核心部門那樣,要什么就給你什么。

比如,筆者在前面兩篇文章中為大家介紹的 mmap 內(nèi)存映射,就是工作在進(jìn)程用戶地址空間中的文件映射與匿名映射區(qū),進(jìn)程在使用 mmap 申請(qǐng)內(nèi)存的時(shí)候,內(nèi)核僅僅只是為進(jìn)程在文件映射與匿名映射區(qū)分配一段虛擬內(nèi)存,重要的物理內(nèi)存資源不會(huì)馬上分配,而是延遲到進(jìn)程真正使用的時(shí)候,才會(huì)通過(guò)缺頁(yè)中斷 __do_page_fault 進(jìn)入到 do_user_addr_fault 分支進(jìn)行物理內(nèi)存資源的分配。

內(nèi)核空間中的缺頁(yè)異常主要發(fā)生在進(jìn)程內(nèi)核虛擬地址空間中 32T 的 vmalloc 映射區(qū),這段區(qū)域的虛擬內(nèi)存地址范圍為:0xFFFF C900 0000 0000 - 0xFFFF E900 0000 0000。內(nèi)核中的 vmalloc 內(nèi)存分配接口就工作在這個(gè)區(qū)域,它用于將那些不連續(xù)的物理內(nèi)存映射到連續(xù)的虛擬內(nèi)存上。

3. 內(nèi)核態(tài)缺頁(yè)異常處理 —— do_kern_addr_fault

do_kern_addr_fault 函數(shù)的工作主要就是處理內(nèi)核虛擬內(nèi)存空間中 vmalloc 映射區(qū)里的缺頁(yè)異常,這一部分內(nèi)容,筆者會(huì)在 vmalloc_fault 函數(shù)中進(jìn)行介紹。

static void
do_kern_addr_fault(struct pt_regs *regs, unsigned long hw_error_code,
           unsigned long address)
{
    // 該缺頁(yè)的內(nèi)核地址 address 在內(nèi)核頁(yè)表中對(duì)應(yīng)的 pte 不能使用保留位(X86_PF_RSVD = 0)
    // 不能是用戶態(tài)的缺頁(yè)中斷(X86_PF_USER = 0)
    // 且不能是保護(hù)類型的缺頁(yè)中斷 (X86_PF_PROT = 0)
    if (!(hw_error_code & (X86_PF_RSVD | X86_PF_USER | X86_PF_PROT))) {
        // 處理 vmalloc 映射區(qū)里的缺頁(yè)異常
        if (vmalloc_fault(address) >= 0)
            return;
    }
}  

讀到這里,大家可能會(huì)有一個(gè)疑惑,作者你剛剛不是才說(shuō)了嗎,工作在內(nèi)核就相當(dāng)于工作在公司的核心部門,要什么資源公司就會(huì)給什么資源,在內(nèi)核空間申請(qǐng)?zhí)摂M內(nèi)存的時(shí)候,都會(huì)馬上分配物理內(nèi)存資源,而且申請(qǐng)多少給多少。

既然物理內(nèi)存會(huì)馬上被分配,那為什么內(nèi)核空間中的 vmalloc 映射區(qū)還會(huì)發(fā)生缺頁(yè)中斷呢 ?

事實(shí)上,內(nèi)核空間里 vmalloc 映射區(qū)中發(fā)生的缺頁(yè)中斷與用戶空間里文件映射與匿名映射區(qū)以及堆中發(fā)生的缺頁(yè)中斷是不一樣的。

進(jìn)程在用戶空間中無(wú)論是通過(guò) brk 系統(tǒng)調(diào)用在堆中申請(qǐng)內(nèi)存還是通過(guò) mmap 系統(tǒng)調(diào)用在文件與匿名映射區(qū)中申請(qǐng)內(nèi)存,內(nèi)核都只是在相應(yīng)的虛擬內(nèi)存空間中劃分出一段虛擬內(nèi)存來(lái)給進(jìn)程使用。

當(dāng)進(jìn)程真正訪問(wèn)到這段虛擬內(nèi)存地址的時(shí)候,才會(huì)產(chǎn)生缺頁(yè)中斷,近而才會(huì)分配物理內(nèi)存,最后將引起本次缺頁(yè)的虛擬地址在進(jìn)程頁(yè)表中對(duì)應(yīng)的全局頁(yè)目錄項(xiàng) pgd,上層頁(yè)目錄項(xiàng) pud,中間頁(yè)目錄 pmd,頁(yè)表項(xiàng) pte 都創(chuàng)建好,然后在 pte 中將虛擬內(nèi)存地址與物理內(nèi)存地址映射起來(lái)。

而內(nèi)核通過(guò) vmalloc 內(nèi)存分配接口在 vmalloc 映射區(qū)申請(qǐng)內(nèi)存的時(shí)候,首先也會(huì)在 32T 大小的 vmalloc 映射區(qū)中劃分出一段未被使用的虛擬內(nèi)存區(qū)域出來(lái),我們暫且叫這段虛擬內(nèi)存區(qū)域?yàn)?vmalloc 區(qū),這一點(diǎn)和前面文章介紹的 mmap 非常相似,只不過(guò) mmap 工作在用戶空間的文件與匿名映射區(qū),vmalloc 工作在內(nèi)核空間的 vmalloc 映射區(qū)。

內(nèi)核空間中的 vmalloc 映射區(qū)就是由這樣一段一段的 vmalloc 區(qū)組成的,每調(diào)用一次 vmalloc 內(nèi)存分配接口,就會(huì)在 vmalloc 映射區(qū)中映射出一段 vmalloc 虛擬內(nèi)存區(qū)域,而且每個(gè) vmalloc 區(qū)之間隔著一個(gè) 4K 大小的 guard page(虛擬內(nèi)存),用于防止內(nèi)存越界,將這些非連續(xù)的物理內(nèi)存區(qū)域隔離起來(lái)。

和 mmap 不同的是,vmalloc 在分配完虛擬內(nèi)存之后,會(huì)馬上為這段虛擬內(nèi)存分配物理內(nèi)存,內(nèi)核會(huì)首先計(jì)算出由 vmalloc 內(nèi)存分配接口映射出的這一段虛擬內(nèi)存區(qū)域 vmalloc 區(qū)中包含的虛擬內(nèi)存頁(yè)數(shù),然后調(diào)用伙伴系統(tǒng)依次為這些虛擬內(nèi)存頁(yè)分配物理內(nèi)存頁(yè)。

3.1 vmalloc

下面是 vmalloc 內(nèi)存分配的核心邏輯,封裝在 __vmalloc_node_range 函數(shù)中:

/**
 * __vmalloc_node_range - allocate virtually contiguous memory
 * Allocate enough pages to cover @size from the page level
 * allocator with @gfp_mask flags.  Map them into contiguous
 * kernel virtual space, using a pagetable protection of @prot.
 *
 * Return: the address of the area or %NULL on failure
 */
void *__vmalloc_node_range(unsigned long size, unsigned long align,
            unsigned long start, unsigned long end, gfp_t gfp_mask,
            pgprot_t prot, unsigned long vm_flags, int node,
            const void *caller)
{
    // 用于描述 vmalloc 虛擬內(nèi)存區(qū)域的數(shù)據(jù)結(jié)構(gòu),同 mmap 中的 vma 結(jié)構(gòu)很相似
    struct vm_struct *area;
    // vmalloc 虛擬內(nèi)存區(qū)域的起始地址
    void *addr;
    unsigned long real_size = size;
    // size 為要申請(qǐng)的 vmalloc 虛擬內(nèi)存區(qū)域大小,這里需要按頁(yè)對(duì)齊
    size = PAGE_ALIGN(size);
    // 因?yàn)樵诜峙渫?vmalloc 區(qū)之后,馬上就會(huì)為其分配物理內(nèi)存
    // 所以這里需要檢查 size 大小不能超過(guò)當(dāng)前系統(tǒng)中的空閑物理內(nèi)存
    if (!size || (size >> PAGE_SHIFT) > totalram_pages())
        goto fail;

    // 在內(nèi)核空間的 vmalloc 動(dòng)態(tài)映射區(qū)中,劃分出一段空閑的虛擬內(nèi)存區(qū)域 vmalloc 區(qū)出來(lái)
    // 這里虛擬內(nèi)存的分配過(guò)程和 mmap 在用戶態(tài)文件與匿名映射區(qū)分配虛擬內(nèi)存的過(guò)程非常相似,這里就不做過(guò)多的介紹了。
    area = __get_vm_area_node(size, align, VM_ALLOC | VM_UNINITIALIZED |
                vm_flags, start, end, node, gfp_mask, caller);
    if (!area)
        goto fail;
    // 為 vmalloc 虛擬內(nèi)存區(qū)域中的每一個(gè)虛擬內(nèi)存頁(yè)分配物理內(nèi)存頁(yè)
    // 并在內(nèi)核頁(yè)表中將 vmalloc 區(qū)與物理內(nèi)存映射起來(lái)
    addr = __vmalloc_area_node(area, gfp_mask, prot, node);
    if (!addr)
        return NULL;

    return addr;
}

同 mmap 用 vm_area_struct 結(jié)構(gòu)來(lái)描述其在用戶空間的文件與匿名映射區(qū)分配出來(lái)的虛擬內(nèi)存區(qū)域一樣,內(nèi)核空間的 vmalloc 動(dòng)態(tài)映射區(qū)也有一種數(shù)據(jù)結(jié)構(gòu)來(lái)專門描述該區(qū)域中的虛擬內(nèi)存區(qū),這個(gè)結(jié)構(gòu)就是下面的 vm_struct。

// 用來(lái)描述 vmalloc 區(qū)
struct vm_struct {
    // vmalloc 動(dòng)態(tài)映射區(qū)中的所有虛擬內(nèi)存區(qū)域也都是被一個(gè)單向鏈表所串聯(lián)
    struct vm_struct    *next;
    // vmalloc 區(qū)的起始內(nèi)存地址
    void            *addr;
    // vmalloc 區(qū)的大小
    unsigned long       size;
    // vmalloc 區(qū)的相關(guān)標(biāo)記
    // VM_ALLOC 表示該區(qū)域是由 vmalloc 函數(shù)映射出來(lái)的
    // VM_MAP 表示該區(qū)域是由 vmap 函數(shù)映射出來(lái)的
    // VM_IOREMAP 表示該區(qū)域是由 ioremap 函數(shù)將硬件設(shè)備的內(nèi)存映射過(guò)來(lái)的
    unsigned long       flags;
    // struct page 結(jié)構(gòu)的數(shù)組指針,數(shù)組中的每一項(xiàng)指向該虛擬內(nèi)存區(qū)域背后映射的物理內(nèi)存頁(yè)。
    struct page     **pages;
    // 該虛擬內(nèi)存區(qū)域包含的物理內(nèi)存頁(yè)個(gè)數(shù)
    unsigned int        nr_pages;
    // ioremap 映射硬件設(shè)備物理內(nèi)存的時(shí)候填充
    phys_addr_t     phys_addr;
    // 調(diào)用者的返回地址(這里可忽略)
    const void      *caller;
};

由于內(nèi)核在分配完 vmalloc 虛擬內(nèi)存區(qū)之后,會(huì)馬上為其分配物理內(nèi)存,所以在 vm_struct 結(jié)構(gòu)中有一個(gè) struct page 結(jié)構(gòu)的數(shù)組指針 pages,用于指向該虛擬內(nèi)存區(qū)域背后映射的物理內(nèi)存頁(yè)。nr_pages 則是數(shù)組的大小,也表示該虛擬內(nèi)存區(qū)域包含的物理內(nèi)存頁(yè)個(gè)數(shù)。

在內(nèi)核中所有的這些 vm_struct 均是被一個(gè)單鏈表串聯(lián)組織的,在早期的內(nèi)核版本中就是通過(guò)遍歷這個(gè)單向鏈表來(lái)在 vmalloc 動(dòng)態(tài)映射區(qū)中尋找空閑的虛擬內(nèi)存區(qū)域的,后來(lái)為了提高查找效率引入了紅黑樹以及雙向鏈表來(lái)重新組織這些 vmalloc 區(qū)域,于是專門引入了一個(gè) vmap_area 結(jié)構(gòu)來(lái)描述 vmalloc 區(qū)域的組織形式。

struct vmap_area {
    // vmalloc 區(qū)的起始內(nèi)存地址
    unsigned long va_start;
    // vmalloc 區(qū)的結(jié)束內(nèi)存地址
    unsigned long va_end;
    // vmalloc 區(qū)所在紅黑樹中的節(jié)點(diǎn)
    struct rb_node rb_node;         /* address sorted rbtree */
    // vmalloc 區(qū)所在雙向鏈表中的節(jié)點(diǎn)
    struct list_head list;          /* address sorted list */
    // 用于關(guān)聯(lián) vm_struct 結(jié)構(gòu)
    struct vm_struct *vm;          
};

看起來(lái)和用戶空間中虛擬內(nèi)存區(qū)域的組織形式越來(lái)越像了,不同的是由于用戶空間是進(jìn)程間隔離的,所以組織用戶空間虛擬內(nèi)存區(qū)域的紅黑樹以及雙向鏈表是進(jìn)程獨(dú)占的。

struct mm_struct {
     struct vm_area_struct *mmap;  /* list of VMAs */
     struct rb_root mm_rb;
}

而內(nèi)核空間是所有進(jìn)程共享的,所以組織內(nèi)核空間虛擬內(nèi)存區(qū)域的紅黑樹以及雙向鏈表是全局的。

static struct rb_root vmap_area_root = RB_ROOT;
extern struct list_head vmap_area_list;

在我們了解了 vmalloc 動(dòng)態(tài)映射區(qū)中的相關(guān)數(shù)據(jù)結(jié)構(gòu)與組織形式之后,接下來(lái)我們看一看為 vmalloc 區(qū)分配物理內(nèi)存的過(guò)程:

static void *__vmalloc_area_node(struct vm_struct *area, gfp_t gfp_mask,
                 pgprot_t prot, int node)
{
    // 指向即將為 vmalloc 區(qū)分配的物理內(nèi)存頁(yè)
    struct page **pages;
    unsigned int nr_pages, array_size, i;

    // 計(jì)算 vmalloc 區(qū)所需要的虛擬內(nèi)存頁(yè)個(gè)數(shù)
    nr_pages = get_vm_area_size(area) >> PAGE_SHIFT;
    // vm_struct 結(jié)構(gòu)中的 pages 數(shù)組大小,用于存放指向每個(gè)物理內(nèi)存頁(yè)的指針
    array_size = (nr_pages * sizeof(struct page *));

    // 首先要為 pages 數(shù)組分配內(nèi)存
    if (array_size > PAGE_SIZE) {
        // array_size 超過(guò) PAGE_SIZE 大小則遞歸調(diào)用 vmalloc 分配數(shù)組所需內(nèi)存
        pages = __vmalloc_node(array_size, 1, nested_gfp|highmem_mask,
                PAGE_KERNEL, node, area->caller);
    } else {
        // 直接調(diào)用 kmalloc 分配數(shù)組所需內(nèi)存
        pages = kmalloc_node(array_size, nested_gfp, node);
    }

    // 初始化 vm_struct
    area->pages = pages;
    area->nr_pages = nr_pages;

    // 依次為 vmalloc 區(qū)中包含的所有虛擬內(nèi)存頁(yè)分配物理內(nèi)存
    for (i = 0; i < area->nr_pages; i++) {
        struct page *page;

        if (node == NUMA_NO_NODE)
            // 如果沒(méi)有特殊指定 numa node,則從當(dāng)前 numa node 中分配物理內(nèi)存頁(yè)
            page = alloc_page(alloc_mask|highmem_mask);
        else
            // 否則就從指定的 numa node 中分配物理內(nèi)存頁(yè)
            page = alloc_pages_node(node, alloc_mask|highmem_mask, 0);
        // 將分配的物理內(nèi)存頁(yè)依次存放到 vm_struct 結(jié)構(gòu)中的 pages 數(shù)組中
        area->pages[i] = page;
    }
    
    atomic_long_add(area->nr_pages, &nr_vmalloc_pages);
    // 修改內(nèi)核主頁(yè)表,將剛剛分配出來(lái)的所有物理內(nèi)存頁(yè)與 vmalloc 虛擬內(nèi)存區(qū)域進(jìn)行映射
    if (map_vm_area(area, prot, pages))
        goto fail;
    // 返回 vmalloc 虛擬內(nèi)存區(qū)域起始地址
    return area->addr;
}

在內(nèi)核中,凡是有物理內(nèi)存出現(xiàn)的地方,就一定伴隨著頁(yè)表的映射,vmalloc 也不例外,當(dāng)分配完物理內(nèi)存之后,就需要修改內(nèi)核頁(yè)表,然后將物理內(nèi)存映射到 vmalloc 虛擬內(nèi)存區(qū)域中,當(dāng)然了,這個(gè)過(guò)程也伴隨著 vmalloc 區(qū)域中的這些虛擬內(nèi)存地址在內(nèi)核頁(yè)表中對(duì)應(yīng)的 pgd,pud,pmd,pte 相關(guān)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)的創(chuàng)建。

大家需要注意的是,這里的內(nèi)核頁(yè)表指的是內(nèi)核主頁(yè)表,內(nèi)核主頁(yè)表的*頁(yè)目錄起始地址存放在 init_mm 結(jié)構(gòu)中的 pgd 屬性中,其值為 swapper_pg_dir。

struct mm_struct init_mm = {
   // 內(nèi)核主頁(yè)表
  .pgd    = swapper_pg_dir,
}

#define swapper_pg_dir init_top_pgt

內(nèi)核主頁(yè)表在系統(tǒng)初始化的時(shí)候被一段匯編代碼 arch\x86\kernel\head_64.S 所創(chuàng)建。后續(xù)在系統(tǒng)啟動(dòng)函數(shù) start_kernel 中調(diào)用 setup_arch 進(jìn)行初始化。

正如之前文章《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》?中介紹的那樣,普通進(jìn)程在內(nèi)核態(tài)亦或是內(nèi)核線程都是無(wú)法直接訪問(wèn)內(nèi)核主頁(yè)表的,它們只能訪問(wèn)內(nèi)核主頁(yè)表的 copy 副本,于是進(jìn)程頁(yè)表體系就分為了兩個(gè)部分,一個(gè)是進(jìn)程用戶態(tài)頁(yè)表(用戶態(tài)缺頁(yè)處理的就是這部分),另一個(gè)就是內(nèi)核頁(yè)表的 copy 部分(內(nèi)核態(tài)缺頁(yè)處理的是這部分)。

在 fork 系統(tǒng)調(diào)用創(chuàng)建進(jìn)程的時(shí)候,進(jìn)程的用戶態(tài)頁(yè)表拷貝自他的父進(jìn)程,而進(jìn)程的內(nèi)核態(tài)頁(yè)表則從內(nèi)核主頁(yè)表中拷貝,后續(xù)進(jìn)程陷入內(nèi)核態(tài)之后,訪問(wèn)的就是內(nèi)核主頁(yè)表中拷貝的這部分。

這也引出了一個(gè)新的問(wèn)題,就是內(nèi)核主頁(yè)表與其在進(jìn)程中的拷貝副本如何同步呢 ? 這就是本小節(jié),筆者想要和大家交代的主題 —— 內(nèi)核態(tài)缺頁(yè)異常的處理。

3.2 vmalloc_fault

當(dāng)內(nèi)核通過(guò) vmalloc 內(nèi)存分配接口修改完內(nèi)核主頁(yè)表之后,主頁(yè)表中的相關(guān)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)的內(nèi)容就發(fā)生了改變,而這背后的一切,進(jìn)程現(xiàn)在還被蒙在鼓里,一無(wú)所知,此時(shí),進(jìn)程頁(yè)表中的內(nèi)核部分相關(guān)的頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)還都是空的。

當(dāng)進(jìn)程陷入內(nèi)核態(tài)訪問(wèn)這部分頁(yè)表的的時(shí)候,會(huì)發(fā)現(xiàn)相關(guān)頁(yè)目錄或者頁(yè)表項(xiàng)是空的,就會(huì)進(jìn)入缺頁(yè)中斷的內(nèi)核處理部分,也就是前面提到的 vmalloc_fault 函數(shù)中,如果發(fā)現(xiàn)缺頁(yè)的虛擬地址在內(nèi)核主頁(yè)表*全局頁(yè)目錄表中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pgd 存在,而缺頁(yè)地址在進(jìn)程頁(yè)表內(nèi)核部分對(duì)應(yīng)的 pgd 不存在,那么內(nèi)核就會(huì)把內(nèi)核主頁(yè)表中 pgd 頁(yè)目錄項(xiàng)里的內(nèi)容復(fù)制給進(jìn)程頁(yè)表內(nèi)核部分中對(duì)應(yīng)的 pgd。

事實(shí)上,同步內(nèi)核主頁(yè)表的工作只需要將缺頁(yè)地址對(duì)應(yīng)在內(nèi)核主頁(yè)表中的*全局頁(yè)目錄項(xiàng) pgd 同步到進(jìn)程頁(yè)表內(nèi)核部分對(duì)應(yīng)的 pgd 地址處就可以了,正如上圖中所示,每一級(jí)的頁(yè)目錄項(xiàng)中存放的均是其下一級(jí)頁(yè)目錄表的物理內(nèi)存地址。

例如內(nèi)核主頁(yè)表這里的 pgd 存放的是其下一級(jí) —— 上層頁(yè)目錄 PUD 的起始物理內(nèi)存地址 ,PUD 中的頁(yè)目錄項(xiàng) pud 又存放的是其下一級(jí) —— 中間頁(yè)目錄 PMD 的起始物理內(nèi)存地址,依次類推,中間頁(yè)目錄項(xiàng) pmd 存放的又是頁(yè)表的起始物理內(nèi)存地址。

既然每一級(jí)頁(yè)目錄表中的頁(yè)目錄項(xiàng)存放的都是其下一級(jí)頁(yè)目錄表的起始物理內(nèi)存地址,那么頁(yè)目錄項(xiàng)中存放的就相當(dāng)于是下一級(jí)頁(yè)目錄表的引用,這樣一來(lái)我們就只需要同步最*的頁(yè)目錄項(xiàng) pgd 就可以了,后面只要與該 pgd 相關(guān)的頁(yè)目錄表以及頁(yè)表發(fā)生任何變化,由于是引用的關(guān)系,這些改變都會(huì)立刻自動(dòng)反應(yīng)到進(jìn)程頁(yè)表的內(nèi)核部分中,后面就不需要同步了。

/*
 * 64-bit:
 *
 *   Handle a fault on the vmalloc area
 */
static noinline int vmalloc_fault(unsigned long address)
{
    // 分別是缺頁(yè)虛擬地址 address 對(duì)應(yīng)在內(nèi)核主頁(yè)表的全局頁(yè)目錄項(xiàng) pgd_k ,以及進(jìn)程頁(yè)表中對(duì)應(yīng)的全局頁(yè)目錄項(xiàng) pgd
    pgd_t *pgd, *pgd_k;
    // p4d_t 用于五級(jí)頁(yè)表體系,當(dāng)前 cpu 架構(gòu)體系下一般采用的是四級(jí)頁(yè)表
    // 在四級(jí)頁(yè)表下 p4d 是空的,pgd 的值會(huì)賦值給 p4d
    p4d_t *p4d, *p4d_k;
    // 缺頁(yè)虛擬地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表中的上層目錄項(xiàng) pud
    pud_t *pud;
    // 缺頁(yè)虛擬地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表中的中間目錄項(xiàng) pmd
    pmd_t *pmd;
    // 缺頁(yè)虛擬地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表中的頁(yè)表項(xiàng) pte
    pte_t *pte;

    // 確保缺頁(yè)發(fā)生在內(nèi)核 vmalloc 動(dòng)態(tài)映射區(qū)
    if (!(address >= VMALLOC_START && address < VMALLOC_END))
        return -1;

    // 獲取缺頁(yè)虛擬地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表的全局頁(yè)目錄項(xiàng) pgd
    pgd = (pgd_t *)__va(read_cr3_pa()) + pgd_index(address);
    // 獲取缺頁(yè)虛擬地址 address 對(duì)應(yīng)在內(nèi)核主頁(yè)表的全局頁(yè)目錄項(xiàng) pgd_k
    pgd_k = pgd_offset_k(address);

    // 如果內(nèi)核主頁(yè)表中的 pgd_k 本來(lái)就是空的,說(shuō)明 address 是一個(gè)非法訪問(wèn)的地址,返回 -1 
    if (pgd_none(*pgd_k))
        return -1;

    // 如果開啟了五級(jí)頁(yè)表,那么*頁(yè)表就是 pgd,這里只需要同步*頁(yè)表項(xiàng)就可以了
    if (pgtable_l5_enabled()) {
        // 內(nèi)核主頁(yè)表中的 pgd_k 不為空,進(jìn)程頁(yè)表中的 pgd 為空,那么就同步頁(yè)表
        if (pgd_none(* )) {
            // 將主內(nèi)核頁(yè)表中的 pgd_k 內(nèi)容復(fù)制給進(jìn)程頁(yè)表對(duì)應(yīng)的 pgd
            set_pgd(pgd, *pgd_k);
            // 刷新 mmu
            arch_flush_lazy_mmu_mode();
        } else {
            BUG_ON(pgd_page_vaddr(*pgd) != pgd_page_vaddr(*pgd_k));
        }
    }

    // 四級(jí)頁(yè)表體系下,p4d 是*頁(yè)表項(xiàng),同樣也是只需要同步*頁(yè)表項(xiàng)即可,同步邏輯和五級(jí)頁(yè)表一模一樣
    // 因?yàn)槭撬募?jí)頁(yè)表,所以這里會(huì)將 pgd 賦值給 p4d,p4d_k ,后面就直接把 p4d 看做是*頁(yè)表了。
    p4d = p4d_offset(pgd, address);
    p4d_k = p4d_offset(pgd_k, address);
    // 內(nèi)核主頁(yè)表為空,則停止同步,返回 -1 ,表示正在訪問(wèn)一個(gè)非法地址
    if (p4d_none(*p4d_k))
        return -1;
    // 內(nèi)核主頁(yè)表不為空,進(jìn)程頁(yè)表為空,則同步內(nèi)核*頁(yè)表項(xiàng) p4d_k 到進(jìn)程頁(yè)表對(duì)應(yīng)的 p4d 中,然后刷新 mmu
    if (p4d_none(*p4d) && !pgtable_l5_enabled()) {
        set_p4d(p4d, *p4d_k);
        arch_flush_lazy_mmu_mode();
    } else {
        BUG_ON(p4d_pfn(*p4d) != p4d_pfn(*p4d_k));
    }

    // 到這里,頁(yè)表的同步工作就完成了,下面代碼用于檢查內(nèi)核地址 address 在進(jìn)程頁(yè)表內(nèi)核部分中是否有物理內(nèi)存進(jìn)行映射
    // 如果沒(méi)有,則返回 -1 ,說(shuō)明進(jìn)程在訪問(wèn)一個(gè)非法的內(nèi)核地址,進(jìn)程隨后會(huì)被 kill 掉
    // 返回 0 表示表示地址 address 背后是有物理內(nèi)存映射的, vmalloc 動(dòng)態(tài)映射區(qū)的缺頁(yè)處理到此結(jié)束。

    // 根據(jù)*頁(yè)目錄項(xiàng) p4d 獲取 address 在進(jìn)程頁(yè)表中對(duì)應(yīng)的上層頁(yè)目錄項(xiàng) pud
    pud = pud_offset(p4d, address);
    if (pud_none(*pud))
        return -1;
    // 該 pud 指向的是 1G 大頁(yè)內(nèi)存
    if (pud_large(*pud))
        return 0;
     // 根據(jù) pud 獲取 address 在進(jìn)程頁(yè)表中對(duì)應(yīng)的中間頁(yè)目錄項(xiàng) pmd
    pmd = pmd_offset(pud, address);
    if (pmd_none(*pmd))
        return -1;
    // 該 pmd 指向的是 2M 大頁(yè)內(nèi)存
    if (pmd_large(*pmd))
        return 0;
    // 根據(jù) pmd 獲取 address 對(duì)應(yīng)的頁(yè)表項(xiàng) pte
    pte = pte_offset_kernel(pmd, address);
    // 頁(yè)表項(xiàng) pte 并沒(méi)有映射物理內(nèi)存
    if (!pte_present(*pte))
        return -1;

    return 0;
}
NOKPROBE_SYMBOL(vmalloc_fault);

在我們聊完內(nèi)核主頁(yè)表的同步過(guò)程之后,可能很多讀者朋友不禁要問(wèn),既然已經(jīng)有了內(nèi)核主頁(yè)表,而且內(nèi)核地址空間包括內(nèi)核頁(yè)表又是所有進(jìn)程共享的,那進(jìn)程為什么不能直接訪問(wèn)內(nèi)核主頁(yè)表而是要訪問(wèn)主頁(yè)表的拷貝部分呢 ? 這樣還能省去拷貝內(nèi)核主頁(yè)表(fork 時(shí)候)以及同步內(nèi)核主頁(yè)表(缺頁(yè)時(shí)候)這些個(gè)開銷。

之所以這樣設(shè)計(jì)一方面有硬件限制的原因,畢竟每個(gè) CPU 核心只會(huì)有一個(gè) CR3 寄存器來(lái)存放進(jìn)程頁(yè)表的*頁(yè)目錄起始物理內(nèi)存地址,沒(méi)辦法同時(shí)存放進(jìn)程頁(yè)表和內(nèi)核主頁(yè)表。

另一方面的原因則是操作頁(yè)表都是需要對(duì)其進(jìn)行加鎖的,無(wú)論是操作進(jìn)程頁(yè)表還是內(nèi)核主頁(yè)表。而且在操作頁(yè)表的過(guò)程中可能會(huì)涉及到物理內(nèi)存的分配,這也會(huì)引起進(jìn)程的阻塞。

而進(jìn)程本身可能處于中斷上下文以及競(jìng)態(tài)區(qū)中,不能加鎖,也不能被阻塞,如果直接對(duì)內(nèi)核主頁(yè)表加鎖的話,那么系統(tǒng)中的其他進(jìn)程就只能阻塞等待了。所以只能而且必須是操作主內(nèi)核頁(yè)表的拷貝,不能直接操作內(nèi)核主頁(yè)表。

好了,該向大家交代的現(xiàn)在都已經(jīng)交代完了,我們閑話不多說(shuō),繼續(xù)本文的主題內(nèi)容~~~

4. 用戶態(tài)缺頁(yè)異常處理 —— do_user_addr_fault

進(jìn)程用戶態(tài)虛擬地址空間的布局我們現(xiàn)在已經(jīng)非常熟悉了,在處理用戶態(tài)缺頁(yè)異常之前,內(nèi)核需要在進(jìn)程用戶空間眾多的虛擬內(nèi)存區(qū)域 vma 之中找到引起缺頁(yè)的內(nèi)存地址 address 究竟是屬于哪一個(gè) vma 。如果沒(méi)有一個(gè) vma 能夠包含 address , 那么就說(shuō)明該 address 是一個(gè)還未被分配的虛擬內(nèi)存地址,進(jìn)程對(duì)該地址的訪問(wèn)是非法的,自然也就不用處理缺頁(yè)了。

所以內(nèi)核就需要根據(jù)缺頁(yè)地址 address 通過(guò) find_vma 函數(shù)在進(jìn)程地址空間中找出符合 address < vma->vm_end 條件的第一個(gè) vma 出來(lái),也就是挨著 address 最近的一個(gè) vma。

而缺頁(yè)地址 address 可以出現(xiàn)在進(jìn)程地址空間中的任意位置,根據(jù) address 的分布會(huì)有下面三種情況:

第一種情況就是 address 的后面沒(méi)有一個(gè) vma 出現(xiàn),也就是說(shuō)進(jìn)程地址空間中沒(méi)有一個(gè) vma 符合條件:address < vma->vm_end。進(jìn)程訪問(wèn)的是一個(gè)還未分配的虛擬內(nèi)存地址,屬于非法地址訪問(wèn),不需要處理缺頁(yè)。

第二種情況就是 address 恰巧包含在一個(gè) vma 中,這個(gè)自然是正常情況,內(nèi)核開始處理該 vma 區(qū)域的缺頁(yè)異常。

第三種情況是 address 不巧落在了 find_vma 的前面,也就是 address < find_vma->vm_start。這種情況自然也是非法地址訪問(wèn),不需要處理缺頁(yè)。

但是這里有一種特殊情況就是萬(wàn)一這個(gè) find_vma 是棧區(qū)怎么辦呢 ? 棧是允許擴(kuò)展的但不允許收縮,如果壓棧指令 push 引用了一個(gè)棧區(qū)之外的地址 address,這種異常不是由程序錯(cuò)誤所引起的,因此缺頁(yè)處理程序需要單獨(dú)處理?xiàng)^(qū)的擴(kuò)展。

如果 find_vma 中的 vm_flags 標(biāo)記了 VM_GROWSDOWN,表示該 vma 中的地址增長(zhǎng)方向是由高到底了,說(shuō)明這個(gè) vma 可能是棧區(qū)域,近而需要到 expand_stack 函數(shù)中判斷是否允許擴(kuò)展棧,如果允許的話,就將棧所屬的 vma 起始地址 vm_start 擴(kuò)展至 address 處。

現(xiàn)在我們已經(jīng)校驗(yàn)完了 vma,并確定了缺頁(yè)地址 address 是一個(gè)合法的地址,下面就可以放心地調(diào)用 handle_mm_fault 函數(shù)對(duì)這塊 vma 進(jìn)行缺頁(yè)處理了。

/* Handle faults in the user portion of the address space */
static inline
void do_user_addr_fault(struct pt_regs *regs,
            unsigned long hw_error_code,
            unsigned long address)
{
    struct vm_area_struct *vma;
    struct task_struct *tsk;
    struct mm_struct *mm;
 
    tsk = current;
    mm = tsk->mm;

       .............. 省略 ..............

    // 在進(jìn)程虛擬地址空間查找第一個(gè)符合條件:address < vma->vm_end 的虛擬內(nèi)存區(qū)域 vma
    vma = find_vma(mm, address);
    // 如果該缺頁(yè)地址 address 后面沒(méi)有 vma 跳轉(zhuǎn)到 bad_area 處理異常
    if (unlikely(!vma)) {
        bad_area(regs, hw_error_code, address);
        return;
    }
    // 缺頁(yè)地址 address 恰好落在一個(gè) vma 中,跳轉(zhuǎn)到 good_area 處理 vma 中的缺頁(yè)
    if (likely(vma->vm_start <= address))
        goto good_area;
    // 上面第三種情況,vma 不是棧區(qū),跳轉(zhuǎn)到 bad_area
    if (unlikely(!(vma->vm_flags & VM_GROWSDOWN))) {
        bad_area(regs, hw_error_code, address);
        return;
    }
    // vma 是棧區(qū),嘗試擴(kuò)展棧區(qū)到 address 地址處
    if (unlikely(expand_stack(vma, address))) {
        bad_area(regs, hw_error_code, address);
        return;
    }

    /*
     * Ok, we have a good vm_area for this memory access, so
     * we can handle it..
     */
good_area:
    // 處理 vma 區(qū)域的缺頁(yè)異常,返回值 fault 是一個(gè)位圖,用于描述缺頁(yè)處理過(guò)程中發(fā)生的狀況信息。
    fault = handle_mm_fault(vma, address, flags);
    // 本次缺頁(yè)是否屬于 VM_FAULT_MAJOR,缺頁(yè)處理過(guò)程中是否發(fā)生了物理內(nèi)存的分配以及磁盤 IO
    // 與其對(duì)應(yīng)的是 VM_FAULT_MINOR 表示缺頁(yè)處理過(guò)程中所需內(nèi)存頁(yè)已經(jīng)存在于內(nèi)存中了,只是修改頁(yè)表即可。
    major |= fault & VM_FAULT_MAJOR;

    /*
     * Major/minor page fault accounting. If any of the events
     * returned VM_FAULT_MAJOR, we account it as a major fault.
     */
    if (major) {
        // 統(tǒng)計(jì)進(jìn)程總共發(fā)生的 VM_FAULT_MAJOR 次數(shù)
        tsk->maj_flt++;
        perf_sw_event(PERF_COUNT_SW_PAGE_FAULTS_MAJ, 1, regs, address);
    } else {
        // 統(tǒng)計(jì)進(jìn)程總共發(fā)生的 VM_FAULT_MINOR 次數(shù)
        tsk->min_flt++;
        perf_sw_event(PERF_COUNT_SW_PAGE_FAULTS_MIN, 1, regs, address);
    }

}
NOKPROBE_SYMBOL(do_user_addr_fault);

handle_mm_fault 函數(shù)會(huì)返回一個(gè) unsigned int 類型的位圖 vm_fault_t,通過(guò)這個(gè)位圖可以簡(jiǎn)要描述一下在整個(gè)缺頁(yè)異常處理的過(guò)程中究竟發(fā)生了哪些狀況,方便內(nèi)核對(duì)各種狀況進(jìn)行針對(duì)性處理。

/**
 * Page fault handlers return a bitmask of %VM_FAULT values.
 */
typedef __bitwise unsigned int vm_fault_t;

比如,位圖 vm_fault_t 的第三個(gè)比特位置為 1 表示 VM_FAULT_MAJOR,置為 0 表示 VM_FAULT_MINOR。

enum vm_fault_reason {
	VM_FAULT_MAJOR          = (__force vm_fault_t)0x000004,
};

VM_FAULT_MAJOR 的意思是本次缺頁(yè)所需要的物理內(nèi)存頁(yè)還不在內(nèi)存中,需要重新分配以及需要啟動(dòng)磁盤 IO,從磁盤中 swap in 進(jìn)來(lái)。

VM_FAULT_MINOR 的意思是本次缺頁(yè)所需要的物理內(nèi)存頁(yè)已經(jīng)加載進(jìn)內(nèi)存中了,缺頁(yè)處理只需要修改頁(yè)表重新映射一下就可以了。

我們來(lái)看一個(gè)具體的例子,筆者在之前的文章?《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)(原理篇)》中為大家介紹多個(gè)進(jìn)程調(diào)用 mmap 對(duì)磁盤上的同一個(gè)文件進(jìn)行共享文件映射的時(shí)候,此時(shí)在各個(gè)進(jìn)程的地址空間中都只是各自分配了一段虛擬內(nèi)存用于共享文件映射而已,還沒(méi)有分配物理內(nèi)存頁(yè)。

當(dāng)?shù)谝粋€(gè)進(jìn)程開始訪問(wèn)這段虛擬內(nèi)存映射區(qū)時(shí),由于沒(méi)有物理內(nèi)存頁(yè),頁(yè)表還是空的,于是產(chǎn)生缺頁(yè)中斷,內(nèi)核則會(huì)在伙伴系統(tǒng)中分配一個(gè)物理內(nèi)存頁(yè),然后將新分配的內(nèi)存頁(yè)加入到 page cache 中。

然后調(diào)用 readpage 激活塊設(shè)備驅(qū)動(dòng)從磁盤中讀取映射的文件內(nèi)容,用讀取到的內(nèi)容填充新分配的內(nèi)存頁(yè),最后在進(jìn)程 1 頁(yè)表中建立共享映射的這段虛擬內(nèi)存與 page cache 中緩存的文件頁(yè)之間的關(guān)聯(lián)。

由于進(jìn)程 1 的缺頁(yè)處理發(fā)生了物理內(nèi)存的分配以及磁盤 IO ,所以本次缺頁(yè)處理屬于 VM_FAULT_MAJOR。

當(dāng)進(jìn)程 2 訪問(wèn)其地址空間中映射的這段虛擬內(nèi)存時(shí),由于頁(yè)表是空的,也會(huì)發(fā)生缺頁(yè),但是當(dāng)進(jìn)程 2 進(jìn)入內(nèi)核中發(fā)現(xiàn)所映射的文件頁(yè)已經(jīng)被進(jìn)程 1 加載進(jìn) page cache 中了,進(jìn)程 2 的缺頁(yè)處理只需要將這個(gè)文件頁(yè)映射進(jìn)自己的頁(yè)表就可以了,不需要重新分配內(nèi)存以及發(fā)生磁盤 IO 。這種情況就屬于 VM_FAULT_MINOR。

最后需要將進(jìn)程總共發(fā)生的 VM_FAULT_MAJOR 次數(shù)以及 VM_FAULT_MINOR 次數(shù)統(tǒng)計(jì)到進(jìn)程 task_struct 結(jié)構(gòu)中的相應(yīng)字段中:

struct task_struct {
    // 進(jìn)程總共發(fā)生的 VM_FAULT_MINOR 次數(shù)
    unsigned long           min_flt;
     // 進(jìn)程總共發(fā)生的 VM_FAULT_MAJOR 次數(shù)
    unsigned long           maj_flt;
}

我們可以在 ps 命令上增加 -o 選項(xiàng),添加 maj_flt ,min_flt 數(shù)據(jù)列來(lái)查看各個(gè)進(jìn)程的 VM_FAULT_MAJOR 次數(shù)和 VM_FAULT_MINOR 次數(shù)。

5. handle_mm_fault 完善進(jìn)程頁(yè)表體系

饒了一大圈,現(xiàn)在我們終于來(lái)到了缺頁(yè)處理的核心邏輯,之前筆者提到,引起缺頁(yè)中斷的原因大概有三種:

  • 第一種是 CPU 訪問(wèn)的虛擬內(nèi)存地址 address 之前完全沒(méi)有被映射過(guò),其在頁(yè)表中對(duì)應(yīng)的各級(jí)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)都還是空的。

  • 第二種是 address 之前被映射過(guò),但是映射的這塊物理內(nèi)存被內(nèi)核 swap out 到磁盤上了。

  • 第三種是 address 背后映射的物理內(nèi)存還在,只是由于訪問(wèn)權(quán)限不夠引起的缺頁(yè)中斷,比如,后面要為大家介紹的寫時(shí)復(fù)制(COW)機(jī)制就屬于這一種。

下面筆者一種接一種的帶大家一起梳理,我們先來(lái)看第一種情況:

由于現(xiàn)在正在被訪問(wèn)的虛擬內(nèi)存地址 address 之前從來(lái)沒(méi)有被映射過(guò),所以該虛擬內(nèi)存地址在進(jìn)程頁(yè)表中的各級(jí)頁(yè)目錄表中的目錄項(xiàng)以及頁(yè)表中的頁(yè)表項(xiàng)都是空的。內(nèi)核的首要任務(wù)就是先要將這些缺失的頁(yè)目錄項(xiàng)和頁(yè)表項(xiàng)一一補(bǔ)齊。

筆者在之前的文章《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》?中曾為大家介紹過(guò),在當(dāng)前 64 位體系架構(gòu)下,其實(shí)只使用了 48 位來(lái)描述進(jìn)程的虛擬內(nèi)存空間,其中用戶態(tài)地址空間 128T,內(nèi)核態(tài)地址空間 128T,所以我們只需要使用 48 位的虛擬內(nèi)存地址就可以表示進(jìn)程虛擬內(nèi)存空間中的任意地址了。

而這 48 位的虛擬內(nèi)存地址內(nèi)又分為五個(gè)部分,它們分別是虛擬內(nèi)存地址在全局頁(yè)目錄表 PGD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pgd_t 的偏移,在上層頁(yè)目錄表 PUD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pud_t 的偏移,在中間頁(yè)目錄表 PMD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd_t 的偏移,在頁(yè)表中對(duì)應(yīng)的頁(yè)表項(xiàng) pte_t 的偏移,以及在其背后映射的物理內(nèi)存頁(yè)中的偏移。

內(nèi)核中使用 unsigned long 類型來(lái)表示各級(jí)頁(yè)目錄中的目錄項(xiàng)以及頁(yè)表中的頁(yè)表項(xiàng),在 64 位系統(tǒng)中它們都是占用 8 字節(jié)。

// 定義在內(nèi)核文件:/arch/x86/include/asm/pgtable_64_types.h
typedef unsigned long pteval_t;
typedef unsigned long pmdval_t;
typedef unsigned long pudval_t;
typedef unsigned long pgdval_t;

typedef struct { pteval_t pte; } pte_t;

// 定義在內(nèi)核文件:/arch/x86/include/asm/pgtable_types.h
typedef struct { pmdval_t pmd; } pmd_t;
typedef struct { pudval_t pud; } pud_t;
typedef struct { pgdval_t pgd; } pgd_t;

而各級(jí)頁(yè)目錄表以及頁(yè)表在內(nèi)核中其實(shí)本質(zhì)上都是一個(gè) 4K 物理內(nèi)存頁(yè),只不過(guò)這些物理內(nèi)存頁(yè)存放的內(nèi)容比較特殊,它們存放的是頁(yè)目錄項(xiàng)和頁(yè)表項(xiàng)。一張頁(yè)目錄表可以存放 512 個(gè)頁(yè)目錄項(xiàng),一張頁(yè)表可以存放 512 個(gè)頁(yè)表項(xiàng)

// 全局頁(yè)目錄表 PGD 可以容納的頁(yè)目錄項(xiàng) pgd_t 的個(gè)數(shù)
#define PTRS_PER_PGD  512
// 上層頁(yè)目錄表 PUD 可以容納的頁(yè)目錄項(xiàng) pud_t 的個(gè)數(shù)
#define PTRS_PER_PUD  512
// 中間頁(yè)目錄表 PMD 可以容納的頁(yè)目錄項(xiàng) pmd_t 的個(gè)數(shù)
#define PTRS_PER_PMD  512
// 頁(yè)表可以容納的頁(yè)表項(xiàng) pte_t 的個(gè)數(shù)
#define PTRS_PER_PTE  512

因此我們可以把全局頁(yè)目錄表 PGD 看做是一個(gè)能夠存放 512 個(gè) pgd_t 的數(shù)組 —— pgd_t[PTRS_PER_PGD],虛擬內(nèi)存地址對(duì)應(yīng)在 pgd_t[PTRS_PER_PGD] 數(shù)組中的索引使用 9 個(gè)比特位就可以表示了。

在內(nèi)核中使用 pgd_offset 函數(shù)來(lái)定位虛擬內(nèi)存地址在全局頁(yè)目錄表 PGD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pgd_t,這個(gè)過(guò)程和訪問(wèn)數(shù)組一模一樣,事實(shí)上整個(gè) PGD 就是一個(gè) pgd_t[PTRS_PER_PGD] 數(shù)組。

首先我們通過(guò) mm_struct-> pgd 獲取 pgd_t[PTRS_PER_PGD] 數(shù)組的首地址(全局頁(yè)目錄表 PGD 的起始內(nèi)存地址),然后將虛擬內(nèi)存地址右移 PGDIR_SHIFT(39)位再用掩碼 PTRS_PER_PGD - 1 將高位全部掩去,只保留低 9 位得到虛擬內(nèi)存地址在 pgd_t[PTRS_PER_PGD] 數(shù)組中的索引偏移 pgd_index。

然后將 mm_struct-> pgd 與 pgd_index 相加就可以定位到虛擬內(nèi)存地址在全局頁(yè)目錄表 PGD 中的頁(yè)目錄項(xiàng) pgd_t 了。

/*
 * a shortcut to get a pgd_t in a given mm
 */
#define pgd_offset(mm, address) pgd_offset_pgd((mm)->pgd, (address))

#define pgd_offset_pgd(pgd, address) (pgd + pgd_index((address)))

#define pgd_index(address) (((address) >> PGDIR_SHIFT) & (PTRS_PER_PGD - 1))

#define PGDIR_SHIFT		39
#define PTRS_PER_PGD		512

在后續(xù)即將要介紹的源碼實(shí)現(xiàn)中,大家還會(huì)看到一個(gè) p4d 的頁(yè)目錄,該頁(yè)目錄用于在五級(jí)頁(yè)表體系下表示四級(jí)頁(yè)目錄。

typedef unsigned long	p4dval_t;
typedef struct { p4dval_t p4d; } p4d_t;

而在四級(jí)頁(yè)表體系下,這個(gè) p4d 就不起作用了,但為了代碼上的統(tǒng)一處理,在四級(jí)頁(yè)表下,前面定位到的*頁(yè)目錄項(xiàng) pgd_t 會(huì)賦值給四級(jí)頁(yè)目錄項(xiàng) p4d_t,后續(xù)處理都會(huì)將 p4d_t 看做是*頁(yè)目錄項(xiàng),這一點(diǎn)需要和大家在這里先提前交代清楚。

static inline p4d_t *p4d_offset(pgd_t *pgd, unsigned long address)
{
    if (!pgtable_l5_enabled())
        // 四級(jí)頁(yè)表體系下,p4d_t 其實(shí)就是*頁(yè)目錄項(xiàng)
        return (p4d_t *)pgd;
    return (p4d_t *)pgd_page_vaddr(*pgd) + p4d_index(address);
}

現(xiàn)在我們已經(jīng)通過(guò) pgd_offset 定位到虛擬內(nèi)存地址 address 對(duì)應(yīng)在全局頁(yè)目錄 PGD 的頁(yè)目錄項(xiàng) pgd_t(p4d_t)了。

接下來(lái)的任務(wù)就是根據(jù)這個(gè) p4d_t 定位虛擬內(nèi)存對(duì)應(yīng)在上層頁(yè)目錄 PUD 中的頁(yè)目錄項(xiàng) pud_t。但在定位之前,我們需要首先判斷這個(gè) p4d_t 是否是空的,如果是空的,說(shuō)明在目前的進(jìn)程頁(yè)表中還不存在對(duì)應(yīng)的 PUD,需要馬上創(chuàng)建一個(gè)新的出來(lái)。

而 PUD 的相關(guān)信息全部都保存在 p4d_t 里,我們可以通過(guò) native_p4d_val 函數(shù)將*頁(yè)目錄項(xiàng) p4d_t 中的值獲取出來(lái)。

static inline p4dval_t native_p4d_val(p4d_t p4d)
{
	return p4d.p4d;
}

在 64 位系統(tǒng)中,各級(jí)頁(yè)目錄項(xiàng)都是用 unsigned long 類型來(lái)表示的,共 8 個(gè)字節(jié),64 個(gè) bit,還記得我們之前在《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》 一文中介紹的頁(yè)目錄項(xiàng)比特位布局嗎 ?

在頁(yè)目錄項(xiàng)剛剛被創(chuàng)建出來(lái)的時(shí)候,內(nèi)核會(huì)將他們?nèi)砍跏蓟癁?0 值,如果一個(gè)頁(yè)目錄項(xiàng)中除了第 5 , 6 比特位之外剩下的比特位全都為 0 的話,則表示這個(gè)頁(yè)目錄項(xiàng)是空的。

static inline int p4d_none(p4d_t p4d)
{
    // p4d_t 中除了第 5,6 比特位之外,剩余比特位如果全是 0 則表示 p4d_t 是空的
    return (native_p4d_val(p4d) & ~(_PAGE_KNL_ERRATUM_MASK)) == 0;
}
// 頁(yè)目錄項(xiàng)中第 5, 6 比特位置為 1
#define _PAGE_KNL_ERRATUM_MASK (_PAGE_DIRTY | _PAGE_ACCESSED)

如果我們通過(guò) p4d_none 函數(shù)判斷出*頁(yè)目錄項(xiàng) p4d 是空的,那么就需要調(diào)用 __pud_alloc 函數(shù)分配一個(gè)新的上層頁(yè)目錄表 PUD 出來(lái),然后用 PUD 的起始物理內(nèi)存地址以及頁(yè)目錄項(xiàng)的初始權(quán)限位 _PAGE_TABLE 填充 p4d。

/*
 * Allocate page upper directory.
 * We've already handled the fast-path in-line.
 */
int __pud_alloc(struct mm_struct *mm, p4d_t *p4d, unsigned long address)
{
    // 調(diào)用 get_zeroed_page 申請(qǐng)一個(gè) 4k 物理內(nèi)存頁(yè)并初始化為 0 值作為新的 PUD
    // new 指向新分配的 PUD 起始內(nèi)存地址
    pud_t *new = pud_alloc_one(mm, address);
    if (!new)
        return -ENOMEM;
    // 操作進(jìn)程頁(yè)表需要加鎖
    spin_lock(&mm->page_table_lock);
    // 如果*頁(yè)目錄項(xiàng) p4d 中的 P 比特位置為 0 表示 p4d 目前還沒(méi)有指向其下一級(jí)頁(yè)目錄 PUD
    // 下面需要填充 p4d
    if (!p4d_present(*p4d)) {
        // 更新 mm->pgtables_bytes 計(jì)數(shù),該字段用于統(tǒng)計(jì)進(jìn)程頁(yè)表所占用的字節(jié)數(shù)
        // 由于這里新增了一張 PUD 目錄表,所以計(jì)數(shù)需要增加 PTRS_PER_PUD * sizeof(pud_t)
        mm_inc_nr_puds(mm);
        // 將 new 指向的新分配出來(lái)的 PUD 物理內(nèi)存地址以及相關(guān)屬性填充到*頁(yè)目錄項(xiàng) p4d 中
        p4d_populate(mm, p4d, new);
    } else  /* Another has populated it */
        // 釋放新創(chuàng)建的 PMD
        pud_free(mm, new);

    // 釋放頁(yè)表鎖
    spin_unlock(&mm->page_table_lock);
    return 0;
}

下面我們來(lái)看一下填充*頁(yè)目錄項(xiàng) p4d 的一些細(xì)節(jié),填充的邏輯封裝在下面的 p4d_populate 函數(shù)中。

static inline void p4d_populate(struct mm_struct *mm, p4d_t *p4d, pud_t *pud)
{
	set_p4d(p4d, __p4d(_PAGE_TABLE | __pa(pud)));
}

#define _KERNPG_TABLE	(_PAGE_PRESENT | _PAGE_RW | _PAGE_ACCESSED |	\
			 _PAGE_DIRTY | _PAGE_ENC)
#define _PAGE_TABLE	(_KERNPG_TABLE | _PAGE_USER)

各級(jí)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng),它們的本質(zhì)其實(shí)就是一塊 8 字節(jié)大小,64 bits 的小內(nèi)存塊,內(nèi)核中使用 unsigned long 類型來(lái)修飾,各級(jí)頁(yè)目錄項(xiàng)以及頁(yè)表項(xiàng)在初始的時(shí)候,它們的這 64 個(gè)比特位全部為 0 值,所謂填充頁(yè)目錄項(xiàng)就是按照下圖所示的頁(yè)目錄項(xiàng)比特位布局,根據(jù)每個(gè)比特位的具體含義進(jìn)行相應(yīng)的填充。

由于頁(yè)目錄項(xiàng)所承擔(dān)的一項(xiàng)最重要的工作就是定位其下一級(jí)頁(yè)目錄表的起始物理內(nèi)存地址,這里的下一級(jí)頁(yè)目錄表就是剛剛我們新創(chuàng)建出來(lái)的 PUD。所以第一件重要的事情就是通過(guò) __pa(pud) 來(lái)獲取 PUD 的起始物理內(nèi)存地址,然后將 PUD 的物理內(nèi)存地址填充到*頁(yè)目錄項(xiàng) p4d 中的對(duì)應(yīng)比特位上。

由于物理內(nèi)存地址在內(nèi)核中都是按照 4K 對(duì)齊的,所以 PUD 物理內(nèi)存地址的低 12 位全部都是 0 ,我們可以利用這 12 個(gè)比特位存放一些權(quán)限標(biāo)記位,頁(yè)目錄項(xiàng)在初始化時(shí)需要置為 1 的權(quán)限標(biāo)記位定義在 _PAGE_TABLE 中。也就是說(shuō) _PAGE_TABLE 定義了頁(yè)目錄項(xiàng)初始權(quán)限標(biāo)記位集合。

#define _PAGE_BIT_PRESENT 0 /* is present */
#define _PAGE_BIT_RW  1 /* writeable */
#define _PAGE_BIT_USER  2 /* userspace addressable */
#define _PAGE_BIT_ACCESSED 5 /* was accessed (raised by CPU) */
#define _PAGE_BIT_DIRTY  6 /* was written to (raised by CPU) */


#define _PAGE_PRESENT (_AT(pteval_t, 1) << _PAGE_BIT_PRESENT)
#define _PAGE_RW (_AT(pteval_t, 1) << _PAGE_BIT_RW)
#define _PAGE_USER (_AT(pteval_t, 1) << _PAGE_BIT_USER)
#define _PAGE_ACCESSED (_AT(pteval_t, 1) << _PAGE_BIT_ACCESSED)
#define _PAGE_DIRTY (_AT(pteval_t, 1) << _PAGE_BIT_DIRTY)

我們通過(guò) _PAGE_TABLE 和 __pa(pud) 進(jìn)行或運(yùn)算 —— _PAGE_TABLE | __pa(pud),這樣就可以按照上圖中的比特位布局構(gòu)造出一個(gè) 8 字節(jié)的 unsigned long 類型的整數(shù)了,這個(gè)整數(shù)的第 12 到 35 比特位通過(guò) __pa(pud) 填充進(jìn)來(lái),低 12 位比特通過(guò) _PAGE_TABLE 填充進(jìn)來(lái)。

隨后我們通過(guò) __p4d 將這個(gè)剛剛構(gòu)造出來(lái)的 unsigned long 整數(shù)轉(zhuǎn)換成 p4d_t 類型。

#define __p4d(x)	native_make_p4d(x)

static inline p4d_t native_make_p4d(pudval_t val)
{
	return (p4d_t) { val };
}

最后我們通過(guò) set_p4d 將我們剛剛構(gòu)造出來(lái)的 p4d_t 賦值給原始的 p4d_t。

# define set_p4d(p4dp, p4d)		native_set_p4d(p4dp, p4d)

這樣一來(lái),缺頁(yè)的虛擬內(nèi)存地址對(duì)應(yīng)在*頁(yè)目錄表中的頁(yè)目錄項(xiàng) p4d_t 就被填充好了,現(xiàn)在它已經(jīng)指向了剛剛新創(chuàng)建出來(lái)的 PUD,并且擁有了初始的權(quán)限位。

目前為止,我們只是完善了缺頁(yè)虛擬內(nèi)存地址對(duì)應(yīng)在進(jìn)程頁(yè)表*頁(yè)目錄中的目錄項(xiàng) p4d_t,在四級(jí)頁(yè)表體系下,我們還需要繼續(xù)向下逐級(jí)的去補(bǔ)齊虛擬內(nèi)存地址對(duì)應(yīng)在其他頁(yè)目錄中的目錄項(xiàng),處理邏輯上都是一模一樣的。

*頁(yè)目錄項(xiàng) p4d 中包含了其下一級(jí)頁(yè)目錄 PUD 的相關(guān)信息,在內(nèi)核中使用 pud_offset 函數(shù)來(lái)定位虛擬內(nèi)存地址 address 對(duì)應(yīng)在 PUD 中的頁(yè)目錄項(xiàng) pud_t。

/* Find an entry in the third-level page table.. */
static inline pud_t *pud_offset(p4d_t *p4d, unsigned long address)
{
	return (pud_t *)p4d_page_vaddr(*p4d) + pud_index(address);
}

和*頁(yè)目錄 PGD 一樣,上層頁(yè)目錄 PUD 也可以看做是一個(gè)能夠存放 512 個(gè) pud_t 的數(shù)組 —— pud_t[PTRS_PER_PUD] 。

// 上層頁(yè)目錄表 PUD 可以容納的頁(yè)目錄項(xiàng) pud_t 的個(gè)數(shù)
#define PTRS_PER_PUD  512

內(nèi)核通過(guò) pud_index 函數(shù)將虛擬內(nèi)存地址右移 PUD_SHIFT(30)位然后用掩碼 PTRS_PER_PUD - 1 將高位全部掩掉,只保留低 9 位得到虛擬內(nèi)存地址在上層頁(yè)目錄 PUD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pud_t 的偏移 —— pud_index。

static inline unsigned long pud_index(unsigned long address)
{
	return (address >> PUD_SHIFT) & (PTRS_PER_PUD - 1);
}

#define PUD_SHIFT	30

現(xiàn)在我們有了 pud_index,如果我們還能夠知道上層頁(yè)目錄表 PUD 的虛擬內(nèi)存地址,兩者一相加就能得到頁(yè)目錄項(xiàng) pud_t 了。而 PUD 的物理內(nèi)存地址恰好保存在剛剛填充好的*頁(yè)目錄項(xiàng) p4d 中,我們可以從 p4d 中將 PUD 的物理內(nèi)存地址提取出來(lái),然后通過(guò) __va 轉(zhuǎn)換成虛擬內(nèi)存地址不就行了么。

static inline unsigned long p4d_page_vaddr(p4d_t p4d)
{
	return (unsigned long)__va(p4d_val(p4d) & p4d_pfn_mask(p4d));
}

首先我們通過(guò) p4d_val 將*頁(yè)目錄項(xiàng) p4d 的值(8 字節(jié),64 比特)提取出來(lái)。

#define p4d_val(x)	native_p4d_val(x)

static inline p4dval_t native_p4d_val(p4d_t p4d)
{
	return p4d.p4d;
}

然后再根據(jù)頁(yè)目錄項(xiàng)中的比特位布局,將其下一級(jí)頁(yè)目錄表的物理內(nèi)存地址截取出來(lái)。

那么如何截取呢 ? 上圖中展示的頁(yè)目錄項(xiàng)比特位布局筆者是按照 36 位物理內(nèi)存地址所畫,事實(shí)上 Linux 內(nèi)核最大可支持 52 位的物理內(nèi)存地址。

#define __PHYSICAL_MASK_SHIFT	52

我們將 1 左移 __PHYSICAL_MASK_SHIFT 位然后再減 1 得到 __PHYSICAL_MASK(低 52 位全部為 1)。

#define __PHYSICAL_MASK		((phys_addr_t)((1ULL << __PHYSICAL_MASK_SHIFT) - 1))

然后拿 p4d_val & __PHYSICAL_MASK 就可以將 p4d_val 的高位截取掉,只保留低 52 位。

這低 52 位中包含了兩個(gè)部分,一個(gè)是我們想要提取的下一級(jí)頁(yè)目錄表的物理內(nèi)存地址,另一個(gè)則是低 12 位的權(quán)限標(biāo)記位。

如果我們?cè)倌軌虬堰@低 12 位的權(quán)限標(biāo)記位用掩碼掩掉,就可以得到下一級(jí)頁(yè)目錄表的物理內(nèi)存地址了。

#define PAGE_SHIFT  12
#define PAGE_SIZE   (_AC(1,UL) << PAGE_SHIFT)      
#define PAGE_MASK   (~(PAGE_SIZE-1))     // 0xFFFFFFFFFFFFF000

上面的 PAGE_MASK 掩碼就是用于將頁(yè)目錄項(xiàng) p4d 的低 12 位掩掉的,我們接著在 p4d_val & __PHYSICAL_MASK 的基礎(chǔ)上再與上 PAGE_MASK,就可以將 p4d 中保存的下一級(jí)頁(yè)目錄表 PUD 的物理內(nèi)存地址截取出來(lái)了。

雖然我們是按照 52 位的物理內(nèi)存地址截取的,但是對(duì)于 36 位的物理內(nèi)存地址來(lái)說(shuō),頁(yè)目錄項(xiàng)中的低 36 位到 51 位之間的比特位都是 0 值,所以也不影響。

static inline unsigned long p4d_page_vaddr(p4d_t p4d)
{
    return (unsigned long)__va(p4d_val(p4d) & p4d_pfn_mask(p4d));
}

static inline p4dval_t p4d_pfn_mask(p4d_t p4d)
{
	/* No 512 GiB huge pages yet */
	return PTE_PFN_MASK;
}

/* Extracts the PFN from a (pte|pmd|pud|pgd)val_t of a 4KB page */
#define PTE_PFN_MASK		((pteval_t)PHYSICAL_PAGE_MASK)

#define PHYSICAL_PAGE_MASK	(((signed long)PAGE_MASK) & __PHYSICAL_MASK)

現(xiàn)在我們已經(jīng)得到 PUD 的物理內(nèi)存地址了,隨后通過(guò) __va 轉(zhuǎn)換成虛擬內(nèi)存地址,然后在加上 pud_index 就得到缺頁(yè)虛擬內(nèi)存地址在進(jìn)程頁(yè)表上層頁(yè)目錄 PUD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pud_t 了。

在得到 pud_t 之后,內(nèi)核還是需要通過(guò) pud_none 來(lái)判斷下該上層頁(yè)目錄項(xiàng) pud_t 是否是空的,如果是空的話,就需要通過(guò) __pmd_alloc 函數(shù)重新分配一張中間頁(yè)目錄表 PMD 出來(lái),然后填充這個(gè)空的 pud_t,這里的邏輯和前面處理 p4d_t 的邏輯一模一樣。

// 同 p4d_none 的邏輯一樣
static inline int pud_none(pud_t pud)
{
	return (native_pud_val(pud) & ~(_PAGE_KNL_ERRATUM_MASK)) == 0;
}

由于這個(gè) PUD 是之前為了填充*頁(yè)目錄項(xiàng) p4d_t 而新創(chuàng)建出來(lái)的,所以 PUD 這張頁(yè)目錄表里還全是 0 值,缺頁(yè)虛擬內(nèi)存地址在 PUD 中對(duì)應(yīng)的目錄項(xiàng) pud_t 自然也是 0 值,通過(guò) pud_none 判斷自然是返回 true 。

隨后內(nèi)核會(huì)調(diào)用 __pmd_alloc 函數(shù)新分配一張 4K 大小的物理內(nèi)存頁(yè)作為 PMD , 然后用 PMD 的物理內(nèi)存地址去填充這個(gè)空的 pud_t。這里的邏輯和 __pud_alloc 還是一模一樣。

/*
 * Allocate page middle directory.
 * We've already handled the fast-path in-line.
 */
int __pmd_alloc(struct mm_struct *mm, pud_t *pud, unsigned long address)
{
    // 調(diào)用 alloc_pages 從伙伴系統(tǒng)申請(qǐng)一個(gè) 4K 大小的物理內(nèi)存頁(yè),作為新的 PMD
    pmd_t *new = pmd_alloc_one(mm, address);
    if (!new)
        return -ENOMEM;
    // 如果 pud 還未指向其下一級(jí)頁(yè)目錄 PMD,則需要初始化填充 pud
    if (!pud_present(*pud)) {
        mm_inc_nr_pmds(mm);
        // 將 new 指向的新分配出來(lái)的 PMD 物理內(nèi)存地址以及相關(guān)屬性填充到上層頁(yè)目錄項(xiàng) pud 中
        pud_populate(mm, pud, new);
    } else  /* Another has populated it */
        pmd_free(mm, new);

    return 0;
}

填充上層頁(yè)目錄項(xiàng) pud_t 的邏輯和之前填充*頁(yè)目錄項(xiàng) p4d_t 的邏輯也是一樣的。

static inline void pud_populate(struct mm_struct *mm, pud_t *pud, pmd_t *pmd)
{
	set_pud(pud, __pud(_PAGE_TABLE | __pa(pmd)));
}

都是通過(guò) PMD 的物理內(nèi)存地址 __pa(pmd) 以及頁(yè)目錄的初始權(quán)限標(biāo)記位集合 _PAGE_TABLE 來(lái)構(gòu)造一個(gè) unsigned long 類型的整數(shù)。

通過(guò) __pud 將這個(gè)剛剛構(gòu)造出來(lái)的 unsigned long 整數(shù)轉(zhuǎn)換成 pud_t 類型:

#define __pud(x)	native_make_pud(x)

static inline pud_t native_make_pud(pmdval_t val)
{
	return (pud_t) { val };
}

最后將 __pud 的返回值通過(guò) set_pud 賦值給原始的上層頁(yè)目錄項(xiàng) pud 。這樣就算完成了 pud 的填充。

# define set_pud(pudp, pud)		native_set_pud(pudp, pud)

static inline void native_set_pud(pud_t *pudp, pud_t pud)
{
	WRITE_ONCE(*pudp, pud);
}

中間頁(yè)目錄表 PMD 有了,接下來(lái)的任務(wù)就該定位缺頁(yè)虛擬內(nèi)存地址在進(jìn)程頁(yè)表 PMD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd_t 了。

和前面的 PGD ,PUD 一樣, PMD 也可以看做是一個(gè)能夠存放 512 個(gè) pmd_t 的數(shù)組 —— pmd_t[PTRS_PER_PMD] 。

// 中間頁(yè)目錄表 PMD 可以容納的頁(yè)目錄項(xiàng) pmd_t 的個(gè)數(shù)
#define PTRS_PER_PMD  512

內(nèi)核通過(guò) pmd_offset 函數(shù)來(lái)定位虛擬內(nèi)存地址 address 對(duì)應(yīng)在 PMD 中的頁(yè)目錄項(xiàng) pmd_t。

static inline pmd_t *pmd_offset(pud_t *pud, unsigned long address)
{
	return (pmd_t *)pud_page_vaddr(*pud) + pmd_index(address);
}

還是之前的套路,首先需要通過(guò) pud_page_vaddr 從上層頁(yè)目錄 PUD 中的頁(yè)目錄項(xiàng) pud_t 中提取出其下一級(jí)頁(yè)目錄表 PMD 的起始虛擬內(nèi)存地址。

static inline unsigned long pud_page_vaddr(pud_t pud)
{
	return (unsigned long)__va(pud_val(pud) & pud_pfn_mask(pud));
}

然后通過(guò) pmd_index 獲取缺頁(yè)虛擬內(nèi)存地址在 PMD 中的偏移,和之前的處理方式一樣,首先將缺頁(yè)虛擬內(nèi)存地址 address 右移 PMD_SHIFT(21)位,然后和掩碼 PTRS_PER_PMD - 1 相與,只保留低 9 位。

static inline unsigned long pmd_index(unsigned long address)
{
	return (address >> PMD_SHIFT) & (PTRS_PER_PMD - 1);
}

#define PMD_SHIFT	21
#define PTRS_PER_PMD	512

最后用剛剛提取出的 PMD 起始虛擬內(nèi)存地址 pud_page_vaddr 與 pmd_index 相加就得到我們尋找的中間頁(yè)目錄項(xiàng) pmd_t 了。

在我們獲取到 pmd_t 之后,接下來(lái)就該處理頁(yè)表了,而頁(yè)表是直接與物理內(nèi)存頁(yè)進(jìn)行映射的,后續(xù)我們需要到頁(yè)表項(xiàng)中,根據(jù)權(quán)限位的設(shè)置來(lái)解析出具體的缺頁(yè)原因,然后進(jìn)行針對(duì)性的缺頁(yè)處理,這一部分的內(nèi)容封裝在 handle_pte_fault 函數(shù)中,這是我們下一小節(jié)中要介紹的內(nèi)容。

而本小節(jié)中介紹的 __handle_mm_fault 的主要工作是將進(jìn)程頁(yè)表中的三級(jí)頁(yè)目錄表 PGD,PUD,PMD 補(bǔ)齊,然后獲取到 pmd_t 就完成了,隨后會(huì)把 pmd_t 送到 handle_pte_fault 函數(shù)中進(jìn)行頁(yè)表的處理。

在我們理解了以上內(nèi)容之后,再回頭來(lái)看 __handle_mm_fault 源碼實(shí)現(xiàn)就很清晰了:

static vm_fault_t __handle_mm_fault(struct vm_area_struct *vma,
        unsigned long address, unsigned int flags)
{
    // vm_fault 結(jié)構(gòu)用于封裝后續(xù)缺頁(yè)處理用到的相關(guān)參數(shù)
    struct vm_fault vmf = {
        // 發(fā)生缺頁(yè)的 vma
        .vma = vma,
        // 引起缺頁(yè)的虛擬內(nèi)存地址
        .address = address & PAGE_MASK,
        // 處理缺頁(yè)的相關(guān)標(biāo)記 FAULT_FLAG_xxx
        .flags = flags,
        // address 在 vma 中的偏移,單位也頁(yè)
        .pgoff = linear_page_index(vma, address),
        // 后續(xù)用于分配物理內(nèi)存使用的相關(guān)掩碼 gfp_mask
        .gfp_mask = __get_fault_gfp_mask(vma),
    };
    // 獲取進(jìn)程虛擬內(nèi)存空間
    struct mm_struct *mm = vma->vm_mm;
    // 進(jìn)程頁(yè)表的*頁(yè)表地址
    pgd_t *pgd;
    // 五級(jí)頁(yè)表下會(huì)使用,在四級(jí)頁(yè)表下 p4d 與 pgd 的值一樣
    p4d_t *p4d;
    vm_fault_t ret;
    // 獲取 address 在全局頁(yè)目錄表 PGD 中對(duì)應(yīng)的目錄項(xiàng) pgd
    pgd = pgd_offset(mm, address);
    // 在四級(jí)頁(yè)表下,這里只是將 pgd 賦值給 p4d,后續(xù)均已 p4d 作為全局頁(yè)目錄項(xiàng)
    p4d = p4d_alloc(mm, pgd, address);
    if (!p4d)
        return VM_FAULT_OOM;
    // 首先 p4d_none 判斷全局頁(yè)目錄項(xiàng) p4d 是否是空的
    // 如果 p4d 是空的,則調(diào)用 __pud_alloc 分配一個(gè)新的上層頁(yè)目錄表 PUD,然后填充 p4d
    // 如果 p4d 不是空的,則調(diào)用 pud_offset 獲取 address 在上層頁(yè)目錄 PUD 中的目錄項(xiàng) pud
    vmf.pud = pud_alloc(mm, p4d, address);
    if (!vmf.pud)
        return VM_FAULT_OOM;
  
      ........ 省略 1G 大頁(yè)缺頁(yè)處理 ..........
    
    // 首先 pud_none 判斷上層頁(yè)目錄項(xiàng) pud 是不是空的
    // 如果 pud 是空的,則調(diào)用 __pmd_alloc 分配一個(gè)新的中間頁(yè)目錄表 PMD,然后填充 pud
    // 如果 pud 不是空的,則調(diào)用 pmd_offset 獲取 address 在中間頁(yè)目錄 PMD 中的目錄項(xiàng) pmd
    vmf.pmd = pmd_alloc(mm, vmf.pud, address);
    if (!vmf.pmd)
        return VM_FAULT_OOM;

      ........ 省略 2M 大頁(yè)缺頁(yè)處理 ..........

    // 進(jìn)行頁(yè)表的相關(guān)處理以及解析具體的缺頁(yè)原因,后續(xù)針對(duì)性的進(jìn)行缺頁(yè)處理
    return handle_pte_fault(&vmf);
}

6. handle_pte_fault

在上一小節(jié)的開頭,筆者列舉了引起缺頁(yè)異常主要的三種原因,要么缺頁(yè)的虛擬內(nèi)存地址從來(lái)還沒(méi)有被映射過(guò),要么是雖然之前映射過(guò),但是物理內(nèi)存頁(yè)被 swap 到磁盤上了,要么是因?yàn)樵L問(wèn)權(quán)限不夠的原因引起的缺頁(yè)。

從總體上來(lái)講引起缺頁(yè)中斷的原因分為兩大類,一類是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)不在內(nèi)存中,另一類是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)在內(nèi)存中。

而每一類下邊又包含若干種缺頁(yè)的場(chǎng)景,在本小節(jié)中筆者會(huì)帶著大家一一把這些場(chǎng)景梳理清楚,下面我們來(lái)看第一類,其中分為了三種缺頁(yè)場(chǎng)景。

第一種場(chǎng)景是,缺頁(yè)虛擬內(nèi)存地址 address 在進(jìn)程頁(yè)表中間頁(yè)目錄對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd_t 是空的,我們可以通過(guò) pmd_none 方法來(lái)判斷。

static inline int pmd_none(pmd_t pmd)
{
	unsigned long val = native_pmd_val(pmd);
	return (val & ~_PAGE_KNL_ERRATUM_MASK) == 0;
}

這種情況表示缺頁(yè)地址 address 對(duì)應(yīng)的 pmd 目前還沒(méi)有對(duì)應(yīng)的頁(yè)表,連頁(yè)表都還沒(méi)有,那么自然 pte 也是空的,物理內(nèi)存頁(yè)就更不用說(shuō)了,肯定還沒(méi)有。

第二種場(chǎng)景是,缺頁(yè)地址 address 對(duì)應(yīng)的 pmd_t 雖然不是空的,頁(yè)表也存在,但是 address 對(duì)應(yīng)在頁(yè)表中的 pte 是空的。內(nèi)核中通過(guò) pte_offset_map 定位 address 在頁(yè)表中的 pte 。這個(gè)過(guò)程和前面介紹的定位頁(yè)目錄項(xiàng)的過(guò)程一模一樣。

#define pte_offset_map(dir, address) pte_offset_kernel((dir), (address))

static inline pte_t *pte_offset_kernel(pmd_t *pmd, unsigned long address)
{
	return (pte_t *)pmd_page_vaddr(*pmd) + pte_index(address);
}

static inline unsigned long pte_index(unsigned long address)
{
	return (address >> PAGE_SHIFT) & (PTRS_PER_PTE - 1);
}

#define PAGE_SHIFT   12
// 頁(yè)表可以容納的頁(yè)表項(xiàng) pte_t 的個(gè)數(shù)
#define PTRS_PER_PTE  512

這種情況下,雖然頁(yè)表是存在的,但是奈何 address 在頁(yè)表中的 pte 是空的,和第一種場(chǎng)景一樣,都說(shuō)明了該 address 之前從來(lái)還沒(méi)有被映射過(guò)。

既然之前都沒(méi)有被映射,那么現(xiàn)在就該把這塊內(nèi)容補(bǔ)齊,筆者在之前的文章 《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)(原理篇)》 中曾為大家介紹了四種內(nèi)存映射方式,它們分別為:私有匿名映射,私有文件映射,共享文件映射,共享匿名映射。這四種內(nèi)存映射方式從總體上來(lái)說(shuō)分為兩類:一類是匿名映射,另一類是文件映射。

所以在處理虛擬內(nèi)存映射區(qū) vma 中的缺頁(yè)時(shí),也需要分為匿名映射區(qū)的缺頁(yè)處理以及文件映射區(qū)的缺頁(yè)處理。那么在這里,我們?cè)撊绾螀^(qū)分這個(gè)缺頁(yè)的 vma 到底是屬于匿名映射區(qū)還是文件映射區(qū)呢 ?

還記得筆者之前在 《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)(源碼實(shí)現(xiàn)篇)》 一文中介紹的內(nèi)存映射核心函數(shù) mmap_region 嗎?關(guān)于文件映射和匿名映射,有這樣的兩段代碼:

unsigned long mmap_region(struct file *file, unsigned long addr,
        unsigned long len, vm_flags_t vm_flags, unsigned long pgoff,
        struct list_head *uf)
{
                  ........ 省略 ........
    // 文件映射
    if (file) {
        // 將文件與虛擬內(nèi)存映射起來(lái)
        vma->vm_file = get_file(file);
        // 這一步中將虛擬內(nèi)存區(qū)域 vma 的操作函數(shù) vm_ops 映射成文件的操作函數(shù)(和具體文件系統(tǒng)有關(guān))
        // ext4 文件系統(tǒng)中的操作函數(shù)為 ext4_file_vm_ops
        // 從這一刻開始,讀寫內(nèi)存就和讀寫文件是一樣的了
        error = call_mmap(file, vma);
        if (error)
            goto unmap_and_free_vma;

        addr = vma->vm_start;
        vm_flags = vma->vm_flags;
    }  else {
        // 這里處理私有匿名映射
        // 將  vma->vm_ops 設(shè)置為 null,只有文件映射才需要 vm_ops 這樣才能將內(nèi)存與文件映射起來(lái)
        vma_set_anonymous(vma);
    }
}

在處理文件映射的代碼中,內(nèi)核調(diào)用了一個(gè)叫 call_mmap 的函數(shù),內(nèi)核在該函數(shù)中將虛擬內(nèi)存的相關(guān)操作函數(shù) vma->vm_ops 映射成了文件相關(guān)的操作函數(shù) ext4_file_vm_ops。正因?yàn)槿绱耍罄m(xù)進(jìn)程讀寫這塊虛擬內(nèi)存就相當(dāng)于讀寫文件了。

static int ext4_file_mmap(struct file *file, struct vm_area_struct *vma)
{
        ........ 省略 ........
        
      vma->vm_ops = &ext4_file_vm_ops;
      
        ........ 省略 ........    
}

而在處理匿名映射的代碼中,內(nèi)核調(diào)用了一個(gè)叫做 vma_set_anonymous 的函數(shù),在這里會(huì)將 vma->vm_ops 設(shè)置為 null ,因?yàn)檫@里映射的匿名內(nèi)存頁(yè),背后并沒(méi)有文件來(lái)支撐。

static inline void vma_set_anonymous(struct vm_area_struct *vma)
{
	vma->vm_ops = NULL;
}

所以判斷一個(gè)虛擬內(nèi)存區(qū)域 vma 到底是文件映射區(qū)還是匿名映射區(qū)就是要看這個(gè) vma 的 vm_ops 是否為 null。

static inline bool vma_is_anonymous(struct vm_area_struct *vma)
{
	return !vma->vm_ops;
}

如果 vma_is_anonymous 返回 true,那么內(nèi)核就會(huì)在 handle_pte_fault 函數(shù)中調(diào)用 do_anonymous_page 進(jìn)行匿名映射區(qū)的缺頁(yè)處理。

如果 vma_is_anonymous 返回 false,那么內(nèi)核就調(diào)用 do_fault 進(jìn)行文件映射區(qū)的缺頁(yè)處理。

    // pte 是空的,表示缺頁(yè)地址 address 還從來(lái)沒(méi)有被映射過(guò),接下來(lái)就要處理物理內(nèi)存的映射
    if (!vmf->pte) {
        // 判斷缺頁(yè)的虛擬內(nèi)存地址 address 所在的虛擬內(nèi)存區(qū)域 vma 是否是匿名映射區(qū)
        if (vma_is_anonymous(vmf->vma))
            // 處理匿名映射區(qū)發(fā)生的缺頁(yè)
            return do_anonymous_page(vmf);
        else
            // 處理文件映射區(qū)發(fā)生的缺頁(yè)
            return do_fault(vmf);
    }

第三種缺頁(yè)場(chǎng)景是,虛擬內(nèi)存地址 address 在進(jìn)程頁(yè)表中的頁(yè)表項(xiàng) pte 不是空的,但是其背后映射的物理內(nèi)存頁(yè)被內(nèi)核 swap out 到磁盤上了,CPU 訪問(wèn)的時(shí)候依然會(huì)產(chǎn)生缺頁(yè)。

那么我們?nèi)绾沃?pte 背后映射的物理內(nèi)存頁(yè)在不在內(nèi)存中呢 ?

筆者在之前的文章《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》 中介紹了頁(yè)表項(xiàng) pte 的比特位布局如下圖所示:

其中 pte 的第 0 個(gè)比特位表示該 pte 映射的物理內(nèi)存頁(yè)是否在內(nèi)存中,值為 1 表示物理內(nèi)存頁(yè)在內(nèi)存中駐留,值為 0 表示物理內(nèi)存頁(yè)不在內(nèi)存中,可能被 swap 到磁盤上了。

#define _PAGE_BIT_PRESENT 0 /* is present */

#define _PAGE_PRESENT (_AT(pteval_t, 1) << _PAGE_BIT_PRESENT)

如果我們可以把 pte 中的相關(guān)權(quán)限位提取出來(lái),然后判斷權(quán)限位第 0 個(gè)比特位是否為 1 ,是不是就能知道 pte 映射的物理內(nèi)存頁(yè)到底在不在內(nèi)存中了,這個(gè)邏輯封裝在 pte_present 方法中:

static inline int pte_present(pte_t a)
{
	return pte_flags(a) & (_PAGE_PRESENT | _PAGE_PROTNONE);
}

pte_flags 函數(shù)用于從 pte 中提取相關(guān)的權(quán)限位,如何提取呢 ?可還記得我們?cè)谏闲」?jié)中介紹的從頁(yè)目錄項(xiàng)中提取其下一級(jí)頁(yè)目錄表的物理內(nèi)存地址時(shí)使用到的掩碼 PTE_PFN_MASK 嗎 ?

static inline unsigned long p4d_page_vaddr(p4d_t p4d)
{
    return (unsigned long)__va(p4d_val(p4d) & PTE_PFN_MASK;
}

/* Extracts the PFN from a (pte|pmd|pud|pgd)val_t of a 4KB page */
#define PTE_PFN_MASK        ((pteval_t)PHYSICAL_PAGE_MASK)

#define PHYSICAL_PAGE_MASK  (((signed long)PAGE_MASK) & __PHYSICAL_MASK)

如果我們把掩碼 PTE_PFN_MASK 取反,然后在和 pte 做與運(yùn)算,這樣 pte 中的相關(guān)權(quán)限標(biāo)記位不就提取出來(lái)么。

#define PTE_FLAGS_MASK		(~PTE_PFN_MASK)

static inline pteval_t pte_flags(pte_t pte)
{
	return native_pte_val(pte) & PTE_FLAGS_MASK;
}

static inline pteval_t native_pte_val(pte_t pte)
{
	return pte.pte;
}

然后用權(quán)限標(biāo)記位 pte_flags 和 _PAGE_PRESENT 做 & 運(yùn)算就可以知道 pte 背后映射的物理內(nèi)存頁(yè)是否在內(nèi)存中了。

如果我們通過(guò) pte_present 判斷映射的物理內(nèi)存頁(yè)不在內(nèi)存中了,說(shuō)明它已經(jīng)被內(nèi)核 swap out 到磁盤上了,這種情況下的缺頁(yè)處理就需要調(diào)用 do_swap_page 函數(shù),將磁盤上的物理內(nèi)存頁(yè)重新 swap in 到內(nèi)存中來(lái)。

   if (!pte_present(vmf->orig_pte))
        // 將之前映射的物理內(nèi)存頁(yè)從磁盤中重新 swap in 到內(nèi)存中
        return do_swap_page(vmf);

以上介紹的這三種缺頁(yè)場(chǎng)景都是屬于缺頁(yè)內(nèi)存地址 address 背后映射的物理內(nèi)存頁(yè)不在內(nèi)存中的類別。

下面我們來(lái)看下另一類別,也就是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)在內(nèi)存中的情況 ,這里又會(huì)近一步分為兩種缺頁(yè)場(chǎng)景。

筆者曾在?《深入理解 Linux 物理內(nèi)存管理》一文中為大家介紹了 Linux 內(nèi)核在 NUMA 架構(gòu)下物理內(nèi)存管理的相關(guān)內(nèi)容。

在 NUMA 架構(gòu)下,CPU 訪問(wèn)自己的本地內(nèi)存節(jié)點(diǎn)是最快的,但訪問(wèn)其他內(nèi)存節(jié)點(diǎn)就會(huì)慢很多,這就導(dǎo)致了 CPU 訪問(wèn)內(nèi)存的速度不一致。

回到我們?nèi)表?yè)處理的場(chǎng)景中就是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)雖然在內(nèi)存中,但是它可能是進(jìn)程所在 CPU 中的本地 NUMA 節(jié)點(diǎn)上的內(nèi)存,也可能是其他 NUMA 節(jié)點(diǎn)上的內(nèi)存。

因?yàn)?CPU 對(duì)不同 NUMA 節(jié)點(diǎn)上的內(nèi)存有訪問(wèn)速度上的差異,所以內(nèi)核通常傾向于讓 CPU 盡量訪問(wèn)本地 NUMA 節(jié)點(diǎn)上的內(nèi)存。NUMA Balancing 機(jī)制就是用來(lái)解決這個(gè)問(wèn)題的。

通俗來(lái)講,NUMA Balancing 主要干兩件事情,一件事是讓內(nèi)存跟著 CPU 走,另一件事是讓 CPU 跟著內(nèi)存走。

進(jìn)程申請(qǐng)到的物理內(nèi)存頁(yè)可能在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上,也可能在其他 NUMA 節(jié)點(diǎn)上。

所謂讓內(nèi)存跟著 CPU 走的意思就是,當(dāng)進(jìn)程訪問(wèn)的物理內(nèi)存頁(yè)不在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上時(shí),NUMA Balancing 就會(huì)嘗試將遠(yuǎn)程 NUMA 節(jié)點(diǎn)上的物理內(nèi)存頁(yè)遷移到本地 NUMA 節(jié)點(diǎn)上,加快進(jìn)程訪問(wèn)內(nèi)存的速度。

所謂讓 CPU 跟著內(nèi)存走的意思就是,當(dāng)進(jìn)程經(jīng)常訪問(wèn)的大部分物理內(nèi)存頁(yè)均不在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上時(shí),NUMA Balancing 干脆就把進(jìn)程重新調(diào)度到這些物理內(nèi)存頁(yè)所在的 NUMA 節(jié)點(diǎn)上。當(dāng)然整個(gè) NUMA Balancing 的過(guò)程會(huì)根據(jù)我們?cè)O(shè)置的 NUMA policy 以及各個(gè) NUMA 節(jié)點(diǎn)上缺頁(yè)的次數(shù)來(lái)綜合考慮是否遷移內(nèi)存頁(yè)。這里涉及到的細(xì)節(jié)很多,筆者就不一一展開了。

NUMA Balancing 會(huì)周期性掃描進(jìn)程虛擬內(nèi)存地址空間,如果發(fā)現(xiàn)虛擬內(nèi)存背后映射的物理內(nèi)存頁(yè)不在當(dāng)前 CPU 本地 NUMA 節(jié)點(diǎn)的時(shí)候,就會(huì)把對(duì)應(yīng)的頁(yè)表項(xiàng) pte 標(biāo)記為 _PAGE_PROTNONE,也就是將 pte 的第 8 個(gè) 比特位置為 1,隨后會(huì)將 pte 的 Present 位置為 0 。

#define _PAGE_PROTNONE	(_AT(pteval_t, 1) << _PAGE_BIT_PROTNONE)

#define _PAGE_BIT_PROTNONE	_PAGE_BIT_GLOBAL

#define _PAGE_BIT_GLOBAL	8

這種情況下調(diào)用 pte_present 依然很返回 true ,因?yàn)楫?dāng)前的物理內(nèi)存頁(yè)畢竟是在內(nèi)存中的,只不過(guò)不在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上而已。

當(dāng) pte 被標(biāo)記為 _PAGE_PROTNONE 之后,這意味著該 pte 背后映射的物理內(nèi)存頁(yè)進(jìn)程對(duì)其沒(méi)有讀寫權(quán)限,也沒(méi)有可執(zhí)行的權(quán)限。進(jìn)程在訪問(wèn)這段虛擬內(nèi)存地址的時(shí)候就會(huì)發(fā)生缺頁(yè)。

當(dāng)進(jìn)入缺頁(yè)異常的處理程序之后,內(nèi)核會(huì)在 handle_pte_fault 函數(shù)中通過(guò) pte_protnone 函數(shù)判斷,缺頁(yè)的 pte 是否被標(biāo)記了 _PAGE_PROTNONE 標(biāo)識(shí)。

static inline int pte_protnone(pte_t pte)
{
	return (pte_flags(pte) & (_PAGE_PROTNONE | _PAGE_PRESENT))
		== _PAGE_PROTNONE;
}

如果 pte 被標(biāo)記了 _PAGE_PROTNONE,并且對(duì)應(yīng)的虛擬內(nèi)存區(qū)域是一個(gè)具有讀寫,可執(zhí)行權(quán)限的 vma。這就說(shuō)明該 vma 背后映射的物理內(nèi)存頁(yè)不在當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上。

static inline bool vma_is_accessible(struct vm_area_struct *vma)
{
	return vma->vm_flags & (VM_READ | VM_EXEC | VM_WRITE);
}

這里需要調(diào)用 do_numa_page,將這個(gè)遠(yuǎn)程 NUMA 節(jié)點(diǎn)上的物理內(nèi)存頁(yè)遷移到當(dāng)前 CPU 的本地 NUMA 節(jié)點(diǎn)上,從而加快進(jìn)程訪問(wèn)內(nèi)存的速度。

  if (pte_protnone(vmf->orig_pte) && vma_is_accessible(vmf->vma))
        return do_numa_page(vmf);

NUMA Balancing 機(jī)制看起來(lái)非常好,但是同時(shí)也會(huì)為系統(tǒng)引入很多開銷,比如,掃描進(jìn)程地址空間的開銷,缺頁(yè)的開銷,更主要的是頁(yè)面遷移的開銷會(huì)很大,這也會(huì)引起 CPU 有時(shí)候莫名其妙的飆到 100 %。因此筆者建議在一般情況下還是將 NUMA Balancing 關(guān)閉為好,除非你有明確的理由開啟。

我們可以將內(nèi)核參數(shù) /proc/sys/kernel/numa_balancing 設(shè)置為 0 或者通過(guò) sysctl 命令來(lái)關(guān)閉 NUMA Balancing。

echo 0 > /proc/sys/kernel/numa_balancing

sysctl -w kernel.numa_balancing=0

第二種場(chǎng)景就是寫時(shí)復(fù)制了(Copy On Write, COW),這種場(chǎng)景和 NUMA Balancing 一樣,都屬于缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)在內(nèi)存中而引起的缺頁(yè)中斷。

COW 在內(nèi)核的內(nèi)存管理子系統(tǒng)中很常見(jiàn)了,比如,父進(jìn)程通過(guò) fork 系統(tǒng)調(diào)用創(chuàng)建子進(jìn)程之后,父子進(jìn)程的虛擬內(nèi)存空間完全是一模一樣的,包括父子進(jìn)程的頁(yè)表內(nèi)容都是一樣的,父子進(jìn)程頁(yè)表中的 PTE 均指向同一物理內(nèi)存頁(yè)面,此時(shí)內(nèi)核會(huì)將父子進(jìn)程頁(yè)表中的 PTE 均改為只讀的,并將父子進(jìn)程共同映射的這個(gè)物理頁(yè)面引用計(jì)數(shù) + 1。

static inline unsigned long
copy_one_pte(struct mm_struct *dst_mm, struct mm_struct *src_mm,
        pte_t *dst_pte, pte_t *src_pte, struct vm_area_struct *vma,
        unsigned long addr, int *rss)
{
    /*
     * If it's a COW mapping, write protect it both
     * in the parent and the child
     */
    if (is_cow_mapping(vm_flags) && pte_write(pte)) {
        // 設(shè)置父進(jìn)程的 pte 為只讀
        ptep_set_wrprotect(src_mm, addr, src_pte);
        // 設(shè)置子進(jìn)程的 pte 為只讀
        pte = pte_wrprotect(pte);
    }
    // 獲取 pte 中映射的物理內(nèi)存頁(yè)(此時(shí)父子進(jìn)程共享該頁(yè))
    page = vm_normal_page(vma, addr, pte);
    // 物理內(nèi)存頁(yè)的引用計(jì)數(shù) + 1
    get_page(page);
}

當(dāng)父進(jìn)程或者子進(jìn)程對(duì)該頁(yè)面發(fā)生寫操作的時(shí)候,我們現(xiàn)在假設(shè)子進(jìn)程先對(duì)頁(yè)面發(fā)生寫操作,隨后子進(jìn)程發(fā)現(xiàn)自己頁(yè)表中的 PTE 是只讀的,于是產(chǎn)生缺頁(yè)中斷,子進(jìn)程進(jìn)入內(nèi)核態(tài),內(nèi)核會(huì)在本小節(jié)介紹的缺頁(yè)中斷處理程序中發(fā)現(xiàn),訪問(wèn)的這個(gè)物理頁(yè)面引用計(jì)數(shù)大于 1,說(shuō)明此時(shí)該物理內(nèi)存頁(yè)面存在多進(jìn)程共享的情況,于是發(fā)生寫時(shí)復(fù)制(Copy On Write, COW),內(nèi)核為子進(jìn)程重新分配一個(gè)新的物理頁(yè)面,然后將原來(lái)物理頁(yè)中的內(nèi)容拷貝到新的頁(yè)面中,最后子進(jìn)程頁(yè)表中的 PTE 指向新的物理頁(yè)面并將 PTE 的 R/W 位設(shè)置為 1,原來(lái)物理頁(yè)面的引用計(jì)數(shù) - 1。

后面父進(jìn)程在對(duì)頁(yè)面進(jìn)行寫操作的時(shí)候,同樣也會(huì)發(fā)現(xiàn)父進(jìn)程的頁(yè)表中 PTE 是只讀的,也會(huì)產(chǎn)生缺頁(yè)中斷,但是在內(nèi)核的缺頁(yè)中斷處理程序中,發(fā)現(xiàn)訪問(wèn)的這個(gè)物理頁(yè)面引用計(jì)數(shù)為 1 了,那么就只需要將父進(jìn)程頁(yè)表中的 PTE 的 R/W 位設(shè)置為 1 就可以了。

還有筆者在之前的文章?《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)(原理篇)》中介紹的私有文件映射,也用到了 COW,當(dāng)多個(gè)進(jìn)程采用私有文件映射的方式對(duì)同一文件的同一部分進(jìn)行映射的時(shí)候,后續(xù)產(chǎn)生的 pte 也都是只讀的。

當(dāng)任意進(jìn)程開始對(duì)它的私有文件映射區(qū)進(jìn)行寫操作時(shí),就會(huì)發(fā)生寫時(shí)復(fù)制,隨后內(nèi)核會(huì)在這里介紹的缺頁(yè)中斷程序中重新申請(qǐng)一個(gè)內(nèi)存頁(yè),然后將 page cache 中的內(nèi)容拷貝到這個(gè)新的內(nèi)存頁(yè)中,進(jìn)程頁(yè)表中對(duì)應(yīng)的 pte 會(huì)重新關(guān)聯(lián)到這個(gè)新的內(nèi)存頁(yè)上,此時(shí) pte 的權(quán)限變?yōu)榭蓪憽?/p>

在以上介紹的兩種寫時(shí)復(fù)制應(yīng)用場(chǎng)景中,他們都有一個(gè)共同的特點(diǎn),就是進(jìn)程的虛擬內(nèi)存區(qū)域 vma 的權(quán)限是可寫的,但是其對(duì)應(yīng)在頁(yè)表中的 pte 卻是只讀的,而 pte 映射的物理內(nèi)存頁(yè)也在內(nèi)存中

內(nèi)核正是利用這個(gè)特點(diǎn)來(lái)判斷本次缺頁(yè)中斷是否是由寫時(shí)復(fù)制引起的。如果是,則調(diào)用 do_wp_page 進(jìn)行寫時(shí)復(fù)制的缺頁(yè)處理。

    // 判斷本次缺頁(yè)是否為寫時(shí)復(fù)制引起的
    if (vmf->flags & FAULT_FLAG_WRITE) {
        // 這里說(shuō)明 vma 是可寫的,但是 pte 被標(biāo)記為不可寫,說(shuō)明是寫保護(hù)類型的中斷
        if (!pte_write(entry))
            // 進(jìn)行寫時(shí)復(fù)制處理,cow 就發(fā)生在這里
            return do_wp_page(vmf);
    }

在我們清楚了以上背景知識(shí)之后,再來(lái)看 handle_pte_fault 的缺頁(yè)處理邏輯就很清晰了:

static vm_fault_t handle_pte_fault(struct vm_fault *vmf)
{
    pte_t entry;

    if (unlikely(pmd_none(*vmf->pmd))) {
        // 如果 pmd 是空的,說(shuō)明現(xiàn)在連頁(yè)表都沒(méi)有,頁(yè)表項(xiàng) pte 自然是空的
        vmf->pte = NULL;
    } else {
        // vmf->pte 表示缺頁(yè)虛擬內(nèi)存地址在頁(yè)表中對(duì)應(yīng)的頁(yè)表項(xiàng) pte
        // 通過(guò) pte_offset_map 定位到虛擬內(nèi)存地址 address 對(duì)應(yīng)在頁(yè)表中的 pte
        // 這里根據(jù) address 獲取 pte_index,然后從 pmd 中提取頁(yè)表起始虛擬內(nèi)存地址相加獲取 pte
        vmf->pte = pte_offset_map(vmf->pmd, vmf->address);
        //  vmf->orig_pte 表示發(fā)生缺頁(yè)時(shí),address 對(duì)應(yīng)的 pte 值
        vmf->orig_pte = *vmf->pte;

        // 這里 pmd 不是空的,表示現(xiàn)在是有頁(yè)表存在的,但缺頁(yè)虛擬內(nèi)存地址在頁(yè)表中的 pte 是空值
        if (pte_none(vmf->orig_pte)) {
            pte_unmap(vmf->pte);
            vmf->pte = NULL;
        }
    }

    // pte 是空的,表示缺頁(yè)地址 address 還從來(lái)沒(méi)有被映射過(guò),接下來(lái)就要處理物理內(nèi)存的映射
    if (!vmf->pte) {
        // 判斷缺頁(yè)的虛擬內(nèi)存地址 address 所在的虛擬內(nèi)存區(qū)域 vma 是否是匿名映射區(qū)
        if (vma_is_anonymous(vmf->vma))
            // 處理匿名映射區(qū)發(fā)生的缺頁(yè)
            return do_anonymous_page(vmf);
        else
            // 處理文件映射區(qū)發(fā)生的缺頁(yè)
            return do_fault(vmf);
    }

    // 走到這里表示 pte 不是空的,但是 pte 中的 p 比特位是 0 值,表示之前映射的物理內(nèi)存頁(yè)已不在內(nèi)存中(swap out)
    if (!pte_present(vmf->orig_pte))
        // 將之前映射的物理內(nèi)存頁(yè)從磁盤中重新 swap in 到內(nèi)存中
        return do_swap_page(vmf);

    // 這里表示 pte 背后映射的物理內(nèi)存頁(yè)在內(nèi)存中,但是 NUMA Balancing 發(fā)現(xiàn)該內(nèi)存頁(yè)不在當(dāng)前進(jìn)程運(yùn)行的 numa 節(jié)點(diǎn)上
    // 所以將該 pte 標(biāo)記為 _PAGE_PROTNONE(無(wú)讀寫,可執(zhí)行權(quán)限)
    // 進(jìn)程訪問(wèn)該內(nèi)存頁(yè)時(shí)發(fā)生缺頁(yè)中斷,在這里的 do_numa_page 中,內(nèi)核將該 page 遷移到進(jìn)程運(yùn)行的 numa 節(jié)點(diǎn)上。
    if (pte_protnone(vmf->orig_pte) && vma_is_accessible(vmf->vma))
        return do_numa_page(vmf);

    entry = vmf->orig_pte;
    // 如果本次缺頁(yè)中斷是由寫操作引起的
    if (vmf->flags & FAULT_FLAG_WRITE) {
        // 這里說(shuō)明 vma 是可寫的,但是 pte 被標(biāo)記為不可寫,說(shuō)明是寫保護(hù)類型的中斷
        if (!pte_write(entry))
            // 進(jìn)行寫時(shí)復(fù)制處理,cow 就發(fā)生在這里
            return do_wp_page(vmf);
        // 如果 pte 是可寫的,就將 pte 標(biāo)記為臟頁(yè)
        entry = pte_mkdirty(entry);
    }
    // 將 pte 的 access 比特位置 1 ,表示該 page 是活躍的。避免被 swap 出去
    entry = pte_mkyoung(entry);

    // 經(jīng)過(guò)上面的缺頁(yè)處理,這里會(huì)判斷原來(lái)的頁(yè)表項(xiàng) entry(orig_pte) 值是否發(fā)生了變化
    // 如果發(fā)生了變化,就把 entry 更新到 vmf->pte 中。
    if (ptep_set_access_flags(vmf->vma, vmf->address, vmf->pte, entry,
                vmf->flags & FAULT_FLAG_WRITE)) {
        // pte 既然變化了,則刷新 mmu (體系結(jié)構(gòu)相關(guān))
        update_mmu_cache(vmf->vma, vmf->address, vmf->pte);
    } else {
        // 如果 pte 內(nèi)容本身沒(méi)有變化,則不需要刷新任何東西
        // 但是有個(gè)特殊情況就是寫保護(hù)類型中斷,產(chǎn)生的寫時(shí)復(fù)制,產(chǎn)生了新的映射關(guān)系,需要刷新一下 tlb
		/*
		 * This is needed only for protection faults but the arch code
		 * is not yet telling us if this is a protection fault or not.
		 * This still avoids useless tlb flushes for .text page faults
		 * with threads.
		 */
        if (vmf->flags & FAULT_FLAG_WRITE)
            flush_tlb_fix_spurious_fault(vmf->vma, vmf->address);
    }

    return 0;
}

7. do_anonymous_page 處理匿名頁(yè)缺頁(yè)

在本文的第五小節(jié)中,我們完成了各級(jí)頁(yè)目錄的補(bǔ)齊填充工作,但是現(xiàn)在最后一級(jí)頁(yè)表還沒(méi)有著落,所以在處理缺頁(yè)之前,我們需要調(diào)用 pte_alloc 繼續(xù)把頁(yè)表補(bǔ)齊了。

#define pte_alloc(mm, pmd) (unlikely(pmd_none(*(pmd))) && __pte_alloc(mm, pmd))

首先我們通過(guò) pmd_none 判斷缺頁(yè)地址 address 在進(jìn)程頁(yè)表中間頁(yè)目錄 PMD 中對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd 是否是空的,如果 pmd 是空的,說(shuō)明此時(shí)還不存在一級(jí)頁(yè)表,這樣一來(lái),就需要調(diào)用 __pte_alloc 來(lái)分配一張頁(yè)表,然后用頁(yè)表的 pfn 以及初始權(quán)限位 _PAGE_TABLE 來(lái)填充 pmd。

static inline void pmd_populate(struct mm_struct *mm, pmd_t *pmd,
                struct page *pte)
{
    // 通過(guò)頁(yè)表 page 獲取對(duì)應(yīng)的 pfn
    unsigned long pfn = page_to_pfn(pte);
    // 將頁(yè)表 page 的 pfn 以及初始權(quán)限位 _PAGE_TABLE 填充到 pmd 中
    set_pmd(pmd, __pmd(((pteval_t)pfn << PAGE_SHIFT) | _PAGE_TABLE));
}

這里 __pte_alloc 的流程邏輯和前面我們介紹的__pud_alloc,__pmd_alloc 可以說(shuō)是一模一樣,都是創(chuàng)建其下一級(jí)頁(yè)目錄或者頁(yè)表,然后填充對(duì)應(yīng)的頁(yè)目錄項(xiàng),這里就不做過(guò)多的介紹了。

int __pte_alloc(struct mm_struct *mm, pmd_t *pmd)
{
    spinlock_t *ptl;
    // 調(diào)用 get_zeroed_page 申請(qǐng)一個(gè) 4k 物理內(nèi)存頁(yè)并初始化為 0 值作為新的 頁(yè)表
    // new 指向新分配的 頁(yè)表 起始內(nèi)存地址
    pgtable_t new = pte_alloc_one(mm);
    if (!new)
        return -ENOMEM;
    // 鎖定中間頁(yè)目錄項(xiàng) pmd
    ptl = pmd_lock(mm, pmd);
    // 如果 pmd 是空的,說(shuō)明此時(shí) pmd 并未指向頁(yè)表,下面就需要用新頁(yè)表 new 來(lái)填充 pmd 
    if (likely(pmd_none(*pmd))) {  
        // 更新 mm->pgtables_bytes 計(jì)數(shù),該字段用于統(tǒng)計(jì)進(jìn)程頁(yè)表所占用的字節(jié)數(shù)
        // 由于這里新增了一張頁(yè)表,所以計(jì)數(shù)需要增加 PTRS_PER_PTE * sizeof(pte_t)
        mm_inc_nr_ptes(mm);
        // 將 new 指向的新分配出來(lái)的頁(yè)表 page 的 pfn 以及相關(guān)初始權(quán)限位填充到 pmd 中
        pmd_populate(mm, pmd, new);
        new = NULL;
    }
    spin_unlock(ptl);
    return 0;
}

// 頁(yè)表可以容納的頁(yè)表項(xiàng) pte_t 的個(gè)數(shù)
#define PTRS_PER_PTE  512

現(xiàn)在我們已經(jīng)有了一級(jí)頁(yè)表,但是頁(yè)表中的 pte 還都是空的,接下來(lái)就該用這個(gè)空的 pte 來(lái)映射物理內(nèi)存頁(yè)了。

首先我們通過(guò) alloc_zeroed_user_highpage_movable 來(lái)分配一個(gè)物理內(nèi)存頁(yè)出來(lái),關(guān)于物理內(nèi)存詳細(xì)的分配過(guò)程,感興趣的讀者可以看下筆者的這篇文章——《深入理解 Linux 物理內(nèi)存分配全鏈路實(shí)現(xiàn)》。

這個(gè)物理內(nèi)存頁(yè)就是為缺頁(yè)地址 address 映射的物理內(nèi)存了,隨后我們通過(guò) mk_pte 利用物理內(nèi)存頁(yè) page 的 pfn 以及缺頁(yè)內(nèi)存區(qū)域 vma 中記錄的頁(yè)屬性 vma->vm_page_prot 填充一個(gè)新的頁(yè)表項(xiàng) entry 出來(lái)。

entry 這里只是一個(gè)臨時(shí)的值,后續(xù)會(huì)將 entry 的值設(shè)置到真正的 pte 中。

#define mk_pte(page, pgprot)   pfn_pte(page_to_pfn(page), (pgprot))

如果缺頁(yè)內(nèi)存地址 address 所在的虛擬內(nèi)存區(qū)域 vma 是可寫的,那么我們就通過(guò) pte_mkwrite 和 pte_mkdirty 將臨時(shí)頁(yè)表項(xiàng) entry 的 R/W(1) 比特位和D(6) 比特位置為 1 。表示該頁(yè)表項(xiàng)背后映射的物理內(nèi)存頁(yè) page 是可寫的,并且標(biāo)記為臟頁(yè)。

  if (vma->vm_flags & VM_WRITE)
        entry = pte_mkwrite(pte_mkdirty(entry));

注意,此時(shí)缺頁(yè)內(nèi)存地址 address 在頁(yè)表中的 pte 還是空的,我們還沒(méi)有設(shè)置呢,目前只是先將值初始化到臨時(shí)的頁(yè)表項(xiàng) entry 中,下面才到設(shè)置真正的 pte 的時(shí)候。

調(diào)用 pte_offset_map_lock,首先獲取 address 在一級(jí)頁(yè)表中的真正 pte,然后將一級(jí)頁(yè)表鎖定。

#define pte_offset_map_lock(mm, pmd, address, ptlp) \
({                          \
    // 獲取 pmd 映射的一級(jí)頁(yè)表鎖
    spinlock_t *__ptl = pte_lockptr(mm, pmd);   \
    // 獲取 pte
    pte_t *__pte = pte_offset_map(pmd, address);    \
    *(ptlp) = __ptl;                \
    // 鎖定一級(jí)頁(yè)表
    spin_lock(__ptl);               \
    __pte;                      \
})

按理說(shuō)此時(shí)獲取到的 pte 應(yīng)該是空的,如果 pte 不為空,說(shuō)明已經(jīng)有其他線程把缺頁(yè)處理好了,pte 已經(jīng)被填充了,那么本次缺頁(yè)處理就該停止,不能在往下走了,直接跳轉(zhuǎn)到 release 處,釋放頁(yè)表鎖,釋放新分配的物理內(nèi)存頁(yè) page。

    if (!pte_none(*vmf->pte))
        goto release;

如果 pte 為空,說(shuō)明此時(shí)沒(méi)有其他線程對(duì)缺頁(yè)進(jìn)行并發(fā)處理,我們可以接著處理缺頁(yè)。

進(jìn)程使用到的常駐內(nèi)存等相關(guān)統(tǒng)計(jì)信息保存在 task->rss_stat 字段中:

struct task_struct {
    // 統(tǒng)計(jì)進(jìn)程常駐內(nèi)存信息
    struct task_rss_stat rss_stat;
}

由于這里我們新分配一個(gè)匿名內(nèi)存頁(yè)用于缺頁(yè)處理,所以相關(guān) rss_stat 統(tǒng)計(jì)信息 —— task->rss_stat.count[MM_ANONPAGES] 要加 1 。

// MM_ANONPAGES —— Resident anonymous pages 
inc_mm_counter_fast(vma->vm_mm, MM_ANONPAGES);

#define inc_mm_counter_fast(mm, member) add_mm_counter_fast(mm, member, 1)

static void add_mm_counter_fast(struct mm_struct *mm, int member, int val)
{
	struct task_struct *task = current;

	if (likely(task->mm == mm))
		task->rss_stat.count[member] += val;
	else
		add_mm_counter(mm, member, val);
}

隨后調(diào)用 page_add_new_anon_rmap 建立匿名頁(yè)的反向映射關(guān)系,關(guān)于匿名頁(yè)的反向映射筆者已經(jīng)在之前的文章 —— ?《深入理解 Linux 物理內(nèi)存管理》 中詳細(xì)介紹過(guò)了,感興趣的朋友可以回看下。

反向映射建立好之后,調(diào)用 lru_cache_add_active_or_unevictable 將匿名內(nèi)存頁(yè)加入到 LRU 活躍鏈表中。

最后調(diào)用 set_pte_at 將之間我們臨時(shí)填充的頁(yè)表項(xiàng) entry 賦值給缺頁(yè) address 真正對(duì)應(yīng)的 pte。

set_pte_at(vma->vm_mm, vmf->address, vmf->pte, entry);

#define set_pte_at(mm, addr, ptep, pte)	native_set_pte_at(mm, addr, ptep, pte)

static inline void native_set_pte_at(struct mm_struct *mm, unsigned long addr,
				     pte_t *ptep , pte_t pte)
{
	native_set_pte(ptep, pte);
}

static inline void native_set_pte(pte_t *ptep, pte_t pte)
{
	WRITE_ONCE(*ptep, pte);
}

到這里我們才算是真正把進(jìn)程的頁(yè)表體系給補(bǔ)齊了。

在明白以上內(nèi)容之后,我們回過(guò)頭來(lái)看在 do_anonymous_page 匿名頁(yè)缺頁(yè)處理的邏輯就很清晰了:

static vm_fault_t do_anonymous_page(struct vm_fault *vmf)
{
    // 缺頁(yè)地址 address 所在的虛擬內(nèi)存區(qū)域 vma
    struct vm_area_struct *vma = vmf->vma;
    // 指向分配的物理內(nèi)存頁(yè),后面與虛擬內(nèi)存進(jìn)行映射
    struct page *page;
    vm_fault_t ret = 0;
    // 臨時(shí)的 pte 用于構(gòu)建 pte 中的值,后續(xù)會(huì)賦值給 address 在頁(yè)表中對(duì)應(yīng)的真正 pte
    pte_t entry;

    // 如果 pmd 是空的,表示現(xiàn)在還沒(méi)有一級(jí)頁(yè)表
    // pte_alloc 這里會(huì)創(chuàng)建一級(jí)頁(yè)表,并填充 pmd 中的內(nèi)容
    if (pte_alloc(vma->vm_mm, vmf->pmd))
        return VM_FAULT_OOM;
  
    // 頁(yè)表創(chuàng)建好之后,這里從伙伴系統(tǒng)中分配一個(gè) 4K 物理內(nèi)存頁(yè)出來(lái)
    page = alloc_zeroed_user_highpage_movable(vma, vmf->address);
    if (!page)
        goto oom;
    // 將 page 的 pfn 以及相關(guān)權(quán)限標(biāo)記位 vm_page_prot 初始化一個(gè)臨時(shí) pte 出來(lái) 
    entry = mk_pte(page, vma->vm_page_prot);
    // 如果 vma 是可寫的,則將 pte 標(biāo)記為可寫,臟頁(yè)。
    if (vma->vm_flags & VM_WRITE)
        entry = pte_mkwrite(pte_mkdirty(entry));
    // 鎖定一級(jí)頁(yè)表,并獲取 address 在頁(yè)表中對(duì)應(yīng)的真實(shí) pte
    vmf->pte = pte_offset_map_lock(vma->vm_mm, vmf->pmd, vmf->address,
            &vmf->ptl);
    // 是否有其他線程在并發(fā)處理缺頁(yè)
    if (!pte_none(*vmf->pte))
        goto release;
    // 增加 進(jìn)程 rss 相關(guān)計(jì)數(shù),匿名內(nèi)存頁(yè)計(jì)數(shù) + 1
    inc_mm_counter_fast(vma->vm_mm, MM_ANONPAGES);
    // 建立匿名頁(yè)反向映射關(guān)系
    page_add_new_anon_rmap(page, vma, vmf->address, false);
    // 將匿名頁(yè)添加到 LRU 鏈表中
    lru_cache_add_active_or_unevictable(page, vma);
setpte:
    // 將 entry 賦值給真正的 pte,這里 pte 就算被填充好了,進(jìn)程頁(yè)表體系也就補(bǔ)齊了
    set_pte_at(vma->vm_mm, vmf->address, vmf->pte, entry);
    // 刷新 mmu 
    update_mmu_cache(vma, vmf->address, vmf->pte);
unlock:
    // 解除 pte 的映射
    pte_unmap_unlock(vmf->pte, vmf->ptl);
    return ret;
release:
    // 釋放 page 
    put_page(page);
    goto unlock;
oom:
    return VM_FAULT_OOM;
}

8. do_fault 處理文件頁(yè)缺頁(yè)

筆者在之前的文章《從內(nèi)核世界透視 mmap 內(nèi)存映射的本質(zhì)(源碼實(shí)現(xiàn)篇)》?中,在為大家介紹到 mmap 文件映射的源碼實(shí)現(xiàn)時(shí),特別強(qiáng)調(diào)了一下,mmap 內(nèi)存文件映射的本質(zhì)其實(shí)就是將虛擬映射區(qū) vma 的相關(guān)操作 vma->vm_ops 映射成文件的相關(guān)操作 ext4_file_vm_ops。

unsigned long mmap_region(struct file *file, unsigned long addr,
        unsigned long len, vm_flags_t vm_flags, unsigned long pgoff,
        struct list_head *uf)
{
                  ........ 省略 ........
    // 文件映射
    if (file) {
        // 將文件與虛擬內(nèi)存映射起來(lái)
        vma->vm_file = get_file(file);
        // 這一步中將虛擬內(nèi)存區(qū)域 vma 的操作函數(shù) vm_ops 映射成文件的操作函數(shù)(和具體文件系統(tǒng)有關(guān))
        // ext4 文件系統(tǒng)中的操作函數(shù)為 ext4_file_vm_ops
        // 從這一刻開始,讀寫內(nèi)存就和讀寫文件是一樣的了
        error = call_mmap(file, vma);
    } 
}

static int ext4_file_mmap(struct file *file, struct vm_area_struct *vma)
{     
      vma->vm_ops = &ext4_file_vm_ops;
}

在 vma->vm_ops 中有個(gè)重要的函數(shù) fault,在 ext4 文件系統(tǒng)中的實(shí)現(xiàn)是:ext4_filemap_fault 函數(shù)。

static const struct vm_operations_struct ext4_file_vm_ops = {
    .fault      = ext4_filemap_fault,
    .map_pages  = filemap_map_pages,
    .page_mkwrite   = ext4_page_mkwrite,
};

vma->vm_ops->fault 函數(shù)就是專門用于處理文件映射區(qū)缺頁(yè)的,本小節(jié)要介紹的文件頁(yè)的缺頁(yè)處理的核心就是依賴這個(gè)函數(shù)完成的。

我們知道 mmap 進(jìn)行文件映射的時(shí)候只是單純地建立了虛擬內(nèi)存與文件之間的映射關(guān)系,此時(shí)并沒(méi)有物理內(nèi)存分配。當(dāng)進(jìn)程對(duì)這段文件映射區(qū)進(jìn)行讀取操作的時(shí)候,會(huì)觸發(fā)缺頁(yè),然后分配物理內(nèi)存(文件頁(yè)),這一部分邏輯在下面的 do_read_fault 函數(shù)中完成,它主要處理的是由于對(duì)文件映射區(qū)的讀取操作而引起的缺頁(yè)情況。

而 mmap 文件映射又分為私有文件映射與共享文件映射兩種映射方式,而私有文件映射的核心特點(diǎn)是讀共享的,當(dāng)任意進(jìn)程對(duì)私有文件映射區(qū)發(fā)生寫入操作時(shí)候,就會(huì)發(fā)生寫時(shí)復(fù)制 COW,這一部分邏輯在下面的 do_cow_fault 函數(shù)中完成。

對(duì)共享文件映射區(qū)進(jìn)行的寫入操作而引起的缺頁(yè),內(nèi)核放在 do_shared_fault 函數(shù)中進(jìn)行處理。

static vm_fault_t do_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    struct mm_struct *vm_mm = vma->vm_mm;
    vm_fault_t ret;

    // 處理 vm_ops->fault 為 null 的異常情況
    if (!vma->vm_ops->fault) {
        // 如果中間頁(yè)目錄 pmd 指向的一級(jí)頁(yè)表不在內(nèi)存中,則返回 SIGBUS 錯(cuò)誤
        if (unlikely(!pmd_present(*vmf->pmd)))
            ret = VM_FAULT_SIGBUS;
        else {
            // 獲取缺頁(yè)的頁(yè)表項(xiàng) pte
            vmf->pte = pte_offset_map_lock(vmf->vma->vm_mm,
                               vmf->pmd,
                               vmf->address,
                               &vmf->ptl);
            // pte 為空,則返回 SIGBUS 錯(cuò)誤
            if (unlikely(pte_none(*vmf->pte)))
                ret = VM_FAULT_SIGBUS;
            else
                // pte 不為空,返回 NOPAGE,即本次缺頁(yè)處理不會(huì)分配物理內(nèi)存頁(yè)
                ret = VM_FAULT_NOPAGE;

            pte_unmap_unlock(vmf->pte, vmf->ptl);
        }
    } else if (!(vmf->flags & FAULT_FLAG_WRITE))
        // 缺頁(yè)如果是讀操作引起的,進(jìn)入 do_read_fault 處理
        ret = do_read_fault(vmf);
    else if (!(vma->vm_flags & VM_SHARED))
        // 缺頁(yè)是由私有映射區(qū)的寫入操作引起的,則進(jìn)入 do_cow_fault 處理寫時(shí)復(fù)制
        ret = do_cow_fault(vmf);
    else
        // 處理共享映射區(qū)的寫入缺頁(yè)
        ret = do_shared_fault(vmf);

    return ret;
}

8.1 do_read_fault 處理讀操作引起的缺頁(yè)

當(dāng)我們調(diào)用 mmap 對(duì)文件進(jìn)行映射的時(shí)候,無(wú)論是采用私有文件映射的方式還是共享文件映射的方式,內(nèi)核都只是會(huì)在進(jìn)程的地址空間中為本次映射創(chuàng)建出一段虛擬映射區(qū) vma 出來(lái),然后將這段虛擬映射區(qū) vma 與映射文件關(guān)聯(lián)起來(lái)就結(jié)束了,整個(gè)映射過(guò)程并未涉及到物理內(nèi)存的分配。

下面是多進(jìn)程對(duì)同一文件中的同一段文件區(qū)域進(jìn)行私有映射后,內(nèi)核中的結(jié)構(gòu)圖:

當(dāng)任意進(jìn)程開始訪問(wèn)其地址空間中的這段虛擬內(nèi)存區(qū)域 vma 時(shí),由于背后沒(méi)有對(duì)應(yīng)文件頁(yè)進(jìn)行映射,所以會(huì)發(fā)生缺頁(yè)中斷,在缺頁(yè)中斷中內(nèi)核會(huì)首先分配一個(gè)物理內(nèi)存頁(yè)并加入到 page cache 中,隨后將映射的文件內(nèi)容讀取到剛剛創(chuàng)建出來(lái)的物理內(nèi)存頁(yè)中,然后將這個(gè)物理內(nèi)存頁(yè)映射到缺頁(yè)虛擬內(nèi)存地址 address 對(duì)應(yīng)在進(jìn)程頁(yè)表中的 pte 中。

除此之外,內(nèi)核還會(huì)考慮到進(jìn)程訪問(wèn)內(nèi)存的空間局部性,所以內(nèi)核除了會(huì)映射本次缺頁(yè)需要的文件頁(yè)之外,還會(huì)將其相鄰的文件頁(yè)讀取到 page cache 中,然后將這些相鄰的文件頁(yè)映射到對(duì)應(yīng)的 pte 中。這一部分預(yù)先提前映射的邏輯在 map_pages 函數(shù)中實(shí)現(xiàn)。

static const struct vm_operations_struct ext4_file_vm_ops = {
    .fault      = ext4_filemap_fault,
    .map_pages  = filemap_map_pages,
    .page_mkwrite   = ext4_page_mkwrite,
};

如果不滿足預(yù)先提前映射的條件,那么內(nèi)核就只會(huì)專注處理映射本次缺頁(yè)所需要的文件頁(yè)。

首先通過(guò)上面的 fault 函數(shù),當(dāng)映射文件所在文件系統(tǒng)是 ext4 時(shí),該函數(shù)的實(shí)現(xiàn)為 ext4_filemap_fault,該函數(shù)只負(fù)責(zé)獲取本次缺頁(yè)所需要的文件頁(yè)。

當(dāng)獲取到文件頁(yè)之后,內(nèi)核會(huì)調(diào)用 finish_fault 函數(shù),將文件頁(yè)映射到缺頁(yè)地址 address 在進(jìn)程頁(yè)表中對(duì)應(yīng)的 pte 中,do_read_fault 函數(shù)處理就完成了,不過(guò)需要注意的是,對(duì)于私有文件映射的話,此時(shí)的這個(gè) pte 還是只讀的,多進(jìn)程之間讀共享,當(dāng)任意進(jìn)程嘗試寫入的時(shí)候,會(huì)發(fā)生寫時(shí)復(fù)制。

static unsigned long fault_around_bytes __read_mostly =
	rounddown_pow_of_two(65536);

static vm_fault_t do_read_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    vm_fault_t ret = 0;

    // map_pages 用于提前預(yù)先映射文件頁(yè)相鄰的若干文件頁(yè)到相關(guān) pte 中,從而減少缺頁(yè)次數(shù)
    // fault_around_bytes 控制預(yù)先映射的的字節(jié)數(shù)默認(rèn)初始值為 65536(16個(gè)物理內(nèi)存頁(yè))
    if (vma->vm_ops->map_pages && fault_around_bytes >> PAGE_SHIFT > 1) {
        // 這里會(huì)嘗試使用 map_pages 將缺頁(yè)地址 address 附近的文件頁(yè)預(yù)讀進(jìn) page cache
        // 然后填充相關(guān)的 pte,目的是減少缺頁(yè)次數(shù)
        ret = do_fault_around(vmf);
        if (ret)
            return ret;
    }

    // 如果不滿足預(yù)先映射的條件,則只映射本次需要的文件頁(yè)
    // 首先會(huì)從 page cache 中讀取文件頁(yè),如果 page cache 中不存在則從磁盤中讀取,并預(yù)讀若干文件頁(yè)到 page cache 中
    ret = __do_fault(vmf);     // 這里需要負(fù)責(zé)獲取文件頁(yè),并不映射
    // 將本次缺頁(yè)所需要的文件頁(yè)映射到 pte 中。
    ret |= finish_fault(vmf);
    unlock_page(vmf->page);
    return ret;
}

__do_fault 函數(shù)底層會(huì)調(diào)用到 vma->vm_ops->fault,在 ext4 文件系統(tǒng)中對(duì)應(yīng)的實(shí)現(xiàn)是 ext4_filemap_fault。

static vm_fault_t __do_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    vm_fault_t ret;
          ...... 省略 ......
    ret = vma->vm_ops->fault(vmf);
          ...... 省略 ......
    return ret;
}

vm_fault_t ext4_filemap_fault(struct vm_fault *vmf)
{
    ret = filemap_fault(vmf);
    return ret;
}

filemap_fault 主要的任務(wù)就是先把缺頁(yè)所需要的文件頁(yè)獲取出來(lái),為后面的映射做準(zhǔn)備。

以下內(nèi)容涉及到文件以及 page cache 的相關(guān)操作,對(duì)細(xì)節(jié)感興趣的讀者可以回看下筆者之前的文章 —— 《從 Linux 內(nèi)核角度探秘 JDK NIO 文件讀寫本質(zhì)》

內(nèi)核在這里首先會(huì)調(diào)用 find_get_page 從 page cache 中嘗試獲取文件頁(yè),如果文件頁(yè)存在,則繼續(xù)調(diào)用 do_async_mmap_readahead 啟動(dòng)異步預(yù)讀機(jī)制,將相鄰的若干文件頁(yè)一起預(yù)讀進(jìn) page cache 中。

如果文件頁(yè)不在 page cache 中,內(nèi)核則會(huì)調(diào)用 do_sync_mmap_readahead 來(lái)同步預(yù)讀,這里首先會(huì)分配一個(gè)物理內(nèi)存頁(yè)出來(lái),然后將新分配的內(nèi)存頁(yè)加入到 page cache 中,并增加頁(yè)引用計(jì)數(shù)。

隨后會(huì)通過(guò) address_space_operations 中定義的 readpage 激活塊設(shè)備驅(qū)動(dòng)從磁盤中讀取映射的文件內(nèi)容,然后將讀取到的內(nèi)容填充新分配的內(nèi)存頁(yè)中。并同步預(yù)讀若干相鄰的文件頁(yè)到 page cache 中。

static const struct address_space_operations ext4_aops = {
    .readpage       = ext4_readpage
}
vm_fault_t filemap_fault(struct vm_fault *vmf)
{
    int error;
    // 獲取映射文件
    struct file *file = vmf->vma->vm_file;
    // 獲取 page cache
    struct address_space *mapping = file->f_mapping;    
    // 獲取映射文件的 inode
    struct inode *inode = mapping->host;
    // 獲取映射文件內(nèi)容在文件中的偏移
    pgoff_t offset = vmf->pgoff;
    // 從 page cache 讀取到的文件頁(yè),存放在 vmf->page 中返回
    struct page *page;
    vm_fault_t ret = 0;

    // 根據(jù)文件偏移 offset,到 page cache 中查找對(duì)應(yīng)的文件頁(yè)
    page = find_get_page(mapping, offset);
    if (likely(page) && !(vmf->flags & FAULT_FLAG_TRIED)) {
        // 如果文件頁(yè)在 page cache 中,則啟動(dòng)異步預(yù)讀,預(yù)讀后面的若干文件頁(yè)到 page cache 中
        fpin = do_async_mmap_readahead(vmf, page);
    } else if (!page) {
        // 如果文件頁(yè)不在 page cache,那么就需要啟動(dòng) io 從文件中讀取內(nèi)容到 page cahe
        // 由于涉及到了磁盤 io ,所以本次缺頁(yè)類型為 VM_FAULT_MAJOR
        count_vm_event(PGMAJFAULT);
        count_memcg_event_mm(vmf->vma->vm_mm, PGMAJFAULT);
        ret = VM_FAULT_MAJOR;
        // 啟動(dòng)同步預(yù)讀,將所需的文件數(shù)據(jù)讀取進(jìn) page cache 中并同步預(yù)讀若干相鄰的文件數(shù)據(jù)到 page cache 
        fpin = do_sync_mmap_readahead(vmf);
retry_find:
        // 嘗試到 page cache 中重新讀取文件頁(yè),這一次就可以讀到了
        page = pagecache_get_page(mapping, offset,
                      FGP_CREAT|FGP_FOR_MMAP,
                      vmf->gfp_mask);
        }
    }

    ..... 省略 ......
}
EXPORT_SYMBOL(filemap_fault);

文件頁(yè)現(xiàn)在有了,接下來(lái)內(nèi)核就會(huì)調(diào)用 finish_fault 將文件頁(yè)映射到 pte 中。

vm_fault_t finish_fault(struct vm_fault *vmf)
{
    // 為本次缺頁(yè)準(zhǔn)備好的物理內(nèi)存頁(yè),即后續(xù)需要用 pte 映射的內(nèi)存頁(yè)
    struct page *page;
    vm_fault_t ret = 0;

    if ((vmf->flags & FAULT_FLAG_WRITE) &&
        !(vmf->vma->vm_flags & VM_SHARED))
        // 如果是寫時(shí)復(fù)制場(chǎng)景,那么 pte 要映射的是這個(gè) cow 復(fù)制過(guò)來(lái)的內(nèi)存頁(yè)
        page = vmf->cow_page;
    else
        // 在 filemap_fault 函數(shù)中讀取到的文件頁(yè),后面需要將文件頁(yè)映射到 pte 中
        page = vmf->page;

    // 對(duì)于私有映射來(lái)說(shuō),這里需要檢查進(jìn)程地址空間是否被標(biāo)記了 MMF_UNSTABLE
    // 如果是,那么 oom 后續(xù)會(huì)回收這塊地址空間,這會(huì)導(dǎo)致私有映射的文件頁(yè)丟失
    // 所以在為私有映射建立 pte 映射之前,需要檢查一下
    if (!(vmf->vma->vm_flags & VM_SHARED))
        // 地址空間沒(méi)有被標(biāo)記 MMF_UNSTABLE 則會(huì)返回 o
        ret = check_stable_address_space(vmf->vma->vm_mm);
    if (!ret)
        // 將創(chuàng)建出來(lái)的物理內(nèi)存頁(yè)映射到 address 對(duì)應(yīng)在頁(yè)表中的 pte 中
        ret = alloc_set_pte(vmf, vmf->memcg, page);
    if (vmf->pte)
        // 釋放頁(yè)表鎖
        pte_unmap_unlock(vmf->pte, vmf->ptl);
    return ret;
}

alloc_set_pte 將之前我們準(zhǔn)備好的文件頁(yè),映射到缺頁(yè)地址 address 在進(jìn)程頁(yè)表對(duì)應(yīng)的 pte 中。

vm_fault_t alloc_set_pte(struct vm_fault *vmf, struct mem_cgroup *memcg,
        struct page *page)
{
    struct vm_area_struct *vma = vmf->vma;
    // 判斷本次缺頁(yè)是否是 寫時(shí)復(fù)制
    bool write = vmf->flags & FAULT_FLAG_WRITE;
    pte_t entry;
    vm_fault_t ret;
    // 如果頁(yè)表還不存在,需要先創(chuàng)建一個(gè)頁(yè)表出來(lái)
    if (!vmf->pte) {
        // 如果 pmd 為空,則創(chuàng)建一個(gè)頁(yè)表出來(lái),并填充 pmd
        // 如果頁(yè)表存在,則獲取 address 在頁(yè)表中對(duì)應(yīng)的 pte 保存在 vmf->pte 中
        ret = pte_alloc_one_map(vmf);
        if (ret)
            return ret;
    }
    // 根據(jù)之前分配出來(lái)的內(nèi)存頁(yè) pfn 以及相關(guān)頁(yè)屬性 vma->vm_page_prot 構(gòu)造一個(gè) pte 出來(lái)
    // 對(duì)于私有文件映射來(lái)說(shuō),這里的 pte 是只讀的
    entry = mk_pte(page, vma->vm_page_prot);
    // 如果是寫時(shí)復(fù)制,這里才會(huì)將 pte 改為可寫的
    if (write) 
        entry = maybe_mkwrite(pte_mkdirty(entry), vma);
    // 將構(gòu)造出來(lái)的 pte (entry)賦值給 address 在頁(yè)表中真正對(duì)應(yīng)的 vmf->pte
    // 現(xiàn)在進(jìn)程頁(yè)表體系就全部被構(gòu)建出來(lái)了,文件頁(yè)缺頁(yè)處理到此結(jié)束
    set_pte_at(vma->vm_mm, vmf->address, vmf->pte, entry);
    // 刷新 mmu
    update_mmu_cache(vma, vmf->address, vmf->pte);

    return 0;
}

8.2 do_cow_fault 處理私有文件映射的寫時(shí)復(fù)制

上小節(jié) do_read_fault 函數(shù)處理的場(chǎng)景是,進(jìn)程在調(diào)用 mmap 對(duì)文件進(jìn)行私有映射或者共享映射之后,立馬進(jìn)行讀取的缺頁(yè)場(chǎng)景。

但是如果當(dāng)我們采用的是 mmap 進(jìn)行私有文件映射時(shí),在映射之后,立馬進(jìn)行寫入操作時(shí),就會(huì)發(fā)生寫時(shí)復(fù)制,寫時(shí)復(fù)制的缺頁(yè)處理流程內(nèi)核封裝在 do_cow_fault 函數(shù)中。

由于我們這里要進(jìn)行寫時(shí)復(fù)制,所以首先要調(diào)用 alloc_page_vma 從伙伴系統(tǒng)中重新申請(qǐng)一個(gè)物理內(nèi)存頁(yè)出來(lái),我們先把這個(gè)剛剛新申請(qǐng)出來(lái)用于寫時(shí)復(fù)制的內(nèi)存頁(yè)稱為 cow_page

然后調(diào)用上小節(jié)中介紹的 __do_fault 函數(shù),將原來(lái)的文件頁(yè)從 page cache 中讀取出來(lái),我們把原來(lái)的文件頁(yè)稱為 page 。

最后調(diào)用 copy_user_highpage 將原來(lái)文件頁(yè) page 中的內(nèi)容拷貝到剛剛新申請(qǐng)的內(nèi)存頁(yè) cow_page 中,完成寫時(shí)復(fù)制之后,接著調(diào)用 finish_fault 將 cow_page 映射到缺頁(yè)地址 address 在進(jìn)程頁(yè)表中的 pte 上。

這樣一來(lái),進(jìn)程的這段虛擬文件映射區(qū)就映射到了專屬的物理內(nèi)存頁(yè) cow_page 上,而且內(nèi)容和原來(lái)文件頁(yè) page 中的內(nèi)容一模一樣,進(jìn)程對(duì)各自虛擬內(nèi)存區(qū)的修改只能反應(yīng)到各自對(duì)應(yīng)的 cow_page上,而且各自的修改在進(jìn)程之間是互不可見(jiàn)的。

由于 cow_page 已經(jīng)脫離了 page cache,所以這些修改也都不會(huì)回寫到磁盤文件中,這就是私有文件映射的核心特點(diǎn)。

static vm_fault_t do_cow_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    vm_fault_t ret;
    // 從伙伴系統(tǒng)重新申請(qǐng)一個(gè)用于寫時(shí)復(fù)制的物理內(nèi)存頁(yè) cow_page
    vmf->cow_page = alloc_page_vma(GFP_HIGHUSER_MOVABLE, vma, vmf->address);
    // 從  page cache 讀取原來(lái)的文件頁(yè)
    ret = __do_fault(vmf);
    // 將原來(lái)文件頁(yè)中的內(nèi)容拷貝到 cow_page 中完成寫時(shí)復(fù)制
    copy_user_highpage(vmf->cow_page, vmf->page, vmf->address, vma);
    // 將 cow_page 重新映射到缺頁(yè)地址 address 對(duì)應(yīng)在頁(yè)表中的 pte 上。
    ret |= finish_fault(vmf);
    unlock_page(vmf->page);
    // 原來(lái)的文件頁(yè)引用計(jì)數(shù) - 1
    put_page(vmf->page);
    return ret;
}

8.3 do_shared_fault 處理對(duì)共享文件映射區(qū)寫入引起的缺頁(yè)

上小節(jié)我們介紹的 do_cow_fault 函數(shù)處理的場(chǎng)景是,當(dāng)我們采用 mmap 進(jìn)行私有文件映射之后,立即對(duì)虛擬映射區(qū)進(jìn)行寫入操作之后的缺頁(yè)處理邏輯。

如果我們調(diào)用 mmap 對(duì)文件進(jìn)行共享文件映射之后,然后立即對(duì)虛擬映射區(qū)進(jìn)行寫入操作,這背后的缺頁(yè)處理邏輯又是怎樣的呢 ?

其實(shí)和之前的文件缺頁(yè)處理邏輯的核心流程都差不多,不同的是由于這里我們進(jìn)行的共享文件映射,所以多個(gè)進(jìn)程中的虛擬文件映射區(qū)都會(huì)映射到 page cache 中的文件頁(yè)上,由于沒(méi)有寫時(shí)復(fù)制,所以進(jìn)程對(duì)文件頁(yè)的修改都會(huì)直接反映到 page cache 中,近而后續(xù)會(huì)回寫到磁盤文件上。

由于共享文件映射涉及到臟頁(yè)回寫,所以在共享文件映射的缺頁(yè)處理場(chǎng)景中,為了防止數(shù)據(jù)的丟失會(huì)額外有一些文件系統(tǒng)日志的記錄工作。

static vm_fault_t do_shared_fault(struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    vm_fault_t ret, tmp;
    // 從 page cache 中讀取文件頁(yè)
    ret = __do_fault(vmf);
   
    if (vma->vm_ops->page_mkwrite) {
        unlock_page(vmf->page);
        // 將文件頁(yè)變?yōu)榭蓪憼顟B(tài),并為后續(xù)記錄文件日志做一些準(zhǔn)備工作
        tmp = do_page_mkwrite(vmf);
    }

    // 將文件頁(yè)映射到缺頁(yè) address 在頁(yè)表中對(duì)應(yīng)的 pte 上
    ret |= finish_fault(vmf);

    // 將 page 標(biāo)記為臟頁(yè),記錄相關(guān)文件系統(tǒng)的日志,防止數(shù)據(jù)丟失
    // 判斷是否將臟頁(yè)回寫
    fault_dirty_shared_page(vma, vmf->page);
    return ret;
}

9. do_wp_page 進(jìn)行寫時(shí)復(fù)制

本小節(jié)即將要介紹的 do_wp_page 函數(shù)和之前介紹的 do_cow_fault 函數(shù)都是用于處理寫時(shí)復(fù)制的,其最為核心的邏輯都是差不多的,只是在觸發(fā)場(chǎng)景上會(huì)略有不同。

do_cow_fault 函數(shù)主要處理的寫時(shí)復(fù)制場(chǎng)景是,當(dāng)我們使用 mmap 進(jìn)行私有文件映射時(shí),在剛映射完之后,此時(shí)進(jìn)程的頁(yè)表或者相關(guān)頁(yè)表項(xiàng) pte 還是空的,就立即進(jìn)行寫入操作。

do_wp_page 函數(shù)主要處理的寫時(shí)復(fù)制場(chǎng)景是,訪問(wèn)的這塊虛擬內(nèi)存背后是有物理內(nèi)存頁(yè)映射的,對(duì)應(yīng)的 pte 不為空,只不過(guò)相關(guān) pte 的權(quán)限是只讀的,而虛擬內(nèi)存區(qū)域 vma 是有寫權(quán)限的,在這種類型的虛擬內(nèi)存進(jìn)行寫入操作的時(shí)候,觸發(fā)的寫時(shí)復(fù)制就在 do_wp_page 函數(shù)中處理。

比如,我們使用 mmap 進(jìn)行私有文件映射之后,此時(shí)只是分配了虛擬內(nèi)存,進(jìn)程頁(yè)表或者相關(guān) pte 還是空的,這時(shí)對(duì)這塊映射的虛擬內(nèi)存進(jìn)行訪問(wèn)的時(shí)候就會(huì)觸發(fā)缺頁(yè)中斷,最后在之前介紹的 do_read_fault 函數(shù)中將映射的文件內(nèi)容加載到 page cache 中,pte 指向 page cache 中的文件頁(yè)。

但此時(shí)的 pte 是只讀的,如果我們對(duì)這塊映射的虛擬內(nèi)存進(jìn)行寫入操作,就會(huì)發(fā)生寫時(shí)復(fù)制,由于現(xiàn)在 pte 不為空,背后也映射著文件頁(yè),所以會(huì)在 do_wp_page 函數(shù)中進(jìn)行處理。

除了私有映射的文件頁(yè)之外,do_wp_page 還會(huì)對(duì)匿名頁(yè)相關(guān)的寫時(shí)復(fù)制進(jìn)行處理。

比如,我們通過(guò) fork 系統(tǒng)調(diào)用創(chuàng)建子進(jìn)程的時(shí)候,內(nèi)核會(huì)拷貝父進(jìn)程占用的所有資源到子進(jìn)程中,其中也包括了父進(jìn)程的地址空間以及父進(jìn)程的頁(yè)表。

一個(gè)進(jìn)程中申請(qǐng)的物理內(nèi)存頁(yè)既會(huì)有文件頁(yè)也會(huì)有匿名頁(yè),而這些文件頁(yè)和匿名頁(yè)既可以是私有的也可以是共享的,當(dāng)內(nèi)核在拷貝父進(jìn)程的頁(yè)表時(shí),如果遇到私有的匿名頁(yè)或者文件頁(yè),就會(huì)將其對(duì)應(yīng)在父子進(jìn)程頁(yè)表中的 pte 設(shè)置為只讀,進(jìn)行寫保護(hù)。并將父子進(jìn)程共同引用的匿名頁(yè)或者文件頁(yè)的引用計(jì)數(shù)加 1。

static inline unsigned long
copy_one_pte(struct mm_struct *dst_mm, struct mm_struct *src_mm,
        pte_t *dst_pte, pte_t *src_pte, struct vm_area_struct *vma,
        unsigned long addr, int *rss)
{
    /*
     * If it's a COW mapping, write protect it both
     * in the parent and the child
     */
    if (is_cow_mapping(vm_flags) && pte_write(pte)) {
        // 設(shè)置父進(jìn)程的 pte 為只讀
        ptep_set_wrprotect(src_mm, addr, src_pte);
        // 設(shè)置子進(jìn)程的 pte 為只讀
        pte = pte_wrprotect(pte);
    }
    // 獲取 pte 中映射的物理內(nèi)存頁(yè)(此時(shí)父子進(jìn)程共享該頁(yè))
    page = vm_normal_page(vma, addr, pte);
    // 物理內(nèi)存頁(yè)的引用技術(shù) + 1
    get_page(page);
}

static inline bool is_cow_mapping(vm_flags_t flags)
{
        // vma 是私有可寫的
	return (flags & (VM_SHARED | VM_MAYWRITE)) == VM_MAYWRITE;
}

現(xiàn)在父子進(jìn)程擁有了一模一樣的地址空間,頁(yè)表是一樣的,頁(yè)表中的 pte 均指向同一個(gè)物理內(nèi)存頁(yè)面,對(duì)于私有的物理內(nèi)存頁(yè)來(lái)說(shuō),父子進(jìn)程的相關(guān) pte 此時(shí)均變?yōu)榱酥蛔x的,私有物理內(nèi)存頁(yè)的引用計(jì)數(shù)為 2 。而對(duì)于共享的物理內(nèi)存頁(yè)來(lái)說(shuō),內(nèi)核就只是簡(jiǎn)單的將父進(jìn)程的 pte 拷貝到子進(jìn)程頁(yè)表中即可,然后將子進(jìn)程 pte 中的臟頁(yè)標(biāo)記清除,其他的不做改變。

當(dāng)父進(jìn)程或者子進(jìn)程對(duì)該頁(yè)面發(fā)生寫操作的時(shí)候,我們現(xiàn)在假設(shè)子進(jìn)程先對(duì)頁(yè)面發(fā)生寫操作,隨后子進(jìn)程發(fā)現(xiàn)自己頁(yè)表中的 pte 是只讀的,于是就會(huì)產(chǎn)生寫保護(hù)類型的缺頁(yè)中斷,由于子進(jìn)程頁(yè)表中的 pte 不為空,所以會(huì)進(jìn)入到 do_wp_page 函數(shù)中處理。

由于現(xiàn)在子進(jìn)程和父子進(jìn)程頁(yè)表中的相關(guān) pte 指向的均是同一個(gè)物理內(nèi)存頁(yè),內(nèi)核在 do_wp_page 函數(shù)中會(huì)發(fā)現(xiàn)這個(gè)物理內(nèi)存頁(yè)的引用計(jì)數(shù)大于 1,存在多進(jìn)程共享的情況,所以就會(huì)觸發(fā)寫時(shí)復(fù)制,這一過(guò)程在 wp_page_copy 函數(shù)中處理。

在 wp_page_copy 函數(shù)中,內(nèi)核會(huì)首先為子進(jìn)程分配一個(gè)新的物理內(nèi)存頁(yè) new_page,然后調(diào)用 cow_user_page 將原有內(nèi)存頁(yè) old_page 中的內(nèi)容全部拷貝到新內(nèi)存頁(yè)中。

創(chuàng)建一個(gè)臨時(shí)的頁(yè)表項(xiàng) entry,然后讓 entry 指向新的內(nèi)存頁(yè),將 entry 重新設(shè)置為可寫,通過(guò) set_pte_at_notify 將 entry 值設(shè)置到子進(jìn)程頁(yè)表中的 pte 上。最后將原有內(nèi)存頁(yè) old_page 的引用計(jì)數(shù)減 1 。

static vm_fault_t wp_page_copy(struct vm_fault *vmf)
{
    // 缺頁(yè)地址 address 所在 vma
    struct vm_area_struct *vma = vmf->vma;
    // 當(dāng)前進(jìn)程地址空間
    struct mm_struct *mm = vma->vm_mm;
    // 原來(lái)映射的物理內(nèi)存頁(yè),pte 為只讀
    struct page *old_page = vmf->page;
    // 用于寫時(shí)復(fù)制的新內(nèi)存頁(yè)
    struct page *new_page = NULL;
    // 寫時(shí)復(fù)制之后,需要修改原來(lái)的 pte,這里是臨時(shí)構(gòu)造的一個(gè) pte 值
    pte_t entry;
    // 是否發(fā)生寫時(shí)復(fù)制
    int page_copied = 0;

    // 如果 pte 原來(lái)映射的是一個(gè)零頁(yè)
    if (is_zero_pfn(pte_pfn(vmf->orig_pte))) {
        // 新申請(qǐng)一個(gè)零頁(yè)出來(lái),內(nèi)存頁(yè)中的內(nèi)容被零初始化
        new_page = alloc_zeroed_user_highpage_movable(vma,
                                  vmf->address);
        if (!new_page)
            goto oom;
    } else {
        // 新申請(qǐng)一個(gè)物理內(nèi)存頁(yè)
        new_page = alloc_page_vma(GFP_HIGHUSER_MOVABLE, vma,
                vmf->address);
        if (!new_page)
            goto oom;
        // 將原來(lái)內(nèi)存頁(yè) old page 中的內(nèi)容拷貝到新內(nèi)存頁(yè) new page 中
        cow_user_page(new_page, old_page, vmf->address, vma);
    }

    // 給頁(yè)表加鎖,并重新獲取 address 在頁(yè)表中對(duì)應(yīng)的 pte
    vmf->pte = pte_offset_map_lock(mm, vmf->pmd, vmf->address, &vmf->ptl);
    // 判斷加鎖前的 pte (orig_pte)與加鎖后的 pte (vmf->pte)是否相同
    // 目的是判斷此時(shí)是否有其他線程正在并發(fā)修改 pte
    if (likely(pte_same(*vmf->pte, vmf->orig_pte))) {
        if (old_page) {
            // 更新進(jìn)程常駐內(nèi)存信息 rss_state
            if (!PageAnon(old_page)) {
                // 減少 MM_FILEPAGES 計(jì)數(shù)
                dec_mm_counter_fast(mm,
                        mm_counter_file(old_page));
                // 由于發(fā)生寫時(shí)復(fù)制,這里匿名頁(yè)個(gè)數(shù)加 1 
                inc_mm_counter_fast(mm, MM_ANONPAGES);
            }
        } else {
            inc_mm_counter_fast(mm, MM_ANONPAGES);
        }
        // 將舊的 tlb 緩存刷出
        flush_cache_page(vma, vmf->address, pte_pfn(vmf->orig_pte));
        // 創(chuàng)建一個(gè)臨時(shí)的 pte 映射到新內(nèi)存頁(yè) new page 上
        entry = mk_pte(new_page, vma->vm_page_prot);
        // 設(shè)置 entry 為可寫的,正是這里, pte 的權(quán)限由只讀變?yōu)榱丝蓪?        entry = maybe_mkwrite(pte_mkdirty(entry), vma);
        // 為新的內(nèi)存頁(yè)建立反向映射關(guān)系
        page_add_new_anon_rmap(new_page, vma, vmf->address, false);
        // 將新的內(nèi)存頁(yè)加入到 LRU active 鏈表中
        lru_cache_add_active_or_unevictable(new_page, vma);
        // 將 entry 值重新設(shè)置到子進(jìn)程頁(yè)表 pte 中
        set_pte_at_notify(mm, vmf->address, vmf->pte, entry);
        // 更新 mmu
        update_mmu_cache(vma, vmf->address, vmf->pte);
        if (old_page) {
            // 將原來(lái)的內(nèi)存頁(yè)從當(dāng)前進(jìn)程的反向映射關(guān)系中解除
            page_remove_rmap(old_page, false);
        }

        /* Free the old page.. */
        new_page = old_page;
        page_copied = 1;
    } else {
        mem_cgroup_cancel_charge(new_page, memcg, false);
    }
    // 釋放頁(yè)表鎖
    pte_unmap_unlock(vmf->pte, vmf->ptl);

    if (old_page) {
        // 舊內(nèi)存頁(yè)的引用計(jì)數(shù)減 1
        put_page(old_page);
    }
    return page_copied ? VM_FAULT_WRITE : 0;
}

現(xiàn)在子進(jìn)程處理完了,下面我們?cè)賮?lái)看當(dāng)父進(jìn)程發(fā)生寫入操作的時(shí)候會(huì)發(fā)生什么 ?

首先和子進(jìn)程一樣,現(xiàn)在父進(jìn)程頁(yè)表中的相關(guān) pte 仍然是只讀的,訪問(wèn)這段虛擬內(nèi)存地址依然會(huì)產(chǎn)生寫保護(hù)類型的缺頁(yè)中斷,和子進(jìn)程不同的是,此時(shí)父進(jìn)程 pte 中指向的原有物理內(nèi)存頁(yè) old_page 的引用計(jì)數(shù)已經(jīng)變?yōu)?1 了,說(shuō)明父進(jìn)程是獨(dú)占的,復(fù)用原來(lái)的 old_page 即可,不必進(jìn)行寫時(shí)復(fù)制,只是簡(jiǎn)單的將父進(jìn)程頁(yè)表中的相關(guān) pte 改為可寫就行了。

static inline void wp_page_reuse(struct vm_fault *vmf)
    __releases(vmf->ptl)
{
    struct vm_area_struct *vma = vmf->vma;
    struct page *page = vmf->page;
    pte_t entry;
    // 先將 tlb cache 中緩存的 address 對(duì)應(yīng)的 pte 刷出緩存
    flush_cache_page(vma, vmf->address, pte_pfn(vmf->orig_pte));
    // 將原來(lái) pte 的 access 位置 1 ,表示該 pte 映射的物理內(nèi)存頁(yè)是活躍的
    entry = pte_mkyoung(vmf->orig_pte);
    // 將原來(lái)只讀的 pte 改為可寫的,并標(biāo)記為臟頁(yè)
    entry = maybe_mkwrite(pte_mkdirty(entry), vma);
    // 將更新后的 entry 值設(shè)置到頁(yè)表 pte 中
    if (ptep_set_access_flags(vma, vmf->address, vmf->pte, entry, 1))
        // 更新 mmu 
        update_mmu_cache(vma, vmf->address, vmf->pte);
    pte_unmap_unlock(vmf->pte, vmf->ptl);
}

理解了上面的核心內(nèi)容,我們?cè)賮?lái)看 do_wp_page 的處理邏輯就很清晰了:

static vm_fault_t do_wp_page(struct vm_fault *vmf)
    __releases(vmf->ptl)
{
    struct vm_area_struct *vma = vmf->vma;
    // 獲取 pte 映射的物理內(nèi)存頁(yè)
    vmf->page = vm_normal_page(vma, vmf->address, vmf->orig_pte);

         ...... 省略處理特殊映射相關(guān)邏輯 ....
    // 物理內(nèi)存頁(yè)為匿名頁(yè)的情況
    if (PageAnon(vmf->page)) {

         ...... 省略處理 ksm page 相關(guān)邏輯 ....
        // reuse_swap_page 判斷匿名頁(yè)的引用計(jì)數(shù)是否為 1
        if (reuse_swap_page(vmf->page, &total_map_swapcount)) {
            // 如果當(dāng)前物理內(nèi)存頁(yè)的引用計(jì)數(shù)為 1 ,并且只有當(dāng)前進(jìn)程在引用該物理內(nèi)存頁(yè)
            // 則不做寫時(shí)復(fù)制處理,而是復(fù)用當(dāng)前物理內(nèi)存頁(yè),只是將 pte 改為可寫即可 
            wp_page_reuse(vmf);
            return VM_FAULT_WRITE;
        }
        unlock_page(vmf->page);
    } else if (unlikely((vma->vm_flags & (VM_WRITE|VM_SHARED)) ==
                    (VM_WRITE|VM_SHARED))) {
        // 處理共享可寫的內(nèi)存頁(yè)
        // 由于大家都可寫,所以這里也只是調(diào)用 wp_page_reuse 復(fù)用當(dāng)前內(nèi)存頁(yè)即可,不做寫時(shí)復(fù)制處理
        // 由于是共享的,對(duì)于文件頁(yè)來(lái)說(shuō)是可以回寫到磁盤上的,所以會(huì)額外調(diào)用一次 fault_dirty_shared_page 判斷是否進(jìn)行臟頁(yè)的回寫
        return wp_page_shared(vmf);
    }
copy:
    // 走到這里表示當(dāng)前物理內(nèi)存頁(yè)的引用計(jì)數(shù)大于 1 被多個(gè)進(jìn)程引用
    // 對(duì)于私有可寫的虛擬內(nèi)存區(qū)域來(lái)說(shuō),就要發(fā)生寫時(shí)復(fù)制
    // 而對(duì)于私有文件頁(yè)的情況來(lái)說(shuō),不必判斷內(nèi)存頁(yè)的引用計(jì)數(shù)
    // 因?yàn)槭撬接形募?yè),不管文件頁(yè)的引用計(jì)數(shù)是不是 1 ,都要進(jìn)行寫時(shí)復(fù)制
    return wp_page_copy(vmf);
}

10. do_swap_page 處理 swap 缺頁(yè)異常

如果在遍歷進(jìn)程頁(yè)表的時(shí)候發(fā)現(xiàn),虛擬內(nèi)存地址 address 對(duì)應(yīng)的頁(yè)表項(xiàng) pte 不為空,但是 pte 中第 0 個(gè)比特位置為 0 ,則表示該 pte 之前是被物理內(nèi)存映射過(guò)的,只不過(guò)后來(lái)被內(nèi)核 swap out 出去了。

我們需要的物理內(nèi)存頁(yè)不在內(nèi)存中反而在磁盤中,現(xiàn)在我們就需要將物理內(nèi)存頁(yè)從磁盤中 swap in 進(jìn)來(lái)。但在 swap in 之前內(nèi)核需要知道該物理內(nèi)存頁(yè)的內(nèi)容被保存在磁盤的什么位置上。

筆者在之前文章《一步一圖帶你構(gòu)建 Linux 頁(yè)表體系》?中的第 4.2.1 小節(jié)中詳細(xì)介紹了 64 位頁(yè)表項(xiàng) pte 的比特位布局,以及各個(gè)比特位的含義。

typedef unsigned long   pteval_t;
typedef struct { pteval_t pte; } pte_t;

64 位的 pte 主要用來(lái)表示物理內(nèi)存頁(yè)的地址以及相關(guān)的權(quán)限標(biāo)識(shí)位,但是當(dāng)物理內(nèi)存頁(yè)不在內(nèi)存中的時(shí)候,這些比特位就沒(méi)有了任何意義。我們何不將這些已經(jīng)沒(méi)有任何意義的比特位利用起來(lái),在物理內(nèi)存頁(yè)被 swap out 到磁盤上的時(shí)候,將物理內(nèi)存頁(yè)在磁盤上的位置保存在這些比特位中。本質(zhì)上還利用的是之前 pte 中的那 64 個(gè)比特,為了區(qū)別 swap 的場(chǎng)景,內(nèi)核使用了一個(gè)新的結(jié)構(gòu)體 swp_entry_t 來(lái)包裝。

typedef struct {
	unsigned long val;
} swp_entry_t;

swap in 的首要任務(wù)就是先要從進(jìn)程頁(yè)表中將這個(gè) swp_entry_t 讀取出來(lái),然后從 swp_entry_t 中解析出內(nèi)存頁(yè)在 swap 交換區(qū)中的位置,根據(jù)磁盤位置信息將內(nèi)存頁(yè)的內(nèi)容讀取到內(nèi)存中。由于產(chǎn)生了新的物理內(nèi)存頁(yè),所以就要?jiǎng)?chuàng)建新的 pte 來(lái)映射這個(gè)物理內(nèi)存頁(yè),然后將新的 pte 設(shè)置到頁(yè)表中,替換原來(lái)的 swp_entry_t。

這里筆者需要為大家解釋的第一個(gè)問(wèn)題就是 —— 這個(gè) swp_entry_t 究竟是長(zhǎng)什么樣子 的,它是如何保存 swap 交換區(qū)相關(guān)位置信息的 ?

10.1 交換區(qū)的布局及其組織結(jié)構(gòu)

要明白這個(gè),我們就需要先了解一下 swap 交換區(qū)(swap area)的布局,swap 交換區(qū)共有兩種類型,一種是 swap 分區(qū)(swap partition),另一種是 swap 文件(swap file)。

swap partition 可以認(rèn)為是一個(gè)沒(méi)有文件系統(tǒng)的裸磁盤分區(qū),分區(qū)中的磁盤塊在磁盤中是連續(xù)分布的。

swap file 可以認(rèn)為是在某個(gè)現(xiàn)有的文件系統(tǒng)上,創(chuàng)建的一個(gè)定長(zhǎng)的普通文件,專門用于保存匿名頁(yè)被 swap 出來(lái)的內(nèi)容。背后的磁盤塊是不連續(xù)的。

Linux 系統(tǒng)中可以允許多個(gè)這樣的 swap 交換區(qū)存在,我們可以同時(shí)使用多個(gè)交換區(qū),也可以為這些交換區(qū)指定優(yōu)先級(jí),優(yōu)先級(jí)高的會(huì)被內(nèi)核優(yōu)先使用。這些交換區(qū)都可以被靈活地添加,刪除,而不需要重啟系統(tǒng)。多個(gè)交換區(qū)可以分散在不同的磁盤設(shè)備上,這樣可以實(shí)現(xiàn)硬件的并行訪問(wèn)。

在使用交換區(qū)之前,我們可以通過(guò) mkswap 首先創(chuàng)建一個(gè)交換區(qū)出來(lái),如果我們創(chuàng)建的是 swap partition,則在 mkswap 命令后面直接指定分區(qū)的設(shè)備文件名稱即可。

mkswap /dev/sdb7

如果我們創(chuàng)建的是 swap file,則需要額外先使用 dd 命令在現(xiàn)有文件系統(tǒng)中創(chuàng)建出一個(gè)定長(zhǎng)的文件出來(lái)。比如下面通過(guò) dd 命令從 /dev/zero 中拷貝創(chuàng)建一個(gè) /swapfile 文件,大小為 4G。

dd if=/dev/zero of=/swapfile bs=1M count=4096

然后使用 mkswap 命令創(chuàng)建 swap file :

mkswap /swapfile

當(dāng) swap partition 或者 swap file 創(chuàng)建好之后,我們通過(guò) swapon 命令來(lái)初始化并激活這個(gè)交換區(qū)。

swapon /swapfile

當(dāng)前系統(tǒng)中各個(gè)交換區(qū)的情況,我們可以通過(guò) cat /proc/swaps 或者 swapon -s 命令產(chǎn)看:

交換區(qū)在內(nèi)核中使用 struct swap_info_struct 結(jié)構(gòu)體來(lái)表示,系統(tǒng)中眾多的交換區(qū)被組織在一個(gè)叫做 swap_info 的數(shù)組中,數(shù)組中的最大長(zhǎng)度為 MAX_SWAPFILES,MAX_SWAPFILES 在內(nèi)核中是一個(gè)常量,一般指定為 32,也就是說(shuō),系統(tǒng)中最大允許 32 個(gè)交換區(qū)存在。

struct swap_info_struct *swap_info[MAX_SWAPFILES];

由于交換區(qū)是有優(yōu)先級(jí)的,所以內(nèi)核又會(huì)按照優(yōu)先級(jí)高低,將交換區(qū)組織在一個(gè)叫做 swap_avail_heads 的雙向鏈表中。

static struct plist_head *swap_avail_heads;

swap_info_struct 結(jié)構(gòu)用于描述單個(gè)交換區(qū)中的各種信息:

/*
 * The in-memory structure used to track swap areas.
 */
struct swap_info_struct {
    // 用于表示該交換區(qū)的狀態(tài),比如 SWP_USED 表示正在使用狀態(tài),SWP_WRITEOK 表示交換區(qū)是可寫的狀態(tài)
    unsigned long   flags;      /* SWP_USED etc: see above */
    // 交換區(qū)的優(yōu)先級(jí)
    signed short    prio;       /* swap priority of this type */
    // 指向該交換區(qū)在 swap_avail_heads 鏈表中的位置
    struct plist_node list;     /* entry in swap_active_head */
    // 該交換區(qū)在 swap_info 數(shù)組中的索引
    signed char type;       /* strange name for an index */
    // 該交換區(qū)可以容納 swap 的匿名頁(yè)總數(shù)
    unsigned int pages;     /* total of usable pages of swap */
    // 已經(jīng) swap 到該交換區(qū)的匿名頁(yè)總數(shù)
    unsigned int inuse_pages;   /* number of those currently in use */
    // 如果該交換區(qū)是 swap partition 則指向該磁盤分區(qū)的塊設(shè)備結(jié)構(gòu) block_device
    // 如果該交換區(qū)是 swap file 則指向文件底層依賴的塊設(shè)備結(jié)構(gòu) block_device
    struct block_device *bdev;  /* swap device or bdev of swap file */
    // 指向 swap file 的 file 結(jié)構(gòu)
    struct file *swap_file;     /* seldom referenced */
};

而在每個(gè)交換區(qū) swap area 內(nèi)部又會(huì)分為很多連續(xù)的 slot (槽),每個(gè) slot 的大小剛好和一個(gè)物理內(nèi)存頁(yè)的大小相同都是 4K,物理內(nèi)存頁(yè)在被 swap out 到交換區(qū)時(shí),就會(huì)存放在 slot 中。

交換區(qū)中的這些 slot 會(huì)被組織在一個(gè)叫做 swap_map 的數(shù)組中,數(shù)組中的索引就是 slot 在交換區(qū)中的 offset (這個(gè)位置信息很重要),數(shù)組中的值表示該 slot 總共被多少個(gè)進(jìn)程同時(shí)引用。

什么意思呢 ? 比如現(xiàn)在系統(tǒng)中一共有三個(gè)進(jìn)程同時(shí)共享一個(gè)物理內(nèi)存頁(yè)(內(nèi)存中的概念),當(dāng)這個(gè)物理內(nèi)存頁(yè)被 swap out 到交換區(qū)上時(shí),就變成了 slot (內(nèi)存頁(yè)在交換區(qū)中的概念),現(xiàn)在物理內(nèi)存頁(yè)沒(méi)了,這三個(gè)共享進(jìn)程就只能在各自的頁(yè)表中指向這個(gè) slot,因此該 slot 的引用計(jì)數(shù)就是 3,對(duì)應(yīng)在數(shù)組 swap_map 中的值也是 3 。

交換區(qū)中的第一個(gè) slot 用于存儲(chǔ)交換區(qū)的元信息,比如交換區(qū)對(duì)應(yīng)底層各個(gè)磁盤塊的壞塊列表。因此筆者將其標(biāo)注了紅色,表示不能使用。

swap_map 數(shù)組中的值表示的就是對(duì)應(yīng) slot 被多少個(gè)進(jìn)程同時(shí)引用,值為 0 表示該 slot 是空閑的,下次 swap out 的時(shí)候首先查找的就是空閑 slot 。 查找范圍就是 lowest_bit 到 highest_bit 之間的 slot。當(dāng)查找到空閑 slot 之后,就會(huì)將整個(gè)物理內(nèi)存頁(yè)回寫到這個(gè) slot 中。

struct swap_info_struct {
	unsigned char *swap_map;	/* vmalloc'ed array of usage counts */
	unsigned int lowest_bit;	/* index of first free in swap_map */
	unsigned int highest_bit;	/* index of last free in swap_map */

但是這里會(huì)有一個(gè)問(wèn)題就是交換區(qū)面向的是整個(gè)系統(tǒng),而系統(tǒng)中會(huì)有很多進(jìn)程,如果多個(gè)進(jìn)程并發(fā)進(jìn)行 swap 的時(shí)候,swap_map 數(shù)組就會(huì)面臨并發(fā)操作的問(wèn)題,這樣一來(lái)就不得不需要一個(gè)全局鎖來(lái)保護(hù),但是這也導(dǎo)致了多個(gè) CPU 只能串行訪問(wèn),大大降低了并發(fā)度。

那怎么辦呢 ? 想想 JDK 中的 ConcurrentHashMap,將鎖分段唄,這樣可以將鎖競(jìng)爭(zhēng)分散開來(lái),大大提升并發(fā)度。

內(nèi)核會(huì)將 swap_map 數(shù)組中的這些 slot,按照常量 SWAPFILE_CLUSTER 指定的個(gè)數(shù),256 個(gè) slot 分為一個(gè) cluster。

#define SWAPFILE_CLUSTER	256

每個(gè) cluster 中包含一把 spinlock_t 鎖,如果 cluster 是空閑的,那么 swap_cluster_info 結(jié)構(gòu)中的 data 指向下一個(gè)空閑的 cluster,如果 cluster 不是空閑的,那么 data 保存的是該 cluster 中已經(jīng)分配的 slot 個(gè)數(shù)。

struct swap_cluster_info {
    spinlock_t lock;    /*
                 * Protect swap_cluster_info fields
                 * and swap_info_struct->swap_map
                 * elements correspond to the swap
                 * cluster
                 */
    unsigned int data:24;
    unsigned int flags:8;
};
#define CLUSTER_FLAG_FREE 1 /* This cluster is free */
#define CLUSTER_FLAG_NEXT_NULL 2 /* This cluster has no next cluster */
#define CLUSTER_FLAG_HUGE 4 /* This cluster is backing a transparent huge page */

這樣一來(lái) swap_map 數(shù)組中的這些獨(dú)立的 slot,就被按照以 cluster 為單位重新組織了起來(lái),這些 cluster 被串聯(lián)在 cluster_info 鏈表中。

為了進(jìn)一步利用 cpu cache,以及實(shí)現(xiàn)無(wú)鎖化查找 slot,內(nèi)核會(huì)給每個(gè) cpu 分配一個(gè) cluster —— percpu_cluster,cpu 直接從自己的 cluster 中查找空閑 slot,近一步提高了 swap out 的吞吐。

當(dāng) cpu 自己的 percpu_cluster 用盡之后,內(nèi)核則會(huì)調(diào)用 swap_alloc_cluster 函數(shù)從 free_clusters 中獲取一個(gè)新的 cluster。

struct swap_info_struct {
    struct swap_cluster_info *cluster_info; /* cluster info. Only for SSD */
    struct swap_cluster_list free_clusters; /* free clusters list */

    struct percpu_cluster __percpu *percpu_cluster; /* per cpu's swap location */
}

現(xiàn)在交換區(qū)的整體布局筆者就為大家介紹完了,可能大家這里有一點(diǎn)還是會(huì)比較困惑 —— 你說(shuō)來(lái)說(shuō)去,這個(gè) slot 到底是個(gè)啥 ?

哈哈,大家先別急,我們現(xiàn)在已經(jīng)對(duì)進(jìn)程的虛擬內(nèi)存空間非常熟悉了,這里我們把交換區(qū) swap_info_struct 與進(jìn)程的內(nèi)存空間 mm_struct 放到一起一對(duì)比就很清楚了。

首先進(jìn)程虛擬內(nèi)存空間中的虛擬內(nèi)存別管說(shuō)的如何天花亂墜,說(shuō)到底還是要保存在真實(shí)的物理內(nèi)存中的,虛擬內(nèi)存與物理內(nèi)存通過(guò)頁(yè)表來(lái)關(guān)聯(lián)起來(lái)。

同樣的道理,別管交換區(qū)布局的如何天花亂墜,swap out 出來(lái)的數(shù)據(jù)說(shuō)到底還是要保存在真實(shí)的磁盤中的,而交換區(qū)中是按照 slot 為單位進(jìn)行組織管理的,磁盤中是按照磁盤塊來(lái)組織管理的,大小都是 4K 。

交換區(qū)中的 slot 就好比于虛擬內(nèi)存空間中的虛擬內(nèi)存,都是虛擬的概念,物理內(nèi)存頁(yè)與磁盤塊才是真實(shí)本質(zhì)的東西。

虛擬內(nèi)存是連續(xù)的,但其背后映射的物理內(nèi)存可能是不連續(xù),交換區(qū)中的 slot 也都是連續(xù)的,但磁盤中磁盤塊的扇區(qū)地址卻不一定是連續(xù)的。頁(yè)表可以將不連續(xù)的物理內(nèi)存映射到連續(xù)的虛擬內(nèi)存上,內(nèi)核也需要一種機(jī)制,將不連續(xù)的磁盤塊映射到連續(xù)的 slot 中。

當(dāng)我們使用 swapon 命令來(lái)初始化激活交換區(qū)時(shí),內(nèi)核會(huì)掃描交換區(qū)中各個(gè)磁盤塊的扇區(qū)地址,以確定磁盤塊與扇區(qū)的對(duì)應(yīng)關(guān)系,然后搜集扇區(qū)地址連續(xù)的磁盤塊,將這些連續(xù)的磁盤塊組成一個(gè)塊組,slot 就會(huì)一個(gè)一個(gè)的映射到這些塊組上,塊組之間的扇區(qū)地址是不連續(xù)的,但是 slot 是連續(xù)的。

slot 與連續(xù)的磁盤塊組的映射關(guān)系保存在 swap_extent 結(jié)構(gòu)中:

/*
 * A swap extent maps a range of a swapfile's PAGE_SIZE pages onto a range of
 * disk blocks.  A list of swap extents maps the entire swapfile.  (Where the
 * term `swapfile' refers to either a blockdevice or an IS_REG file.  Apart
 * from setup, they're handled identically.
 *
 * We always assume that blocks are of size PAGE_SIZE.
 */
struct swap_extent {
    // 紅黑樹節(jié)點(diǎn)
    struct rb_node rb_node;
    // 塊組內(nèi),第一個(gè)映射的 slot 編號(hào)
    pgoff_t start_page;
    // 映射的 slot 個(gè)數(shù)
    pgoff_t nr_pages;
    // 塊組內(nèi)第一個(gè)磁盤塊
    sector_t start_block;
};

由于一個(gè)塊組內(nèi)的磁盤塊都是連續(xù)的,slot 本來(lái)又是連續(xù)的,所以 swap_extent 結(jié)構(gòu)中只需要保存映射到該塊組內(nèi)第一個(gè) slot 的編號(hào) (start_page),塊組內(nèi)第一個(gè)磁盤塊在磁盤上的塊號(hào),以及磁盤塊個(gè)數(shù)就可以了。

虛擬內(nèi)存頁(yè)類比 slot,物理內(nèi)存頁(yè)類比磁盤塊,這里的 swap_extent 可以看做是虛擬內(nèi)存區(qū)域 vma,進(jìn)程的虛擬內(nèi)存空間正是由一段一段的 vma 組成,這些 vma 被組織在一顆紅黑樹上。

交換區(qū)也是一樣,它是由一段一段的 swap_extent 組成,同樣也會(huì)被組織在一顆紅黑樹上。我們可以通過(guò) slot 在交換區(qū)中的 offset,在這顆紅黑樹中快速查找出 slot 背后對(duì)應(yīng)的磁盤塊。

struct swap_info_struct {
	struct rb_root swap_extent_root;/* root of the swap extent rbtree */

現(xiàn)在交換區(qū)內(nèi)部的樣子,我們已經(jīng)非常清楚了,有了這些背景知識(shí)之后,我們?cè)诨剡^(guò)頭來(lái)看本小節(jié)最開始提出的問(wèn)題 —— swp_entry_t 到底長(zhǎng)什么樣子。

10.2 一睹 swp_entry_t 真容

匿名內(nèi)存頁(yè)在被內(nèi)核 swap out 到磁盤上之后,內(nèi)存頁(yè)中的內(nèi)容保存在交換區(qū)的 slot 中,在 swap in 的場(chǎng)景中,內(nèi)核需要根據(jù) swp_entry_t 里的信息找到這個(gè) slot,進(jìn)而找到其對(duì)應(yīng)的磁盤塊,然后從磁盤塊中讀取出被 swap out 出去的內(nèi)容。

這個(gè)就和交換區(qū)的布局有很大的關(guān)系,首先系統(tǒng)中存在多個(gè)交換區(qū),這些交換區(qū)被內(nèi)核組織在 swap_info 數(shù)組中。

struct swap_info_struct *swap_info[MAX_SWAPFILES];

我們首先需要知道匿名內(nèi)存頁(yè)到底被 swap out 到哪個(gè)交換區(qū)里了,所以 swp_entry_t 里必須包含交換區(qū)在 swap_info 數(shù)組中的索引,而這個(gè)索引正是 swap_info_struct 結(jié)構(gòu)中的 type 字段。

struct swap_info_struct {
    // 該交換區(qū)在 swap_info 數(shù)組中的索引
    signed char type;  
}

在確定了交換區(qū)的位置后,我們需要知道匿名頁(yè)被 swap out 到交換區(qū)中的哪個(gè) slot 中,所以 swp_entry_t 中也必須包含 slot 在交換區(qū)中的 offset,這個(gè) offset 就是 swap_info_struct 結(jié)構(gòu)里 slot 所在 swap_map 數(shù)組中的下標(biāo)。

struct swap_info_struct {
    unsigned char *swap_map; 
}

所以總結(jié)下來(lái) swp_entry_t 中需要包含以下三種信息:

第一, swp_entry_t 需要標(biāo)識(shí)該頁(yè)表項(xiàng)是一個(gè) pte 還是 swp_entry_t,因?yàn)樗鼈z本質(zhì)上是一樣的,都是 unsigned long 類型的無(wú)符號(hào)整數(shù),是可以相互轉(zhuǎn)換的。

#define __pte_to_swp_entry(pte)	((swp_entry_t) { pte_val(pte) })
#define __swp_entry_to_pte(swp)	((pte_t) { (swp).val })

第 0 個(gè)比特位置 1 表示是一個(gè) pte,背后映射的物理內(nèi)存頁(yè)存在于內(nèi)存中。如果第 0 個(gè)比特位置 0 則表示該 pte 背后映射的物理內(nèi)存頁(yè)已經(jīng)被 swap out 出去了,那么它就是一個(gè) swp_entry_t,指向內(nèi)存頁(yè)在交換區(qū)中的位置。

第二,swp_entry_t 需要包含被 swap 出去的匿名頁(yè)所在交換區(qū)的索引 type,第 2 個(gè)比特位到第 7 個(gè)比特位,總共使用 6 個(gè)比特來(lái)表示匿名頁(yè)所在交換區(qū)的索引。

第三,swp_entry_t 需要包含匿名頁(yè)所在 slot 的位置 offset,第 8 個(gè)比特位到第 57 個(gè)比特位,總共 50 個(gè)比特來(lái)表示匿名頁(yè)對(duì)應(yīng)的 slot 在交換區(qū)的 offset 。

/*
 * Encode and decode a swap entry:
 *	bits 0-1:	present (must be zero)
 *	bits 2-7:	swap type
 *	bits 8-57:	swap offset
 *	bit  58:	PTE_PROT_NONE (must be zero)
 */
#define __SWP_TYPE_SHIFT	2
#define __SWP_TYPE_BITS		6
#define __SWP_OFFSET_BITS	50
#define __SWP_OFFSET_SHIFT	(__SWP_TYPE_BITS + __SWP_TYPE_SHIFT)

內(nèi)核提供了宏 __swp_type 用于從 swp_entry_t 中將匿名頁(yè)所在交換區(qū)編號(hào)提取出來(lái),還提供了宏 __swp_offset 用于從 swp_entry_t 中將匿名頁(yè)所在 slot 的 offset 提取出來(lái)。

#define __swp_type(x)		(((x).val >> __SWP_TYPE_SHIFT) & __SWP_TYPE_MASK)
#define __swp_offset(x)		(((x).val >> __SWP_OFFSET_SHIFT) & __SWP_OFFSET_MASK)

#define __SWP_TYPE_MASK		((1 << __SWP_TYPE_BITS) - 1)
#define __SWP_OFFSET_MASK	((1UL << __SWP_OFFSET_BITS) - 1)

有了這兩個(gè)宏之后,我們就可以根據(jù) swp_entry_t 輕松地定位到匿名頁(yè)在交換區(qū)中的位置了。

內(nèi)核首先會(huì)通過(guò) swp_type 從 swp_entry_t 提取出匿名頁(yè)所在的交換區(qū)索引 type,根據(jù) type 就可以從 swap_info 數(shù)組中定位到交換區(qū)數(shù)據(jù)結(jié)構(gòu) swap_info_struct 。

內(nèi)核將定位交換區(qū) swap_info_struct 結(jié)構(gòu)的邏輯封裝在 swp_swap_info 函數(shù)中:

struct swap_info_struct *swp_swap_info(swp_entry_t entry)
{
	return swap_type_to_swap_info(swp_type(entry));
}

static struct swap_info_struct *swap_type_to_swap_info(int type)
{
	return READ_ONCE(swap_info[type]);
}

得到了交換區(qū)的 swap_info_struct 結(jié)構(gòu),我們就可以獲取交換區(qū)所在磁盤分區(qū)底層的塊設(shè)備 —— swap_info_struct->bdev。

struct swap_info_struct {
    // 如果該交換區(qū)是 swap partition 則指向該磁盤分區(qū)的塊設(shè)備結(jié)構(gòu) block_device
    // 如果該交換區(qū)是 swap file 則指向文件底層依賴的塊設(shè)備結(jié)構(gòu) block_device
    struct block_device *bdev;  /* swap device or bdev of swap file */
}

最后通過(guò) swp_offset 定位匿名頁(yè)所在 slot 在交換區(qū)中的 offset, 然后利用 offset 在紅黑樹 swap_extent_root 中查找其對(duì)應(yīng)的 swap_extent。

struct swap_info_struct {
    struct rb_root swap_extent_root;/* root of the swap extent rbtree */
}

前面我們提到過(guò) swap file 背后所在的磁盤塊不一定是連續(xù)的,而 swap file 中的 slot 卻是連續(xù)的,內(nèi)核需要用 swap_extent 結(jié)構(gòu)來(lái)描述 slot 與磁盤塊的映射關(guān)系。

所以對(duì)于 swap file 來(lái)說(shuō),我們找到了 swap_extent 也就確定了 slot 對(duì)應(yīng)的磁盤塊了。

static sector_t map_swap_entry(swp_entry_t entry, struct block_device **bdev)
{
    struct swap_info_struct *sis;
    struct swap_extent *se;
    pgoff_t offset;
    // 通過(guò) swap_info[swp_type(entry)]  獲取交換區(qū) swap_info_struct 結(jié)構(gòu)
    sis = swp_swap_info(entry);
    // 獲取交換區(qū)所在磁盤分區(qū)塊設(shè)備
    *bdev = sis->bdev;
    // 獲取匿名頁(yè)在交換區(qū)的偏移 
    offset = swp_offset(entry);
    // 通過(guò) offset 到紅黑樹 swap_extent_root 中查找對(duì)應(yīng)的 swap_extent
    se = offset_to_swap_extent(sis, offset);
    // 獲取 slot 對(duì)應(yīng)的磁盤塊
    return se->start_block + (offset - se->start_page);
}

而 swap partition 是一個(gè)沒(méi)有文件系統(tǒng)的裸磁盤分區(qū),其背后的磁盤塊都是連續(xù)分布的,所以對(duì)于 swap partition 來(lái)說(shuō),slot 與磁盤塊是直接映射的,我們獲取到 slot 的 offset 之后,在乘以一個(gè)固定的偏移 2 ^ PAGE_SHIFT - 9 跳過(guò)用于存儲(chǔ)交換區(qū)元信息的 swap header ,就可以直接獲得磁盤塊了。

這里有點(diǎn)像?《深入理解 Linux 虛擬內(nèi)存管理》?一文中提到的內(nèi)核虛擬內(nèi)存空間中的直接映射區(qū),虛擬內(nèi)存與物理內(nèi)存都是直接映射的,通過(guò)虛擬內(nèi)存地址減去一個(gè)固定的偏移直接就可以獲得物理內(nèi)存地址了。

static sector_t swap_page_sector(struct page *page)
{
    return (sector_t)__page_file_index(page) << (PAGE_SHIFT - 9);
}

pgoff_t __page_file_index(struct page *page)
{
    // 在 swap 場(chǎng)景中,swp_entry_t 的值會(huì)設(shè)置到 page 結(jié)構(gòu)中的 private 字段中
    // 具體什么時(shí)候設(shè)置的,我們這里先不管,后面會(huì)說(shuō)
    swp_entry_t swap = { .val = page_private(page) };
    return swp_offset(swap);
}

以上介紹的就是內(nèi)核在 swap file 和 swap partition 場(chǎng)景下,如何獲取 slot 對(duì)應(yīng)的磁盤塊 sector_t 的邏輯與實(shí)現(xiàn)。

有了 sector_t,內(nèi)核接著就會(huì)利用 bdev_read_page 函數(shù)將 slot 對(duì)應(yīng)在 sector 中的內(nèi)容讀取到物理內(nèi)存頁(yè) page 中,這就是整個(gè) swap in 的過(guò)程。

/**
 * bdev_read_page() - Start reading a page from a block device
 * @bdev: The device to read the page from
 * @sector: The offset on the device to read the page to (need not be aligned)
 * @page: The page to read
 */
int bdev_read_page(struct block_device *bdev, sector_t sector,
			struct page *page)

swap_readpage 函數(shù)負(fù)責(zé)將匿名頁(yè)中的內(nèi)容從交換區(qū)中讀取到物理內(nèi)存頁(yè)中來(lái),這里也是 swap in 的核心實(shí)現(xiàn):

int swap_readpage(struct page *page, bool synchronous)
{
    struct bio *bio;
    int ret = 0;
    struct swap_info_struct *sis = page_swap_info(page);
    blk_qc_t qc;
    struct gendisk *disk;
    // 處理交換區(qū)是 swap file 的情況
    if (sis->flags & SWP_FS) {
        // 從交換區(qū)中獲取交換文件 swap_file
        struct file *swap_file = sis->swap_file;
        // swap_file 本質(zhì)上還是文件系統(tǒng)中的一個(gè)文件,所以它也會(huì)有 page cache
        struct address_space *mapping = swap_file->f_mapping;
        // 利用 page cache 中的 readpage 方法,從 swap_file 所在的文件系統(tǒng)中讀取匿名頁(yè)內(nèi)容到 page 中。
        // 注意這里只是利用 page cache 的 readpage 方法從文件系統(tǒng)中讀取數(shù)據(jù),內(nèi)核并不會(huì)把 page 加入到 page cache 中
        // 這里 swap_file 和普通文件的讀取過(guò)程是不一樣的,page cache 不緩存內(nèi)存頁(yè)。
        // 對(duì)于 swap out 的場(chǎng)景來(lái)說(shuō),內(nèi)核也只是利用 page cache 的 writepage 方法將匿名頁(yè)的內(nèi)容寫入到 swap_file 中。
        ret = mapping->a_ops->readpage(swap_file, page);
        if (!ret)
            count_vm_event(PSWPIN);
        return ret;
    }

    // 如果交換區(qū)是 swap partition,則直接從磁盤塊中讀取
    // 對(duì)于 swap out 的場(chǎng)景,內(nèi)核調(diào)用 bdev_write_page,直接將匿名頁(yè)的內(nèi)容寫入到磁盤塊中
    ret = bdev_read_page(sis->bdev, swap_page_sector(page), page);

out:
    return ret;
}

swap_readpage 是內(nèi)核 swap 機(jī)制的最底層實(shí)現(xiàn),直接和磁盤打交道,負(fù)責(zé)搭建磁盤與內(nèi)存之間的橋梁。雖然直接調(diào)用 swap_readpage 可以基本完成 swap in 的目的,但在某些特殊情況下會(huì)導(dǎo)致 swap 的性能非常糟糕。

比如下圖所示,假設(shè)當(dāng)前系統(tǒng)中存在三個(gè)進(jìn)程,它們共享引用了同一個(gè)物理內(nèi)存頁(yè) page。

當(dāng)這個(gè)被共享的 page 被內(nèi)核 swap out 到交換區(qū)之后,三個(gè)共享進(jìn)程的頁(yè)表會(huì)發(fā)生如下變化:

當(dāng) 進(jìn)程1 開始讀取這個(gè)共享 page 的時(shí)候,由于 page 已經(jīng) swap out 到交換區(qū)了,所以會(huì)發(fā)生 swap 缺頁(yè)異常,進(jìn)入內(nèi)核通過(guò) swap_readpage 將共享 page 的內(nèi)容從磁盤中讀取進(jìn)內(nèi)存,此時(shí)三個(gè)進(jìn)程的頁(yè)表結(jié)構(gòu)變?yōu)橄聢D所示:

現(xiàn)在共享 page 已經(jīng)被 進(jìn)程1 swap in 進(jìn)來(lái)了,但是 進(jìn)程2 和 進(jìn)程 3 是不知道的,它們的頁(yè)表中還儲(chǔ)存的是 swp_entry_t,依然指向 page 所在交換區(qū)的位置。

按照之前的邏輯,當(dāng) 進(jìn)程2 以及 進(jìn)程3 開始讀取這個(gè)共享 page 的時(shí)候,其實(shí) page 已經(jīng)在內(nèi)存了,但是它們此刻感知不到,因?yàn)?進(jìn)程2 和 進(jìn)程3 的頁(yè)表中存儲(chǔ)的依然是 swp_entry_t,還是會(huì)產(chǎn)生 swap 缺頁(yè)中斷,重新通過(guò) swap_readpage 讀取交換區(qū)中的內(nèi)容,這樣一來(lái)就產(chǎn)生了額外重復(fù)的磁盤 IO。

除此之外,更加嚴(yán)重的是,由于 進(jìn)程2 和 進(jìn)程3 的 swap 缺頁(yè),又會(huì)產(chǎn)生兩個(gè)新的內(nèi)存頁(yè)用來(lái)存放從 swap_readpage 中讀取進(jìn)來(lái)的交換區(qū)數(shù)據(jù)。

產(chǎn)生了重復(fù)的磁盤 IO 不說(shuō),還產(chǎn)生了額外的內(nèi)存消耗,并且這樣一來(lái),三個(gè)進(jìn)程對(duì)內(nèi)存頁(yè)就不是共享的了。

還有一種極端場(chǎng)景是一個(gè)進(jìn)程試圖讀取一個(gè)正在被 swap out 的 page ,由于 page 正在被內(nèi)核 swap out,此時(shí)進(jìn)程頁(yè)表指向該 page 的 pte 已經(jīng)變成了 swp_entry_t。

進(jìn)程在這個(gè)時(shí)候訪問(wèn) page 的時(shí)候,還是會(huì)產(chǎn)生 swap 缺頁(yè)異常,進(jìn)程試圖 swap in 這個(gè)正在被內(nèi)核 swap out 的 page,但是此時(shí) page 仍然還在內(nèi)存中,只不過(guò)是正在被內(nèi)核刷盤。

而按照之前的 swap in 邏輯,進(jìn)程這里會(huì)調(diào)用 swap_readpage 從磁盤中讀取,產(chǎn)生額外的磁盤 IO 以及內(nèi)存消耗不說(shuō),關(guān)鍵是此刻 swap_readpage 出來(lái)的數(shù)據(jù)都不是完整的,這肯定是個(gè)大問(wèn)題。

內(nèi)核為了解決上面提到的這些問(wèn)題,因此引入了一個(gè)新的結(jié)構(gòu) —— swap cache 。

10.3 swap cache

有了 swap cache 之后,情況就會(huì)變得大不相同,我們?cè)诨剡^(guò)頭來(lái)看第一個(gè)問(wèn)題 —— 多進(jìn)程共享內(nèi)存頁(yè)。

進(jìn)程1 在 swap in 的時(shí)候首先會(huì)到 swap cache 中去查找,看看是否有其他進(jìn)程已經(jīng)把內(nèi)存頁(yè) swap in 進(jìn)來(lái)了,如果 swap cache 中沒(méi)有才會(huì)調(diào)用 swap_readpage 從磁盤中去讀取。

當(dāng)內(nèi)核通過(guò) swap_readpage 將內(nèi)存頁(yè)中的內(nèi)容從磁盤中讀取進(jìn)內(nèi)存之后,內(nèi)核會(huì)把這個(gè)匿名頁(yè)先放入 swap cache 中。進(jìn)程 1 的頁(yè)表將原來(lái)的 swp_entry_t 填充為 pte 并指向 swap cache 中的這個(gè)內(nèi)存頁(yè)。

由于進(jìn)程1 頁(yè)表中對(duì)應(yīng)的頁(yè)表項(xiàng)現(xiàn)在已經(jīng)從 swp_entry_t 變?yōu)?pte 了,指向的是 swap cache 中的內(nèi)存頁(yè)而不是 swap 交換區(qū),所以對(duì)應(yīng) slot 的引用計(jì)數(shù)就要減 1 。

還記得我們之前介紹的 swap_map 數(shù)組嗎 ?slot 被進(jìn)程引用的計(jì)數(shù)就保存在這里,現(xiàn)在這個(gè) slot 在 swap_map 數(shù)組中保存的引用計(jì)數(shù)從 3 變成了 2 。表示還有兩個(gè)進(jìn)程也就是 進(jìn)程2 和 進(jìn)程3 仍在繼續(xù)引用這個(gè) slot 。

當(dāng)進(jìn)程2 發(fā)生 swap 缺頁(yè)中斷的時(shí)候進(jìn)入內(nèi)核之后,也是首先會(huì)到 swap cache 中查找是否現(xiàn)在已經(jīng)有其他進(jìn)程把共享的內(nèi)存頁(yè) swap in 進(jìn)來(lái)了,內(nèi)存頁(yè) page 在 swap cache 的索引就是頁(yè)表中的 swp_entry_t。由于這三個(gè)進(jìn)程共享的同一個(gè)內(nèi)存頁(yè),所以三個(gè)進(jìn)程頁(yè)表中的 swp_entry_t 都是相同的,都是指向交換區(qū)的同一位置。

由于共享內(nèi)存頁(yè)現(xiàn)在已經(jīng)被 進(jìn)程1 swap in 進(jìn)來(lái)了,并存放在 swap cache 中,所以 進(jìn)程2 通過(guò) swp_entry_t 一下就在 swap cache 中找到了,同理,進(jìn)程 2 的頁(yè)表也會(huì)將原來(lái)的 swp_entry_t 填充為 pte 并指向 swap cache 中的這個(gè)內(nèi)存頁(yè)。slot 的引用計(jì)數(shù)減 1。

現(xiàn)在這個(gè) slot 在 swap_map 數(shù)組中保存的引用計(jì)數(shù)從 2 變成了 1 。表示只有 進(jìn)程3 在引用這個(gè) slot 了。

當(dāng) 進(jìn)程3 發(fā)生 swap 缺頁(yè)中斷的之后,內(nèi)核還是先通過(guò) swp_entry_t 到 swap cache 中去查找,找到之后,將 進(jìn)程 3 頁(yè)表原來(lái)的 swp_entry_t 填充為 pte 并指向 swap cache 中的這個(gè)內(nèi)存頁(yè),slot 的引用計(jì)數(shù)減 1。

現(xiàn)在 slot 的引用計(jì)數(shù)已經(jīng)變?yōu)?0 了,這意味著所有共享該內(nèi)存頁(yè)的進(jìn)程已經(jīng)全部知道了新內(nèi)存頁(yè)的地址,它們的 pte 已經(jīng)全部指向了新內(nèi)存頁(yè),不在指向 slot 了,此時(shí)內(nèi)核便將這個(gè)內(nèi)存頁(yè)從 swap cache 中移除。

針對(duì)第二個(gè)問(wèn)題 —— 進(jìn)程試圖 swap in 這個(gè)正在被內(nèi)核 swap out 的 page,內(nèi)核的處理方法也是一樣,內(nèi)核在 swap out 的時(shí)候首先會(huì)在交換區(qū)中為這個(gè) page 分配 slot 確定其在交換區(qū)的位置,然后通過(guò)之前文章 《深入理解 Linux 物理內(nèi)存管理》 中
介紹的匿名頁(yè)反向映射機(jī)制找到所有引用該內(nèi)存頁(yè)的進(jìn)程,將它們頁(yè)表中的 pte 修改為指向 slot 的 swp_entry_t。

然后將匿名頁(yè) page 先是放入到 swap cache 中,慢慢地通過(guò) swap_writepage 回寫。當(dāng)匿名頁(yè)被完全回寫到交換區(qū)中時(shí),內(nèi)核才會(huì)將 page 從 swap cache 中移除。

如果當(dāng)內(nèi)核正在回寫的過(guò)程中,不巧有一個(gè)進(jìn)程又要訪問(wèn)該內(nèi)存頁(yè),同樣也會(huì)發(fā)生 swap 缺頁(yè)中斷,但是由于此時(shí)沒(méi)有回寫完成,內(nèi)存頁(yè)還保存在 swap cache 中,內(nèi)核通過(guò)進(jìn)程頁(yè)表中的 swp_entry_t 一下就在 swap cache 中找到了,避免了再次發(fā)生磁盤 IO,后面的過(guò)程就和第一個(gè)問(wèn)題一樣了。

上述查找 swap cache 的過(guò)程。內(nèi)核封裝在 __read_swap_cache_async 函數(shù)里,在 swap in 的過(guò)程中,內(nèi)核會(huì)首先調(diào)用這里查看 swap cache 是否已經(jīng)緩存了內(nèi)存頁(yè),如果沒(méi)有,則新分配一個(gè)內(nèi)存頁(yè)并加入到 swap cache 中,最后才會(huì)調(diào)用 swap_readpage 從磁盤中將所需內(nèi)容讀取到新內(nèi)存頁(yè)中。

struct page *__read_swap_cache_async(swp_entry_t entry, gfp_t gfp_mask,
            struct vm_area_struct *vma, unsigned long addr,
            bool *new_page_allocated)
{
    struct page *found_page = NULL, *new_page = NULL;
    struct swap_info_struct *si;
    int err;
    // 是否分配新的內(nèi)存頁(yè),如果內(nèi)存頁(yè)已經(jīng)在 swap cache 中則無(wú)需分配
    *new_page_allocated = false;

    do {
        // 獲取交換區(qū)結(jié)構(gòu) swap_info_struct
        si = get_swap_device(entry);
        // 首先根據(jù) swp_entry_t 到 swap cache 中查找,內(nèi)存頁(yè)是否已經(jīng)被其他進(jìn)程 swap in 進(jìn)來(lái)了
        found_page = find_get_page(swap_address_space(entry),
                       swp_offset(entry));
        // swap cache 已經(jīng)緩存了,就直接返回,不必啟動(dòng)磁盤 IO
        if (found_page)
            break;
        // 如果 swap cache 中沒(méi)有,則需要新分配一個(gè)內(nèi)存頁(yè)
        // 用來(lái)存儲(chǔ)從交換區(qū)中 swap in 進(jìn)來(lái)的內(nèi)容
        if (!new_page) {
            new_page = alloc_page_vma(gfp_mask, vma, addr);
            if (!new_page)
                break;      /* Out of memory */
        }
        // swap 沒(méi)有完成時(shí),內(nèi)存頁(yè)需要加鎖,禁止訪問(wèn)
        __SetPageLocked(new_page);
        __SetPageSwapBacked(new_page);
        // 將新的內(nèi)存頁(yè)先放入 swap cache 中
        // 在這里會(huì)將 swp_entry_t 設(shè)置到 page 結(jié)構(gòu)的 private 屬性中
        err = add_to_swap_cache(new_page, entry, gfp_mask & GFP_KERNEL);
    } while (err != -ENOMEM);

    return found_page;
}

前面我們提到,Linux 系統(tǒng)中同時(shí)允許多個(gè)交換區(qū)存在,內(nèi)核將這些交換區(qū)組織在 swap_info 數(shù)組中。

struct swap_info_struct *swap_info[MAX_SWAPFILES];

內(nèi)核會(huì)為系統(tǒng)中每一個(gè)交換區(qū)分配一個(gè) swap cache,被內(nèi)核組織在一個(gè)叫做 swapper_spaces 的數(shù)組中。交換區(qū)的 swap cache 在 swapper_spaces 數(shù)組中的索引也是 swp_entry_t 中存儲(chǔ)的 type 信息,通過(guò) swp_type 來(lái)提取。

// 一個(gè)交換區(qū)對(duì)應(yīng)一個(gè) swap cache
struct address_space *swapper_spaces[MAX_SWAPFILES] __read_mostly;

這里我們可以看到,交換區(qū)的 swap cache 和文件的 page cache 一樣,都是 address_space 結(jié)構(gòu)來(lái)描述的,而對(duì)于 swap file 來(lái)說(shuō),因?yàn)樗举|(zhì)上是文件系統(tǒng)里的一個(gè)文件,所以 swap file 既有 swap cache 也有 page cache 。

這里大家需要區(qū)分 swap file 的 swap cache 和 page cache,前面在介紹 swap_readpage 函數(shù)的時(shí)候,筆者也提過(guò),swap file 的 page cache 在 swap 的場(chǎng)景中是不會(huì)緩存內(nèi)存頁(yè)的,內(nèi)核只是利用 page cache 相關(guān)的操作函數(shù) —— address_space->a_ops ,從 swap file 所在的文件系統(tǒng)中讀取或者寫入匿名頁(yè),匿名頁(yè)是不會(huì)加入到 page cache 中的。

而交換區(qū)是針對(duì)整個(gè)系統(tǒng)來(lái)說(shuō)的,系統(tǒng)中會(huì)存在很多進(jìn)程,當(dāng)發(fā)生 swap 的時(shí)候,系統(tǒng)中的這些進(jìn)程會(huì)對(duì)同一個(gè) swap cache 進(jìn)行爭(zhēng)搶,所以為了近一步提高 swap 的并行度,內(nèi)核會(huì)將一個(gè)交換區(qū)中的 swap cache 分裂多個(gè)出來(lái),將競(jìng)爭(zhēng)的壓力分散開來(lái)。

這樣一來(lái),一個(gè)交換就演變出多個(gè) swap cache 出來(lái),swapper_spaces 數(shù)組其實(shí)是一個(gè) address_space 結(jié)構(gòu)的二維數(shù)組。每個(gè) swap cache 能夠管理的匿名頁(yè)個(gè)數(shù)為 2^SWAP_ADDRESS_SPACE_SHIFT 個(gè),涉及到的內(nèi)存大小為 4K * SWAP_ADDRESS_SPACE_PAGES —— 64M。

/* One swap address space for each 64M swap space */
#define SWAP_ADDRESS_SPACE_SHIFT	14
#define SWAP_ADDRESS_SPACE_PAGES	(1 << SWAP_ADDRESS_SPACE_SHIFT)

通過(guò)一個(gè)給定的 swp_entry_t 查找對(duì)應(yīng)的 swap cache 的邏輯,內(nèi)核定義在 swap_address_space 宏中。

  1. 首先內(nèi)核通過(guò) swp_type 提取交換區(qū)在 swapper_spaces 數(shù)組中的索引(一維索引)。

  2. 通過(guò) swp_offset >> SWAP_ADDRESS_SPACE_SHIFT(二維索引),定位 slot 具體歸哪一個(gè) swap cache 管理。

#define swap_address_space(entry)			    \
	(&swapper_spaces[swp_type(entry)][swp_offset(entry) \
		>> SWAP_ADDRESS_SPACE_SHIFT])

struct page * lookup_swap_cache(swp_entry_t entry)  
{          
    struct swap_info_struct *si = get_swap_device(entry);
    // 通過(guò) swp_entry_t 定位 swap cache
    // 根據(jù) swp_offset 在 swap cache 中查找內(nèi)存頁(yè)
    page = find_get_page(swap_address_space(entry), swp_offset(entry));        
    return page;  
}

當(dāng)我們通過(guò) swapon 命令來(lái)初始化并激活一個(gè)交換區(qū)的時(shí)候,內(nèi)核會(huì)在 init_swap_address_space 函數(shù)中為交換區(qū)初始化 swap cache。

int init_swap_address_space(unsigned int type, unsigned long nr_pages)
{
    struct address_space *spaces, *space;
    unsigned int i, nr;
    // 計(jì)算交換區(qū)包含的 swap cache 個(gè)數(shù)
    nr = DIV_ROUND_UP(nr_pages, SWAP_ADDRESS_SPACE_PAGES);
    // 為交換區(qū)分配 address_space 數(shù)組,用于存放多個(gè) swap cache
    spaces = kvcalloc(nr, sizeof(struct address_space), GFP_KERNEL);
    // 挨個(gè)初始化交換區(qū)中的 swap cache
    for (i = 0; i < nr; i++) {
        space = spaces + i;
        // 將 a_ops 指定為 swap_aops
        space->a_ops = &swap_aops;
        /* swap cache doesn't use writeback related tags */
        // swap cache 不會(huì)回寫
        mapping_set_no_writeback_tags(space);
    }
    // 保存交換區(qū)中的 swap cache 個(gè)數(shù)
    nr_swapper_spaces[type] = nr;
    // 將初始化好的 address_space 數(shù)組放入 swapper_spaces 數(shù)組中(二維數(shù)組)
    swapper_spaces[type] = spaces;

    return 0;
}

// 交換區(qū)中的 swap cache 個(gè)數(shù)
static unsigned int nr_swapper_spaces[MAX_SWAPFILES] __read_mostly;

struct address_space *swapper_spaces[MAX_SWAPFILES] __read_mostly;

這里我們可以看到,對(duì)于 swap cache 來(lái)說(shuō),內(nèi)核會(huì)將 address_space-> a_ops 初始化為 swap_aops。

static const struct address_space_operations swap_aops = {
	.writepage	= swap_writepage,
	.set_page_dirty	= swap_set_page_dirty,
#ifdef CONFIG_MIGRATION
	.migratepage	= migrate_page,
#endif
};

10.4 swap 預(yù)讀

現(xiàn)在我們已經(jīng)清楚了當(dāng)進(jìn)程虛擬內(nèi)存空間中的某一段 vma 發(fā)生 swap 缺頁(yè)異常之后,內(nèi)核的 swap in 核心處理流程。但是整個(gè)完整的 swap 流程還沒(méi)有結(jié)束,內(nèi)核還需要考慮內(nèi)存訪問(wèn)的空間局部性原理。

當(dāng)進(jìn)程訪問(wèn)某一段內(nèi)存的時(shí)候,在不久之后,其附近的內(nèi)存地址也將被訪問(wèn)。對(duì)應(yīng)于本小節(jié)的 swap 場(chǎng)景來(lái)說(shuō),當(dāng)進(jìn)程地址空間中的某一個(gè)虛擬內(nèi)存地址 address 被訪問(wèn)之后,那么其周圍的虛擬內(nèi)存地址在不久之后,也會(huì)被進(jìn)程訪問(wèn)。

而那些相鄰的虛擬內(nèi)存地址,在進(jìn)程頁(yè)表中對(duì)應(yīng)的頁(yè)表項(xiàng)也都是相鄰的,當(dāng)我們處理完了缺頁(yè)地址 address 的 swap 缺頁(yè)異常之后,如果其相鄰的頁(yè)表項(xiàng)均是 swp_entry_t,那么這些相鄰的 swp_entry_t 所指向交換區(qū)的內(nèi)容也需要被內(nèi)核預(yù)讀進(jìn)內(nèi)存中。

這樣一來(lái),當(dāng) address 附近的虛擬內(nèi)存地址發(fā)生 swap 缺頁(yè)的時(shí)候,內(nèi)核就可以直接從 swap cache 中讀到了,避免了磁盤 IO,使得 swap in 可以快速完成,這里和文件的預(yù)讀機(jī)制有點(diǎn)類似。

swap 預(yù)讀在 Linux 內(nèi)核中由 swapin_readahead 函數(shù)負(fù)責(zé),它有兩種實(shí)現(xiàn)方式:

第一種是根據(jù)缺頁(yè)地址 address 周圍的虛擬內(nèi)存地址進(jìn)行預(yù)讀,但前提是它們必須屬于同一個(gè) vma,這個(gè)邏輯在 swap_vma_readahead 函數(shù)中完成。

第二種是根據(jù)內(nèi)存頁(yè)在交換區(qū)中周圍的磁盤地址進(jìn)行預(yù)讀,但前提是它們必須屬于同一個(gè)交換區(qū),這個(gè)邏輯在 swap_cluster_readahead 函數(shù)中完成。

struct page *swapin_readahead(swp_entry_t entry, gfp_t gfp_mask,
                struct vm_fault *vmf)
{
    return swap_use_vma_readahead() ?
            swap_vma_readahead(entry, gfp_mask, vmf) :
            swap_cluster_readahead(entry, gfp_mask, vmf);
}

在本小節(jié)介紹的 swap 缺頁(yè)場(chǎng)景中,內(nèi)核是按照缺頁(yè)地址周圍的虛擬內(nèi)存地址進(jìn)行預(yù)讀的。在函數(shù) swap_vma_readahead 的開始,內(nèi)核首先調(diào)用 swap_ra_info 方法來(lái)計(jì)算本次需要預(yù)讀的頁(yè)表項(xiàng)集合。

預(yù)讀的最大頁(yè)表項(xiàng)個(gè)數(shù)由 page_cluster 決定,但最大不能超過(guò) 2 ^ SWAP_RA_ORDER_CEILING

#ifdef CONFIG_64BIT
#define SWAP_RA_ORDER_CEILING	5
// 最大預(yù)讀窗口
max_win = 1 << min_t(unsigned int, READ_ONCE(page_cluster),
			     SWAP_RA_ORDER_CEILING);

page_cluster 的值可以通過(guò)內(nèi)核參數(shù) /proc/sys/vm/page-cluster 來(lái)調(diào)整,默認(rèn)值為 3,我們可以通過(guò)設(shè)置 page_cluster = 0來(lái)禁止 swap 預(yù)讀。

當(dāng)要 swap in 的內(nèi)存頁(yè)在交換區(qū)的位置已經(jīng)接近末尾了,則需要減少預(yù)讀頁(yè)的個(gè)數(shù),防止預(yù)讀超出交換區(qū)的邊界。

如果預(yù)讀的頁(yè)表項(xiàng)不是 swp_entry_t,則說(shuō)明該頁(yè)表項(xiàng)是一個(gè)空的還沒(méi)有進(jìn)行過(guò)映射或者頁(yè)表項(xiàng)指向的內(nèi)存頁(yè)還在內(nèi)存中,這種情況下則跳過(guò),繼續(xù)預(yù)讀后面的 swp_entry_t。

/**
 * swap_vma_readahead - swap in pages in hope we need them soon
 * @entry: swap entry of this memory
 * @gfp_mask: memory allocation flags
 * @vmf: fault information
 *
 * Returns the struct page for entry and addr, after queueing swapin.
 *
 * Primitive swap readahead code. We simply read in a few pages whoes
 * virtual addresses are around the fault address in the same vma.
 *
 * Caller must hold read mmap_sem if vmf->vma is not NULL.
 *
 */
static struct page *swap_vma_readahead(swp_entry_t fentry, gfp_t gfp_mask,
                       struct vm_fault *vmf)
{
    struct vm_area_struct *vma = vmf->vma;
    struct vma_swap_readahead ra_info = {0,};
    // 獲取本次要進(jìn)行預(yù)讀的頁(yè)表項(xiàng)
    swap_ra_info(vmf, &ra_info);
    // 遍歷預(yù)讀窗口 ra_info 中的頁(yè)表項(xiàng),挨個(gè)進(jìn)行預(yù)讀
    for (i = 0, pte = ra_info.ptes; i < ra_info.nr_pte;
         i++, pte++) {
        // 獲取要進(jìn)行預(yù)讀的頁(yè)表項(xiàng)
        pentry = *pte;
        // 頁(yè)表項(xiàng)為空,表示還未進(jìn)行內(nèi)存映射,直接跳過(guò)
        if (pte_none(pentry))
            continue;
        // 頁(yè)表項(xiàng)指向的內(nèi)存頁(yè)仍然在內(nèi)存中,跳過(guò)
        if (pte_present(pentry))
            continue;
        // 將 pte 轉(zhuǎn)換為 swp_entry_t
        entry = pte_to_swp_entry(pentry);
        if (unlikely(non_swap_entry(entry)))
            continue;
        // 利用 swp_entry_t 先到 swap cache 中去查找
        // 如果沒(méi)有,則新分配一個(gè)內(nèi)存頁(yè)并添加到 swap cache 中,這種情況下 page_allocated = true
        // 如果有,則直接從swap cache 中獲取內(nèi)存頁(yè),也就不需要預(yù)讀了,page_allocated = false
        page = __read_swap_cache_async(entry, gfp_mask, vma,
                           vmf->address, &page_allocated);

        if (page_allocated) {
            // 發(fā)生磁盤 IO,從交換區(qū)中讀取內(nèi)存頁(yè)的內(nèi)容到新分配的 page 中
            swap_readpage(page, false);
        }
    }
}

這樣一來(lái),經(jīng)過(guò) swap_vma_readahead 預(yù)讀之后,缺頁(yè)內(nèi)存地址 address 周圍的頁(yè)表項(xiàng)所指向的內(nèi)存頁(yè)就全部被加載到 swap cache 中了。

當(dāng)進(jìn)程下次訪問(wèn) address 周圍的內(nèi)存地址時(shí),雖然也會(huì)發(fā)生 swap 缺頁(yè)異常,但是內(nèi)核直接從 swap cache 中就可以讀取到了,避免了磁盤 IO。

10.5 還原 do_swap_page 完整面貌

當(dāng)我們明白了前面介紹的這些背景知識(shí)之后,再回過(guò)頭來(lái)看內(nèi)核完整的 swap in 過(guò)程就很清晰了

  1. 首先內(nèi)核會(huì)通過(guò) pte_to_swp_entry 將進(jìn)程頁(yè)表中的 pte 轉(zhuǎn)換為 swp_entry_t

  2. 通過(guò) lookup_swap_cache 根據(jù) swp_entry_t 到 swap cache 中查找是否已經(jīng)有其他進(jìn)程將內(nèi)存頁(yè) swap 進(jìn)來(lái)了。

  3. 如果 swap cache 沒(méi)有對(duì)應(yīng)的內(nèi)存頁(yè),則調(diào)用 swapin_readahead 啟動(dòng)預(yù)讀,在這個(gè)過(guò)程中,內(nèi)核會(huì)重新分配物理內(nèi)存頁(yè),并將這個(gè)物理內(nèi)存頁(yè)加入到 swap cache 中,隨后通過(guò) swap_readpage 將交換區(qū)的內(nèi)容讀取到這個(gè)內(nèi)存頁(yè)中。

  4. 現(xiàn)在我們需要的內(nèi)存頁(yè)已經(jīng) swap in 到內(nèi)存中了,后面的流程就和普通的缺頁(yè)處理一樣了,根據(jù) swap in 進(jìn)來(lái)的內(nèi)存頁(yè)地址重新創(chuàng)建初始化一個(gè)新的 pte,然后用這個(gè)新的 pte,將進(jìn)程頁(yè)表中原來(lái)的 swp_entry_t 替換掉。

  5. 為新的內(nèi)存頁(yè)建立反向映射關(guān)系,加入 lru active list 中,最后 swap_free 釋放交換區(qū)中的資源。

vm_fault_t do_swap_page(struct vm_fault *vmf)
{
    // 將缺頁(yè)內(nèi)存地址 address 對(duì)應(yīng)的 pte 轉(zhuǎn)換為 swp_entry_t
    entry = pte_to_swp_entry(vmf->orig_pte);  
    // 首先利用 swp_entry_t 到 swap cache 查找,看內(nèi)存頁(yè)已經(jīng)其他進(jìn)程被 swap in 進(jìn)來(lái)
    page = lookup_swap_cache(entry, vma, vmf->address);
    swapcache = page;
    // 處理匿名頁(yè)不在 swap cache 的情況
    if (!page) {
        // 通過(guò) swp_entry_t 獲取對(duì)應(yīng)的交換區(qū)結(jié)構(gòu)
        struct swap_info_struct *si = swp_swap_info(entry);
        // 針對(duì) fast swap storage 比如 zram 等 swap 的性能優(yōu)化,跳過(guò) swap cache
        if (si->flags & SWP_SYNCHRONOUS_IO &&
                __swap_count(entry) == 1) {
            /* skip swapcache */
            // 當(dāng)只有單進(jìn)程引用這個(gè)匿名頁(yè)的時(shí)候,直接跳過(guò) swap cache
            // 從伙伴系統(tǒng)中申請(qǐng)內(nèi)存頁(yè) page,注意這里的 page 并不會(huì)加入到 swap cache 中
            page = alloc_page_vma(GFP_HIGHUSER_MOVABLE, vma,
                            vmf->address);
            if (page) {
                __SetPageLocked(page);
                __SetPageSwapBacked(page);
                set_page_private(page, entry.val);
                // 加入 lru 鏈表
                lru_cache_add_anon(page);
                // 直接從 fast storage device 中讀取被換出的內(nèi)容到 page 中
                swap_readpage(page, true);
            }
        } else {
            // 啟動(dòng) swap 預(yù)讀
            page = swapin_readahead(entry, GFP_HIGHUSER_MOVABLE,
                        vmf);
            swapcache = page;
        }

        // 因?yàn)樯婕暗搅舜疟P IO,所以本次缺頁(yè)異常屬于 FAULT_MAJOR 類型
        ret = VM_FAULT_MAJOR;
        count_vm_event(PGMAJFAULT);
        count_memcg_event_mm(vma->vm_mm, PGMAJFAULT);
    } 

    // 現(xiàn)在之前被換出的內(nèi)存頁(yè)已經(jīng)被內(nèi)核重新 swap in 到內(nèi)存中了。
    // 下面就是重新設(shè)置 pte,將原來(lái)頁(yè)表中的 swp_entry_t 替換掉
    vmf->pte = pte_offset_map_lock(vma->vm_mm, vmf->pmd, vmf->address,
            &vmf->ptl);
    // 增加匿名頁(yè)的統(tǒng)計(jì)計(jì)數(shù)
    inc_mm_counter_fast(vma->vm_mm, MM_ANONPAGES);
    // 減少 swap entries 計(jì)數(shù)
    dec_mm_counter_fast(vma->vm_mm, MM_SWAPENTS);
    // 根據(jù)被 swap in 進(jìn)來(lái)的新內(nèi)存頁(yè)重新創(chuàng)建 pte
    pte = mk_pte(page, vma->vm_page_prot);
    // 用新的 pte 替換掉頁(yè)表中的 swp_entry_t
    set_pte_at(vma->vm_mm, vmf->address, vmf->pte, pte);
    vmf->orig_pte = pte;

    // 建立新內(nèi)存頁(yè)的反向映射關(guān)系
    do_page_add_anon_rmap(page, vma, vmf->address, exclusive);
    // 將內(nèi)存頁(yè)添加到 lru 的 active list 中
    activate_page(page);
    // 釋放交換區(qū)中的資源
    swap_free(entry);
    // 刷新 mmu cache
    update_mmu_cache(vma, vmf->address, vmf->pte);
    return ret;
}

總結(jié)

本文我們介紹了 Linux 內(nèi)核如何通過(guò)缺頁(yè)中斷將進(jìn)程頁(yè)表從 0 到 1 一步一步的完整構(gòu)建出來(lái)。從進(jìn)程虛擬內(nèi)存空間布局的角度來(lái)講,缺頁(yè)中斷主要分為兩個(gè)方面:

  • 內(nèi)核態(tài)缺頁(yè)異常處理 —— do_kern_addr_fault,這里主要是處理 vmalloc 虛擬內(nèi)存區(qū)域的缺頁(yè)異常,其中涉及到主內(nèi)核頁(yè)表與進(jìn)程頁(yè)表內(nèi)核部分的同步問(wèn)題。

  • 用戶態(tài)缺頁(yè)異常處理 —— do_user_addr_fault,其中涉及到的主內(nèi)容是如何從 0 到 1 一步一步構(gòu)建完善進(jìn)程頁(yè)表體系。

總體上來(lái)講引起缺頁(yè)中斷的原因分為兩大類:

  • 第一類是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)不在內(nèi)存中

  • 第二類是缺頁(yè)虛擬內(nèi)存地址背后映射的物理內(nèi)存頁(yè)在內(nèi)存中。

第一類缺頁(yè)中斷的原因涉及到三種場(chǎng)景:

  1. 缺頁(yè)虛擬內(nèi)存地址 address 在進(jìn)程頁(yè)表中間頁(yè)目錄對(duì)應(yīng)的頁(yè)目錄項(xiàng) pmd_t 是空的。

  2. 缺頁(yè)地址 address 對(duì)應(yīng)的 pmd_t 雖然不是空的,頁(yè)表也存在,但是 address 對(duì)應(yīng)在頁(yè)表中的 pte 是空的。

  3. 虛擬內(nèi)存地址 address 在進(jìn)程頁(yè)表中的頁(yè)表項(xiàng) pte 不是空的,但是其背后映射的物理內(nèi)存頁(yè)被內(nèi)核 swap out 到磁盤上了。

第二類缺頁(yè)中斷的原因涉及到兩種場(chǎng)景:

  1. NUMA Balancing。

  2. 寫時(shí)復(fù)制了(Copy On Write, COW)。

最后我們介紹了內(nèi)核整個(gè) swap in 的完整過(guò)程,其中涉及到的重要內(nèi)容包括交換區(qū)的布局以及在內(nèi)核中的組織結(jié)構(gòu),swap cache 與 page cache 之間的區(qū)別,swap 預(yù)讀機(jī)制。

好了,今天的內(nèi)容到這里就結(jié)束了,感謝大家的收看,我們下篇文章見(jiàn)~~~~

總結(jié)

以上是生活随笔為你收集整理的一文聊透 Linux 缺页异常的处理 —— 图解 Page Faults的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。

日日碰狠狠躁久久躁蜜桃 | 国产高潮视频在线观看 | 亚洲欧美中文字幕5发布 | 亚洲国产日韩a在线播放 | 内射老妇bbwx0c0ck | 红桃av一区二区三区在线无码av | 青青青爽视频在线观看 | 久久精品国产大片免费观看 | 老头边吃奶边弄进去呻吟 | 99国产欧美久久久精品 | 18禁止看的免费污网站 | 亚洲小说图区综合在线 | 国产精品办公室沙发 | 国产艳妇av在线观看果冻传媒 | 亚洲一区二区三区国产精华液 | 高潮毛片无遮挡高清免费 | 日产国产精品亚洲系列 | 老司机亚洲精品影院 | 欧美黑人巨大xxxxx | 亚洲日韩乱码中文无码蜜桃臀网站 | 久久精品一区二区三区四区 | 性做久久久久久久免费看 | 久久精品女人的天堂av | ass日本丰满熟妇pics | 激情内射亚州一区二区三区爱妻 | 欧美日韩综合一区二区三区 | 久久久www成人免费毛片 | 成人精品一区二区三区中文字幕 | 蜜桃臀无码内射一区二区三区 | 老熟女重囗味hdxx69 | 久久精品女人的天堂av | 人人澡人摸人人添 | 久久国产精品_国产精品 | 无码av岛国片在线播放 | 国产精品毛片一区二区 | 天下第一社区视频www日本 | 日本乱偷人妻中文字幕 | 狠狠色色综合网站 | 国产色xx群视频射精 | 国产成人精品一区二区在线小狼 | 水蜜桃色314在线观看 | 77777熟女视频在线观看 а天堂中文在线官网 | 国产农村乱对白刺激视频 | 亚洲 另类 在线 欧美 制服 | 久久国语露脸国产精品电影 | 九九综合va免费看 | 欧美成人家庭影院 | 亚洲娇小与黑人巨大交 | 曰韩少妇内射免费播放 | 国产麻豆精品一区二区三区v视界 | 少妇无码吹潮 | 一本精品99久久精品77 | 亚洲 日韩 欧美 成人 在线观看 | 99精品无人区乱码1区2区3区 | 丰满人妻被黑人猛烈进入 | 波多野结衣av在线观看 | 国产精品.xx视频.xxtv | 永久免费观看美女裸体的网站 | 熟妇人妻无码xxx视频 | a国产一区二区免费入口 | 欧美丰满老熟妇xxxxx性 | 午夜福利一区二区三区在线观看 | av人摸人人人澡人人超碰下载 | 纯爱无遮挡h肉动漫在线播放 | 精品国产一区二区三区av 性色 | 欧美野外疯狂做受xxxx高潮 | 偷窥村妇洗澡毛毛多 | 国产精品久免费的黄网站 | 国产特级毛片aaaaaa高潮流水 | 亚洲精品欧美二区三区中文字幕 | 久久久www成人免费毛片 | 爆乳一区二区三区无码 | 国产精品无套呻吟在线 | 成熟女人特级毛片www免费 | 无码人妻av免费一区二区三区 | 性欧美牲交xxxxx视频 | 欧美阿v高清资源不卡在线播放 | 国产特级毛片aaaaaa高潮流水 | 少妇一晚三次一区二区三区 | 日韩人妻无码一区二区三区久久99 | 日日天干夜夜狠狠爱 | 亚洲一区二区三区国产精华液 | 人妻少妇精品视频专区 | 乱码午夜-极国产极内射 | 99麻豆久久久国产精品免费 | 久久久久成人精品免费播放动漫 | 欧美怡红院免费全部视频 | 亚洲国产日韩a在线播放 | 福利一区二区三区视频在线观看 | 性做久久久久久久免费看 | 欧美丰满老熟妇xxxxx性 | 国产情侣作爱视频免费观看 | 精品国产麻豆免费人成网站 | 免费人成在线视频无码 | av无码电影一区二区三区 | 亚洲人成影院在线观看 | 在线观看免费人成视频 | 久久亚洲国产成人精品性色 | 亚洲精品综合一区二区三区在线 | 国产免费久久久久久无码 | 国产欧美熟妇另类久久久 | 欧美性猛交内射兽交老熟妇 | 久9re热视频这里只有精品 | 精品aⅴ一区二区三区 | 精品成人av一区二区三区 | 无码人妻黑人中文字幕 | 无码人妻精品一区二区三区下载 | 综合网日日天干夜夜久久 | 福利一区二区三区视频在线观看 | 免费国产成人高清在线观看网站 | 99久久亚洲精品无码毛片 | 国产精品久久久午夜夜伦鲁鲁 | 国产小呦泬泬99精品 | 蜜桃视频韩日免费播放 | 免费网站看v片在线18禁无码 | 强伦人妻一区二区三区视频18 | 99er热精品视频 | 精品国产一区二区三区av 性色 | 色五月丁香五月综合五月 | 少妇太爽了在线观看 | 国内老熟妇对白xxxxhd | 麻豆果冻传媒2021精品传媒一区下载 | 九九热爱视频精品 | 亚洲一区二区三区四区 | 露脸叫床粗话东北少妇 | 人妻人人添人妻人人爱 | 亚洲呦女专区 | 欧美人与禽zoz0性伦交 | 国产精品久久国产精品99 | 国产精品无码一区二区桃花视频 | 亚洲成av人片天堂网无码】 | 国产尤物精品视频 | av无码电影一区二区三区 | 曰韩无码二三区中文字幕 | 国产真人无遮挡作爱免费视频 | 国产热a欧美热a在线视频 | 小泽玛莉亚一区二区视频在线 | 国产熟妇另类久久久久 | 理论片87福利理论电影 | 日本护士毛茸茸高潮 | 国产99久久精品一区二区 | 无码任你躁久久久久久久 | 正在播放老肥熟妇露脸 | 亚洲精品国偷拍自产在线观看蜜桃 | 中文字幕精品av一区二区五区 | 3d动漫精品啪啪一区二区中 | 亚洲の无码国产の无码步美 | 亚洲日韩av一区二区三区中文 | 人妻体内射精一区二区三四 | 精品夜夜澡人妻无码av蜜桃 | 精品少妇爆乳无码av无码专区 | 亚洲一区二区三区在线观看网站 | 风流少妇按摩来高潮 | 亚洲综合在线一区二区三区 | 青春草在线视频免费观看 | 久久精品女人天堂av免费观看 | 激情五月综合色婷婷一区二区 | 少妇人妻偷人精品无码视频 | 欧美三级不卡在线观看 | 亚洲精品一区二区三区在线观看 | 色欲综合久久中文字幕网 | 亚洲小说春色综合另类 | 色综合久久久无码网中文 | 亚洲熟悉妇女xxx妇女av | 粗大的内捧猛烈进出视频 | 人妻无码久久精品人妻 | 国产麻豆精品一区二区三区v视界 | 兔费看少妇性l交大片免费 | a片免费视频在线观看 | 玩弄少妇高潮ⅹxxxyw | 国产三级久久久精品麻豆三级 | 全黄性性激高免费视频 | 久久无码人妻影院 | 国产成人综合美国十次 | 欧美日韩色另类综合 | 香蕉久久久久久av成人 | 偷窥日本少妇撒尿chinese | 亚洲高清偷拍一区二区三区 | 亚洲另类伦春色综合小说 | 一个人免费观看的www视频 | 中国女人内谢69xxxxxa片 | 免费国产成人高清在线观看网站 | 国产色xx群视频射精 | 永久免费观看美女裸体的网站 | 东京无码熟妇人妻av在线网址 | 天天拍夜夜添久久精品大 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 国产农村乱对白刺激视频 | 国产人妖乱国产精品人妖 | 亚洲の无码国产の无码影院 | 亚洲日韩一区二区 | 无码人妻久久一区二区三区不卡 | 国产凸凹视频一区二区 | 丁香啪啪综合成人亚洲 | www国产精品内射老师 | 无码人妻少妇伦在线电影 | 免费人成在线视频无码 | 国产亚洲精品久久久久久久久动漫 | 亚无码乱人伦一区二区 | 狠狠色色综合网站 | 午夜成人1000部免费视频 | 亚洲一区二区三区播放 | 日韩精品a片一区二区三区妖精 | 中文字幕无码av波多野吉衣 | 在线观看国产午夜福利片 | 免费无码肉片在线观看 | 男人的天堂2018无码 | 亚洲色成人中文字幕网站 | 蜜桃av抽搐高潮一区二区 | 天天躁夜夜躁狠狠是什么心态 | 熟妇人妻激情偷爽文 | 正在播放东北夫妻内射 | 中文字幕+乱码+中文字幕一区 | 国产偷国产偷精品高清尤物 | 亚洲精品一区二区三区在线观看 | 双乳奶水饱满少妇呻吟 | 亚洲无人区午夜福利码高清完整版 | 亚洲乱码日产精品bd | 国产亲子乱弄免费视频 | 老熟妇仑乱视频一区二区 | 亚洲日韩精品欧美一区二区 | 国产性生交xxxxx无码 | 无码播放一区二区三区 | 中文字幕色婷婷在线视频 | 免费无码av一区二区 | 国产麻豆精品一区二区三区v视界 | 亚洲中文字幕无码中文字在线 | 欧美性猛交内射兽交老熟妇 | 精品久久久久久人妻无码中文字幕 | 亚洲va欧美va天堂v国产综合 | 成人亚洲精品久久久久 | 色五月五月丁香亚洲综合网 | 一区二区三区高清视频一 | 无码国产激情在线观看 | 日本爽爽爽爽爽爽在线观看免 | 久久久中文久久久无码 | 久久人人爽人人爽人人片av高清 | 成人免费视频在线观看 | 亚洲s色大片在线观看 | 久久99国产综合精品 | 亚洲成av人在线观看网址 | 色综合久久中文娱乐网 | 国产av无码专区亚洲a∨毛片 | 欧美 亚洲 国产 另类 | 美女扒开屁股让男人桶 | 日韩欧美中文字幕公布 | 麻花豆传媒剧国产免费mv在线 | 国产黄在线观看免费观看不卡 | 国产熟妇另类久久久久 | 亚洲欧美色中文字幕在线 | 性生交大片免费看女人按摩摩 | 欧美zoozzooz性欧美 | 999久久久国产精品消防器材 | 日本乱偷人妻中文字幕 | 无码乱肉视频免费大全合集 | 呦交小u女精品视频 | 少女韩国电视剧在线观看完整 | 扒开双腿疯狂进出爽爽爽视频 | 成人欧美一区二区三区黑人 | 国产在热线精品视频 | 日本高清一区免费中文视频 | 欧美日韩视频无码一区二区三 | 四虎4hu永久免费 | 亚洲娇小与黑人巨大交 | 日韩精品无码免费一区二区三区 | 十八禁真人啪啪免费网站 | √天堂中文官网8在线 | 性欧美大战久久久久久久 | 亚洲娇小与黑人巨大交 | 无码一区二区三区在线 | 131美女爱做视频 | 2019nv天堂香蕉在线观看 | 久久久久久久人妻无码中文字幕爆 | 大肉大捧一进一出视频出来呀 | 国产乱子伦视频在线播放 | 俄罗斯老熟妇色xxxx | 亚洲国产精品无码久久久久高潮 | 无遮无挡爽爽免费视频 | 无码人妻久久一区二区三区不卡 | 国产精品高潮呻吟av久久 | 午夜成人1000部免费视频 | 免费无码一区二区三区蜜桃大 | 国产人妖乱国产精品人妖 | 97无码免费人妻超级碰碰夜夜 | 国产真实夫妇视频 | 中文毛片无遮挡高清免费 | 久久五月精品中文字幕 | 成人aaa片一区国产精品 | 帮老师解开蕾丝奶罩吸乳网站 | 精品国精品国产自在久国产87 | 国产美女精品一区二区三区 | 纯爱无遮挡h肉动漫在线播放 | 亚洲 欧美 激情 小说 另类 | 蜜臀av在线观看 在线欧美精品一区二区三区 | 波多野结衣高清一区二区三区 | 蜜臀aⅴ国产精品久久久国产老师 | av人摸人人人澡人人超碰下载 | 精品无人国产偷自产在线 | 澳门永久av免费网站 | 国产成人精品三级麻豆 | 精品国产av色一区二区深夜久久 | 中文字幕乱码亚洲无线三区 | 一区二区三区高清视频一 | 中文字幕无码人妻少妇免费 | 乱人伦人妻中文字幕无码久久网 | 国产在线精品一区二区三区直播 | 精品久久久无码中文字幕 | 日日摸天天摸爽爽狠狠97 | 亚洲狠狠婷婷综合久久 | 亚洲一区二区三区国产精华液 | 熟妇女人妻丰满少妇中文字幕 | 中文字幕无码日韩专区 | 中文字幕无码免费久久9一区9 | 99精品无人区乱码1区2区3区 | 中文字幕乱妇无码av在线 | 夜精品a片一区二区三区无码白浆 | 国産精品久久久久久久 | 六月丁香婷婷色狠狠久久 | 又紧又大又爽精品一区二区 | 免费人成在线视频无码 | 国产亚av手机在线观看 | 在线a亚洲视频播放在线观看 | 亚洲精品综合五月久久小说 | 99久久人妻精品免费一区 | 亚洲日本在线电影 | 亚洲成av人片天堂网无码】 | 日本一本二本三区免费 | 俺去俺来也在线www色官网 | 国产成人精品一区二区在线小狼 | 精品乱码久久久久久久 | 久久婷婷五月综合色国产香蕉 | 成人无码精品1区2区3区免费看 | 18黄暴禁片在线观看 | 国产真人无遮挡作爱免费视频 | 人妻少妇精品视频专区 | 思思久久99热只有频精品66 | 日本丰满护士爆乳xxxx | 精品人妻av区 | 国产又爽又猛又粗的视频a片 | 亚洲中文字幕无码中文字在线 | 欧美 丝袜 自拍 制服 另类 | 亚洲综合在线一区二区三区 | av香港经典三级级 在线 | 帮老师解开蕾丝奶罩吸乳网站 | 日韩少妇内射免费播放 | 人妻少妇精品无码专区动漫 | 偷窥村妇洗澡毛毛多 | 97久久精品无码一区二区 | 久久久精品国产sm最大网站 | 成 人 网 站国产免费观看 | 国产在热线精品视频 | 久久伊人色av天堂九九小黄鸭 | 国产精品对白交换视频 | 国产美女精品一区二区三区 | 色欲久久久天天天综合网精品 | 国产va免费精品观看 | 男女猛烈xx00免费视频试看 | 成人试看120秒体验区 | 性啪啪chinese东北女人 | 免费看男女做好爽好硬视频 | 美女张开腿让人桶 | 亚洲国产一区二区三区在线观看 | 国产真人无遮挡作爱免费视频 | 又粗又大又硬毛片免费看 | 乱人伦人妻中文字幕无码久久网 | www国产亚洲精品久久网站 | 欧美老妇交乱视频在线观看 | 婷婷丁香五月天综合东京热 | 国产黑色丝袜在线播放 | 亚洲欧美日韩成人高清在线一区 | 小泽玛莉亚一区二区视频在线 | 无人区乱码一区二区三区 | 久久午夜夜伦鲁鲁片无码免费 | 蜜桃视频插满18在线观看 | 成人片黄网站色大片免费观看 | 欧美大屁股xxxxhd黑色 | 妺妺窝人体色www婷婷 | 亚洲成熟女人毛毛耸耸多 | 日本www一道久久久免费榴莲 | 国产成人久久精品流白浆 | 无码帝国www无码专区色综合 | 午夜成人1000部免费视频 | a片在线免费观看 | 国产真实伦对白全集 | 天堂一区人妻无码 | 国产精品久久久久久无码 | 伊人久久大香线蕉亚洲 | 日本一卡二卡不卡视频查询 | 国产在线精品一区二区三区直播 | 在线观看国产一区二区三区 | 四虎影视成人永久免费观看视频 | 国产偷抇久久精品a片69 | 人妻人人添人妻人人爱 | 国产成人无码av在线影院 | 亚洲成在人网站无码天堂 | 久久伊人色av天堂九九小黄鸭 | 日本丰满护士爆乳xxxx | 女人和拘做爰正片视频 | 久久精品国产99久久6动漫 | 亚洲狠狠婷婷综合久久 | 亚洲а∨天堂久久精品2021 | 国产97色在线 | 免 | 牲欲强的熟妇农村老妇女视频 | 亚洲人交乣女bbw | 在线观看国产一区二区三区 | 中文字幕人妻丝袜二区 | 特大黑人娇小亚洲女 | 人妻少妇精品视频专区 | 色一情一乱一伦一视频免费看 | 成人性做爰aaa片免费看 | 国产又爽又猛又粗的视频a片 | 国产精品亚洲lv粉色 | 玩弄中年熟妇正在播放 | 日本大香伊一区二区三区 | 国産精品久久久久久久 | 国产精品亚洲五月天高清 | 免费国产黄网站在线观看 | 国产舌乚八伦偷品w中 | 国产精品高潮呻吟av久久4虎 | 日韩精品无码一区二区中文字幕 | 国产精品久久久久9999小说 | 无码人中文字幕 | 日本大香伊一区二区三区 | 又色又爽又黄的美女裸体网站 | 国产三级精品三级男人的天堂 | 中文精品无码中文字幕无码专区 | 99久久99久久免费精品蜜桃 | 欧美野外疯狂做受xxxx高潮 | 精品无码国产自产拍在线观看蜜 | 亚洲日韩av一区二区三区四区 | 未满成年国产在线观看 | 国产又粗又硬又大爽黄老大爷视 | 成熟女人特级毛片www免费 | 国产成人无码一二三区视频 | 国产精品毛多多水多 | 55夜色66夜色国产精品视频 | 97无码免费人妻超级碰碰夜夜 | 天天做天天爱天天爽综合网 | 精品久久久久久亚洲精品 | 中文字幕乱码中文乱码51精品 | 青草青草久热国产精品 | 亚洲国产欧美日韩精品一区二区三区 | 成人无码精品一区二区三区 | 日韩亚洲欧美精品综合 | 少妇无码av无码专区在线观看 | 啦啦啦www在线观看免费视频 | 成人精品视频一区二区 | 无码一区二区三区在线观看 | 乱中年女人伦av三区 | 久久亚洲精品成人无码 | 高清无码午夜福利视频 | av人摸人人人澡人人超碰下载 | 小鲜肉自慰网站xnxx | 中文字幕无码免费久久9一区9 | 领导边摸边吃奶边做爽在线观看 | 国产精品二区一区二区aⅴ污介绍 | 久久久成人毛片无码 | 国产亚洲精品久久久久久久久动漫 | 欧美三级不卡在线观看 | 黑人巨大精品欧美黑寡妇 | 色欲久久久天天天综合网精品 | 日本精品高清一区二区 | 国产精品无码一区二区三区不卡 | 久久国产自偷自偷免费一区调 | 男女爱爱好爽视频免费看 | 精品偷拍一区二区三区在线看 | 天天做天天爱天天爽综合网 | 亚洲色欲色欲天天天www | 亚洲春色在线视频 | а√资源新版在线天堂 | 在线天堂新版最新版在线8 | 欧美三级a做爰在线观看 | av无码不卡在线观看免费 | 精品欧洲av无码一区二区三区 | 一区二区三区高清视频一 | 少妇被粗大的猛进出69影院 | 久久99精品国产麻豆 | 久久综合久久自在自线精品自 | 夜夜夜高潮夜夜爽夜夜爰爰 | 国产亚洲欧美日韩亚洲中文色 | 99久久久国产精品无码免费 | 奇米影视7777久久精品人人爽 | 国产精品99爱免费视频 | 搡女人真爽免费视频大全 | 国产性生交xxxxx无码 | 粗大的内捧猛烈进出视频 | 日产精品高潮呻吟av久久 | 免费无码肉片在线观看 | 狠狠躁日日躁夜夜躁2020 | 精品人妻av区 | 精品少妇爆乳无码av无码专区 | 在线a亚洲视频播放在线观看 | 久久久久久久人妻无码中文字幕爆 | 久久这里只有精品视频9 | aⅴ亚洲 日韩 色 图网站 播放 | 男女爱爱好爽视频免费看 | 中文无码精品a∨在线观看不卡 | 一二三四社区在线中文视频 | 扒开双腿疯狂进出爽爽爽视频 | 亚洲区欧美区综合区自拍区 | 久久久精品欧美一区二区免费 | 久久午夜无码鲁丝片午夜精品 | 天堂亚洲免费视频 | 久久综合给合久久狠狠狠97色 | 日韩亚洲欧美中文高清在线 | 亚洲中文字幕无码中字 | 波多野结衣乳巨码无在线观看 | 午夜精品一区二区三区的区别 | 黑人粗大猛烈进出高潮视频 | 又大又硬又爽免费视频 | 兔费看少妇性l交大片免费 | 亚洲欧美国产精品专区久久 | 福利一区二区三区视频在线观看 | 中国大陆精品视频xxxx | 亚洲国产日韩a在线播放 | 国产又粗又硬又大爽黄老大爷视 | 丰满人妻翻云覆雨呻吟视频 | 国产精品美女久久久久av爽李琼 | 丰满少妇熟乱xxxxx视频 | 亚洲日韩精品欧美一区二区 | 精品国产aⅴ无码一区二区 | 四虎影视成人永久免费观看视频 | 欧美高清在线精品一区 | 奇米影视7777久久精品人人爽 | 国产精品无码mv在线观看 | 成人av无码一区二区三区 | 国产偷国产偷精品高清尤物 | 久久国产精品偷任你爽任你 | 樱花草在线社区www | 亚洲日韩av一区二区三区四区 | 久久久久亚洲精品中文字幕 | 99久久精品日本一区二区免费 | 少妇无码一区二区二三区 | 55夜色66夜色国产精品视频 | 日韩精品无码一区二区中文字幕 | 小sao货水好多真紧h无码视频 | 伊人久久婷婷五月综合97色 | 精品国偷自产在线视频 | 国产精品99爱免费视频 | 亚洲狠狠婷婷综合久久 | 久久精品人人做人人综合 | 中文精品无码中文字幕无码专区 | 精品无码av一区二区三区 | 亚洲综合色区中文字幕 | 国产乱人偷精品人妻a片 | 国产9 9在线 | 中文 | 日本精品久久久久中文字幕 | 亚洲成熟女人毛毛耸耸多 | 国产9 9在线 | 中文 | 丝袜美腿亚洲一区二区 | 天堂а√在线地址中文在线 | 午夜精品久久久内射近拍高清 | 午夜精品久久久久久久久 | 男人扒开女人内裤强吻桶进去 | 久久无码专区国产精品s | 国产成人精品一区二区在线小狼 | 欧美精品在线观看 | 色一情一乱一伦一视频免费看 | 狂野欧美性猛交免费视频 | 性生交大片免费看女人按摩摩 | 日本丰满熟妇videos | 一本久道高清无码视频 | 小sao货水好多真紧h无码视频 | 少妇人妻av毛片在线看 | 性生交大片免费看女人按摩摩 | 久久精品一区二区三区四区 | 久久99精品久久久久婷婷 | 国产精品人妻一区二区三区四 | 98国产精品综合一区二区三区 | 国产网红无码精品视频 | 国精产品一品二品国精品69xx | 激情亚洲一区国产精品 | 又色又爽又黄的美女裸体网站 | 久久综合给合久久狠狠狠97色 | 亚洲精品无码国产 | 老头边吃奶边弄进去呻吟 | 帮老师解开蕾丝奶罩吸乳网站 | 蜜臀av在线播放 久久综合激激的五月天 | 久久久精品欧美一区二区免费 | 呦交小u女精品视频 | 日韩精品无码免费一区二区三区 | 99久久99久久免费精品蜜桃 | 欧美日韩久久久精品a片 | 兔费看少妇性l交大片免费 | 黑人粗大猛烈进出高潮视频 | 丁香花在线影院观看在线播放 | 国产内射老熟女aaaa | 亚洲精品欧美二区三区中文字幕 | 97色伦图片97综合影院 | 久久久久se色偷偷亚洲精品av | 国产成人一区二区三区在线观看 | 久久综合久久自在自线精品自 | 亚洲精品综合一区二区三区在线 | 欧美放荡的少妇 | 亚洲日本va午夜在线电影 | 强开小婷嫩苞又嫩又紧视频 | 国产精品多人p群无码 | 亚洲成av人在线观看网址 | 中文字幕av日韩精品一区二区 | 免费无码的av片在线观看 | 久久久成人毛片无码 | 国产亚洲精品精品国产亚洲综合 | 少妇高潮喷潮久久久影院 | 亚洲 欧美 激情 小说 另类 | 无码精品人妻一区二区三区av | 久热国产vs视频在线观看 | 日韩人妻少妇一区二区三区 | 国产莉萝无码av在线播放 | 欧美精品一区二区精品久久 | 7777奇米四色成人眼影 | 丰满人妻翻云覆雨呻吟视频 | 久久国内精品自在自线 | 久久精品无码一区二区三区 | 帮老师解开蕾丝奶罩吸乳网站 | 亚洲精品一区二区三区婷婷月 | 欧美人与善在线com | 超碰97人人射妻 | 国产欧美精品一区二区三区 | 亚洲成a人片在线观看无码3d | 国产电影无码午夜在线播放 | 中文久久乱码一区二区 | 青草青草久热国产精品 | 精品无码一区二区三区的天堂 | 奇米综合四色77777久久 东京无码熟妇人妻av在线网址 | 欧美xxxxx精品 | 男女下面进入的视频免费午夜 | 亚洲毛片av日韩av无码 | 内射巨臀欧美在线视频 | 午夜成人1000部免费视频 | 一本久久a久久精品vr综合 | 欧美精品在线观看 | 欧美午夜特黄aaaaaa片 | 精品亚洲成av人在线观看 | 麻花豆传媒剧国产免费mv在线 | 久久99精品国产麻豆蜜芽 | 自拍偷自拍亚洲精品被多人伦好爽 | 亚洲午夜无码久久 | 欧美日韩久久久精品a片 | 熟妇人妻中文av无码 | 国产av久久久久精东av | 日本欧美一区二区三区乱码 | 亚洲另类伦春色综合小说 | 激情爆乳一区二区三区 | 牲交欧美兽交欧美 | 欧洲熟妇精品视频 | 自拍偷自拍亚洲精品被多人伦好爽 | √8天堂资源地址中文在线 | av香港经典三级级 在线 | 人妻少妇精品视频专区 | 亚洲一区二区三区在线观看网站 | 国产亚洲精品久久久久久国模美 | 无码人妻黑人中文字幕 | 奇米影视7777久久精品人人爽 | 四虎永久在线精品免费网址 | 欧美 丝袜 自拍 制服 另类 | 黑人巨大精品欧美黑寡妇 | 国产香蕉97碰碰久久人人 | 亚洲精品国产精品乱码不卡 | 精品欧洲av无码一区二区三区 | 天堂亚洲2017在线观看 | 久久午夜夜伦鲁鲁片无码免费 | 丰满人妻精品国产99aⅴ | 在线a亚洲视频播放在线观看 | 好爽又高潮了毛片免费下载 | 亚洲精品中文字幕久久久久 | 国产三级精品三级男人的天堂 | 国产成人无码一二三区视频 | 国产综合在线观看 | 欧洲极品少妇 | 日本乱偷人妻中文字幕 | 国产精品丝袜黑色高跟鞋 | 久久精品国产精品国产精品污 | 久久久无码中文字幕久... | 啦啦啦www在线观看免费视频 | 六月丁香婷婷色狠狠久久 | 精品偷自拍另类在线观看 | 久久久久亚洲精品男人的天堂 | 国产熟妇高潮叫床视频播放 | 久久久久久久人妻无码中文字幕爆 | 精品人妻中文字幕有码在线 | 少妇厨房愉情理9仑片视频 | 国产激情无码一区二区 | 亚洲经典千人经典日产 | 日日天干夜夜狠狠爱 | 中文字幕中文有码在线 | √8天堂资源地址中文在线 | 久久精品国产精品国产精品污 | 国产无遮挡又黄又爽免费视频 | 清纯唯美经典一区二区 | √天堂中文官网8在线 | 欧美乱妇无乱码大黄a片 | 亚洲成av人综合在线观看 | 大乳丰满人妻中文字幕日本 | 呦交小u女精品视频 | 鲁鲁鲁爽爽爽在线视频观看 | 日日碰狠狠丁香久燥 | 亚洲国产精品久久人人爱 | 人妻少妇精品无码专区动漫 | 日本大乳高潮视频在线观看 | 在线视频网站www色 | 日本成熟视频免费视频 | 亚洲精品一区二区三区大桥未久 | 亚洲精品午夜国产va久久成人 | 天下第一社区视频www日本 | 亚洲一区二区三区偷拍女厕 | 亚洲欧美精品aaaaaa片 | 久久人人爽人人爽人人片ⅴ | 东京无码熟妇人妻av在线网址 | 帮老师解开蕾丝奶罩吸乳网站 | 中文精品久久久久人妻不卡 | 久久久精品456亚洲影院 | 久久久久国色av免费观看性色 | 国精产品一品二品国精品69xx | 少妇性荡欲午夜性开放视频剧场 | 蜜桃av抽搐高潮一区二区 | 久久综合激激的五月天 | 乱人伦中文视频在线观看 | 中国大陆精品视频xxxx | 欧美日韩一区二区综合 | 国产办公室秘书无码精品99 | 1000部啪啪未满十八勿入下载 | 亚洲精品国产品国语在线观看 | 午夜无码区在线观看 | 精品国偷自产在线视频 | 毛片内射-百度 | 亚洲精品午夜国产va久久成人 | 日本一卡2卡3卡4卡无卡免费网站 国产一区二区三区影院 | 大屁股大乳丰满人妻 | 色综合久久88色综合天天 | 婷婷五月综合激情中文字幕 | 成在人线av无码免观看麻豆 | 天天做天天爱天天爽综合网 | 国产成人精品一区二区在线小狼 | 精品国精品国产自在久国产87 | 国产免费久久久久久无码 | 中文字幕+乱码+中文字幕一区 | 99精品国产综合久久久久五月天 | 国产麻豆精品一区二区三区v视界 | 老子影院午夜精品无码 | 亚洲综合久久一区二区 | 人妻互换免费中文字幕 | 国精产品一品二品国精品69xx | 精品国产一区二区三区四区 | 亚洲中文字幕乱码av波多ji | 两性色午夜免费视频 | 国产午夜精品一区二区三区嫩草 | 欧美一区二区三区 | 国产办公室秘书无码精品99 | 一本色道久久综合狠狠躁 | 久久99精品久久久久婷婷 | 日本熟妇大屁股人妻 | 亚洲日本va中文字幕 | 偷窥村妇洗澡毛毛多 | 欧美午夜特黄aaaaaa片 | 强伦人妻一区二区三区视频18 | 少妇无码av无码专区在线观看 | 中文字幕av伊人av无码av | 亚洲男人av香蕉爽爽爽爽 | 国产无遮挡又黄又爽免费视频 | 欧洲精品码一区二区三区免费看 | a在线亚洲男人的天堂 | 伊人久久大香线蕉av一区二区 | 亚洲日韩乱码中文无码蜜桃臀网站 | 无码人妻精品一区二区三区不卡 | 国产麻豆精品精东影业av网站 | 亚洲精品一区三区三区在线观看 | 内射老妇bbwx0c0ck | 一本加勒比波多野结衣 | 97久久超碰中文字幕 | 久久综合网欧美色妞网 | 中文字幕日韩精品一区二区三区 | 四虎国产精品免费久久 | 亚洲 日韩 欧美 成人 在线观看 | 国产午夜亚洲精品不卡 | 最新国产乱人伦偷精品免费网站 | 亚洲 日韩 欧美 成人 在线观看 | 中文毛片无遮挡高清免费 | 亚洲综合色区中文字幕 | 久久亚洲a片com人成 | 国产精品沙发午睡系列 | 人人妻人人澡人人爽欧美一区 | 国产亚洲精品久久久久久久久动漫 | 四虎国产精品一区二区 | 午夜福利试看120秒体验区 | 男女猛烈xx00免费视频试看 | 露脸叫床粗话东北少妇 | 精品无码一区二区三区的天堂 | 亚洲一区av无码专区在线观看 | 精品国产青草久久久久福利 | 性欧美熟妇videofreesex | 国产另类ts人妖一区二区 | 麻豆人妻少妇精品无码专区 | 久久久久免费精品国产 | 97久久国产亚洲精品超碰热 | 55夜色66夜色国产精品视频 | 国产人成高清在线视频99最全资源 | 少妇激情av一区二区 | 国产成人人人97超碰超爽8 | 欧美第一黄网免费网站 | 亚洲一区二区三区四区 | 精品亚洲韩国一区二区三区 | 国产成人一区二区三区在线观看 | 欧美日韩一区二区免费视频 | 无码午夜成人1000部免费视频 | 久久精品一区二区三区四区 | 亚洲成av人综合在线观看 | 正在播放老肥熟妇露脸 | 水蜜桃亚洲一二三四在线 | 欧洲极品少妇 | 福利一区二区三区视频在线观看 | 久久综合色之久久综合 | 国色天香社区在线视频 | 久久精品国产一区二区三区 | 激情内射日本一区二区三区 | 国产午夜福利亚洲第一 | 欧美 日韩 人妻 高清 中文 | 少妇久久久久久人妻无码 | 成人欧美一区二区三区黑人免费 | 大色综合色综合网站 | 久久人人爽人人爽人人片ⅴ | 成人性做爰aaa片免费看不忠 | 无码国产乱人伦偷精品视频 | 精品人妻人人做人人爽夜夜爽 | 伦伦影院午夜理论片 | 波多野结衣一区二区三区av免费 | 无码人妻丰满熟妇区五十路百度 | 免费观看的无遮挡av | 荫蒂被男人添的好舒服爽免费视频 | 亚洲国产精品一区二区美利坚 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 啦啦啦www在线观看免费视频 | 国产乱码精品一品二品 | 日本乱人伦片中文三区 | 55夜色66夜色国产精品视频 | 久久人人爽人人爽人人片ⅴ | 欧美黑人乱大交 | 欧美亚洲国产一区二区三区 | 国产精品高潮呻吟av久久 | 色综合久久网 | 丰满少妇高潮惨叫视频 | 大屁股大乳丰满人妻 | 亚洲爆乳无码专区 | 亚洲日本在线电影 | 亚洲国产精品一区二区第一页 | 亚洲熟悉妇女xxx妇女av | 亚洲精品中文字幕 | 国产精品久久久久7777 | 鲁一鲁av2019在线 | 99久久久国产精品无码免费 | 国产片av国语在线观看 | 精品aⅴ一区二区三区 | 久久 国产 尿 小便 嘘嘘 | 国产美女极度色诱视频www | 亚洲男女内射在线播放 | 欧美猛少妇色xxxxx | 久久五月精品中文字幕 | 中文久久乱码一区二区 | 久久久久成人精品免费播放动漫 | 亚洲国产精品无码一区二区三区 | 久久精品人人做人人综合 | 中文字幕+乱码+中文字幕一区 | 国产麻豆精品精东影业av网站 | 久久久婷婷五月亚洲97号色 | 波多野结衣一区二区三区av免费 | 老太婆性杂交欧美肥老太 | 东北女人啪啪对白 | 荫蒂被男人添的好舒服爽免费视频 | 国产欧美熟妇另类久久久 | 成人欧美一区二区三区黑人免费 | 欧美一区二区三区视频在线观看 | 日本一区二区更新不卡 | 国产午夜视频在线观看 | 丰腴饱满的极品熟妇 | 日韩人妻少妇一区二区三区 | 欧美 日韩 人妻 高清 中文 | 精品久久久久久亚洲精品 | 国产精品久久久久久久影院 | 亚洲成熟女人毛毛耸耸多 | 国产明星裸体无码xxxx视频 | 国产三级精品三级男人的天堂 | 亚洲成av人在线观看网址 | 精品无码国产自产拍在线观看蜜 | 日本大香伊一区二区三区 | 亚洲 日韩 欧美 成人 在线观看 | 亚洲精品无码人妻无码 | 色综合久久久久综合一本到桃花网 | 噜噜噜亚洲色成人网站 | 无遮挡国产高潮视频免费观看 | 免费国产成人高清在线观看网站 | 99久久亚洲精品无码毛片 | 久久久中文久久久无码 | 给我免费的视频在线观看 | 久久综合色之久久综合 | 波多野结衣av一区二区全免费观看 | 丁香花在线影院观看在线播放 | ass日本丰满熟妇pics | 熟女俱乐部五十路六十路av | 黑人巨大精品欧美一区二区 | 亚洲综合无码久久精品综合 | 奇米综合四色77777久久 东京无码熟妇人妻av在线网址 | 狠狠色欧美亚洲狠狠色www | 一个人免费观看的www视频 | 鲁鲁鲁爽爽爽在线视频观看 | 精品国产麻豆免费人成网站 | 人人爽人人澡人人人妻 | 欧美丰满老熟妇xxxxx性 | 婷婷五月综合缴情在线视频 | 国产乱人伦app精品久久 国产在线无码精品电影网 国产国产精品人在线视 | 日欧一片内射va在线影院 | 国产激情一区二区三区 | 亚洲国产欧美国产综合一区 | 亚洲乱码中文字幕在线 | 麻豆人妻少妇精品无码专区 | 中文字幕无码乱人伦 | 免费人成在线视频无码 | 女人色极品影院 | 永久黄网站色视频免费直播 | 综合网日日天干夜夜久久 | 亚洲精品www久久久 | 国产精品va在线播放 | 日日鲁鲁鲁夜夜爽爽狠狠 | 国产真人无遮挡作爱免费视频 | 少妇无码av无码专区在线观看 | 久久精品无码一区二区三区 | 高清国产亚洲精品自在久久 | 在线观看国产一区二区三区 | 亚洲欧美国产精品专区久久 | 久久久无码中文字幕久... | 国产精品资源一区二区 | 国产人妻大战黑人第1集 | 51国偷自产一区二区三区 | 性欧美牲交在线视频 | 亚洲精品无码人妻无码 | 亚洲经典千人经典日产 | 夜精品a片一区二区三区无码白浆 | 精品国产麻豆免费人成网站 | 国产国语老龄妇女a片 | 久久99精品久久久久婷婷 | 精品国产乱码久久久久乱码 | 国产女主播喷水视频在线观看 | 蜜桃无码一区二区三区 | 欧美性猛交内射兽交老熟妇 | 在线a亚洲视频播放在线观看 | 内射老妇bbwx0c0ck | 久久精品人人做人人综合 | 亚洲无人区午夜福利码高清完整版 | 欧美精品国产综合久久 | 国产免费久久久久久无码 | 成年美女黄网站色大免费视频 | 麻豆蜜桃av蜜臀av色欲av | 亚洲欧美综合区丁香五月小说 | 中文无码伦av中文字幕 | 欧美人妻一区二区三区 | 97精品人妻一区二区三区香蕉 | 午夜福利不卡在线视频 | 婷婷色婷婷开心五月四房播播 | 欧美35页视频在线观看 | 亚洲精品一区二区三区在线 | 免费乱码人妻系列无码专区 | 特黄特色大片免费播放器图片 | 亚洲娇小与黑人巨大交 | 色欲综合久久中文字幕网 | 国产精品久久久久影院嫩草 | 日本一区二区三区免费高清 | 日本精品久久久久中文字幕 | 亚洲国产成人a精品不卡在线 | 久久午夜无码鲁丝片 | 丰满人妻精品国产99aⅴ | 亚洲欧美精品aaaaaa片 | 偷窥村妇洗澡毛毛多 | 性欧美videos高清精品 | 老熟女重囗味hdxx69 | 在线看片无码永久免费视频 | 国产精品久久久久影院嫩草 | 色婷婷久久一区二区三区麻豆 | 国产区女主播在线观看 | 国产做国产爱免费视频 | www国产亚洲精品久久网站 | 特大黑人娇小亚洲女 | a在线观看免费网站大全 | 任你躁国产自任一区二区三区 | 国产精华av午夜在线观看 | 又大又紧又粉嫩18p少妇 | 中文字幕乱妇无码av在线 | 国产两女互慰高潮视频在线观看 | 妺妺窝人体色www婷婷 | 久久人妻内射无码一区三区 | 亚洲日韩一区二区三区 | 无遮无挡爽爽免费视频 | 一本精品99久久精品77 | 纯爱无遮挡h肉动漫在线播放 | 国产熟妇高潮叫床视频播放 | 日本爽爽爽爽爽爽在线观看免 | √天堂资源地址中文在线 | 国产精品亚洲一区二区三区喷水 | 捆绑白丝粉色jk震动捧喷白浆 | 又紧又大又爽精品一区二区 | 图片区 小说区 区 亚洲五月 | 日本精品久久久久中文字幕 | 久久精品一区二区三区四区 | 国产精品a成v人在线播放 | 狠狠色欧美亚洲狠狠色www | 国产精品爱久久久久久久 | 国产凸凹视频一区二区 | 无码av岛国片在线播放 | 性做久久久久久久免费看 | 丰满少妇人妻久久久久久 | 亚洲人成影院在线无码按摩店 | 久热国产vs视频在线观看 | 兔费看少妇性l交大片免费 | 久久精品视频在线看15 | 嫩b人妻精品一区二区三区 | 亚洲欧洲日本无在线码 | 日本在线高清不卡免费播放 | 久久久久久国产精品无码下载 | 狠狠综合久久久久综合网 | 中文字幕无码免费久久99 | 夜夜高潮次次欢爽av女 | 亚洲精品久久久久avwww潮水 | 久久精品女人的天堂av | 亚洲国产精品久久人人爱 | 乌克兰少妇xxxx做受 | 国产亚洲欧美日韩亚洲中文色 | 熟妇人妻无码xxx视频 | 国产精品毛片一区二区 | 国产一区二区三区精品视频 | 日韩人妻系列无码专区 | 国产超级va在线观看视频 | 久久综合九色综合97网 | 亚洲国产一区二区三区在线观看 | 激情综合激情五月俺也去 | 成人精品天堂一区二区三区 | 国产亚洲精品久久久久久大师 | 日本精品高清一区二区 | 国产亚洲精品久久久久久 | 亚洲精品一区三区三区在线观看 | 国产精品久久国产精品99 | 又大又硬又黄的免费视频 | 亚洲精品午夜国产va久久成人 | 国产无套粉嫩白浆在线 | 精品 日韩 国产 欧美 视频 | 日韩欧美成人免费观看 | 无码人妻少妇伦在线电影 | 又黄又爽又色的视频 | 未满小14洗澡无码视频网站 | 天堂亚洲2017在线观看 | 欧洲vodafone精品性 | a片在线免费观看 | 永久免费观看国产裸体美女 | 我要看www免费看插插视频 | 亚洲色成人中文字幕网站 | 牛和人交xxxx欧美 | 无码人妻黑人中文字幕 | 国产精品a成v人在线播放 | 日韩av无码中文无码电影 | 女高中生第一次破苞av | 日韩视频 中文字幕 视频一区 | 久久久精品欧美一区二区免费 | 人妻有码中文字幕在线 | 欧美午夜特黄aaaaaa片 | 亚洲欧美精品aaaaaa片 | 偷窥日本少妇撒尿chinese | 成人性做爰aaa片免费看不忠 | 少妇被粗大的猛进出69影院 | 永久免费精品精品永久-夜色 | 国产人妻大战黑人第1集 | 久久久久亚洲精品中文字幕 | 午夜福利不卡在线视频 | 人人妻人人澡人人爽人人精品 | 18无码粉嫩小泬无套在线观看 | 激情人妻另类人妻伦 | 国产欧美亚洲精品a | 成熟女人特级毛片www免费 | 国产精品va在线观看无码 | 欧洲vodafone精品性 | 欧美熟妇另类久久久久久不卡 | 两性色午夜免费视频 | 国产成人一区二区三区别 | 性色欲网站人妻丰满中文久久不卡 | 国产无遮挡又黄又爽免费视频 | 色婷婷综合中文久久一本 | 中文字幕乱码亚洲无线三区 | 高清无码午夜福利视频 | 狂野欧美性猛交免费视频 | 中文字幕无码av激情不卡 | 国产小呦泬泬99精品 | 精品国产av色一区二区深夜久久 | 人妻少妇精品无码专区动漫 | 丝袜美腿亚洲一区二区 | 爱做久久久久久 | 久久aⅴ免费观看 | 精品一区二区三区无码免费视频 | 亚洲精品美女久久久久久久 | 蜜臀aⅴ国产精品久久久国产老师 | 国产网红无码精品视频 | 国产97人人超碰caoprom | 久久熟妇人妻午夜寂寞影院 | 亚洲精品久久久久avwww潮水 | 国产高清不卡无码视频 | 中文字幕人妻无码一区二区三区 | 一本色道久久综合亚洲精品不卡 | 国产精品亚洲五月天高清 | 亚洲中文字幕av在天堂 | 一个人免费观看的www视频 | аⅴ资源天堂资源库在线 | 亚洲天堂2017无码中文 | 亚洲性无码av中文字幕 | 久久综合给合久久狠狠狠97色 | 伊人久久大香线焦av综合影院 | 久久久精品欧美一区二区免费 | 全球成人中文在线 | 又粗又大又硬毛片免费看 | 久久国内精品自在自线 | 久久精品99久久香蕉国产色戒 | 99久久精品日本一区二区免费 | 日本va欧美va欧美va精品 | 人人妻人人澡人人爽人人精品浪潮 | 精品国产一区二区三区av 性色 | 人人妻人人藻人人爽欧美一区 | 色综合久久88色综合天天 | 国産精品久久久久久久 | 亚洲精品午夜无码电影网 | 蜜臀aⅴ国产精品久久久国产老师 | av无码久久久久不卡免费网站 | 久久久久久久人妻无码中文字幕爆 | 国产亚洲精品久久久久久久久动漫 | 国精品人妻无码一区二区三区蜜柚 | 女人被爽到呻吟gif动态图视看 | 国产偷国产偷精品高清尤物 | 3d动漫精品啪啪一区二区中 | 一区二区传媒有限公司 | av小次郎收藏 | 狠狠cao日日穞夜夜穞av | 亚洲性无码av中文字幕 | 又大又黄又粗又爽的免费视频 | 7777奇米四色成人眼影 | 欧洲欧美人成视频在线 | 成 人 网 站国产免费观看 | 久久久久久av无码免费看大片 | 又紧又大又爽精品一区二区 | 少妇厨房愉情理9仑片视频 | 国产亚洲精品久久久ai换 | 国产精品二区一区二区aⅴ污介绍 | 婷婷丁香六月激情综合啪 | 青草青草久热国产精品 | 亚洲精品一区二区三区大桥未久 | 漂亮人妻洗澡被公强 日日躁 | 久久综合狠狠综合久久综合88 | 99久久精品国产一区二区蜜芽 | 亚洲呦女专区 | 精品人人妻人人澡人人爽人人 | 中文亚洲成a人片在线观看 | 国产人妻大战黑人第1集 | 丰满人妻被黑人猛烈进入 | 久久久久99精品国产片 | 伊人久久大香线蕉午夜 | 人人妻人人澡人人爽欧美一区九九 | 亚洲欧美日韩国产精品一区二区 | 国产熟妇高潮叫床视频播放 | 色综合久久久无码网中文 | 无码国产色欲xxxxx视频 | 鲁鲁鲁爽爽爽在线视频观看 | 久久久精品人妻久久影视 | 国色天香社区在线视频 | 久久精品女人天堂av免费观看 | 久久综合九色综合97网 | 久久精品国产大片免费观看 | 俄罗斯老熟妇色xxxx | 国产精品a成v人在线播放 | 国产亚洲视频中文字幕97精品 | 无码免费一区二区三区 | 日韩精品无码免费一区二区三区 | 亚洲の无码国产の无码影院 | 国产舌乚八伦偷品w中 | 九一九色国产 | 国产成人无码专区 | 久久久久99精品国产片 | 国产午夜亚洲精品不卡 | 人妻少妇精品无码专区动漫 | 最近免费中文字幕中文高清百度 | 国产午夜精品一区二区三区嫩草 | 国产精品爱久久久久久久 | 精品国产精品久久一区免费式 | 狠狠亚洲超碰狼人久久 | 久久亚洲中文字幕精品一区 | 成熟女人特级毛片www免费 | 麻豆av传媒蜜桃天美传媒 | 强开小婷嫩苞又嫩又紧视频 | 中文字幕乱码人妻二区三区 | 亚洲精品成a人在线观看 | 青青久在线视频免费观看 | 中国女人内谢69xxxxxa片 | 人人妻人人澡人人爽欧美一区 | 人妻少妇被猛烈进入中文字幕 | 偷窥村妇洗澡毛毛多 | 7777奇米四色成人眼影 | 中文字幕无码热在线视频 | 国产两女互慰高潮视频在线观看 | 一本久道高清无码视频 | 亚洲精品国偷拍自产在线观看蜜桃 | 狠狠综合久久久久综合网 | 日本乱偷人妻中文字幕 | 国产成人午夜福利在线播放 | 国产猛烈高潮尖叫视频免费 | 亚洲国产精品久久人人爱 | 欧美国产亚洲日韩在线二区 | 在线欧美精品一区二区三区 | 亚洲国产精品一区二区第一页 | 大肉大捧一进一出视频出来呀 | 又湿又紧又大又爽a视频国产 | 人人妻人人澡人人爽精品欧美 | 日本肉体xxxx裸交 | 国产深夜福利视频在线 | 国产香蕉尹人综合在线观看 | 中文久久乱码一区二区 | 久久久婷婷五月亚洲97号色 | 国产成人亚洲综合无码 | 少妇性l交大片欧洲热妇乱xxx | 欧美成人高清在线播放 | 日本成熟视频免费视频 | 国精产品一品二品国精品69xx | 国产av一区二区三区最新精品 | 红桃av一区二区三区在线无码av | 丰满人妻被黑人猛烈进入 | 欧美性猛交xxxx富婆 | 久久熟妇人妻午夜寂寞影院 | 青春草在线视频免费观看 | 亚洲国产精品毛片av不卡在线 | 亚洲色欲久久久综合网东京热 | 国产精品国产三级国产专播 | 国产香蕉尹人综合在线观看 | 思思久久99热只有频精品66 | 强开小婷嫩苞又嫩又紧视频 | 中文毛片无遮挡高清免费 | 中文字幕+乱码+中文字幕一区 | 久久午夜夜伦鲁鲁片无码免费 | 久久视频在线观看精品 | 精品无码一区二区三区的天堂 | 亚洲日韩乱码中文无码蜜桃臀网站 | 日韩精品乱码av一区二区 | 澳门永久av免费网站 | 国产精品无码一区二区桃花视频 | 国产精品美女久久久久av爽李琼 | 强奷人妻日本中文字幕 | 娇妻被黑人粗大高潮白浆 | 伊人久久大香线蕉午夜 | 美女黄网站人色视频免费国产 | 中文字幕无线码 | 性史性农村dvd毛片 | 久久精品国产一区二区三区 | 久久精品99久久香蕉国产色戒 | 精品无码国产自产拍在线观看蜜 | 久久99精品久久久久婷婷 | 玩弄中年熟妇正在播放 | 亚洲国产精品一区二区美利坚 | 波多野42部无码喷潮在线 | 国产精品18久久久久久麻辣 | 成人一在线视频日韩国产 | 99久久人妻精品免费二区 | 国产三级精品三级男人的天堂 | 任你躁国产自任一区二区三区 | 成年美女黄网站色大免费全看 | 日本护士毛茸茸高潮 | 亚洲欧美精品伊人久久 | 狠狠色丁香久久婷婷综合五月 | 亚洲成av人综合在线观看 | 色婷婷久久一区二区三区麻豆 | 精品国产一区二区三区四区在线看 | 午夜丰满少妇性开放视频 | 伊人久久大香线蕉av一区二区 | √8天堂资源地址中文在线 | 99国产精品白浆在线观看免费 | 强辱丰满人妻hd中文字幕 | 国产精品a成v人在线播放 | 日日噜噜噜噜夜夜爽亚洲精品 | 欧美亚洲国产一区二区三区 | 国产精品无套呻吟在线 | 青草青草久热国产精品 | 国产精品久久久久久久9999 | 未满小14洗澡无码视频网站 | ass日本丰满熟妇pics | 波多野结衣乳巨码无在线观看 | 久久综合狠狠综合久久综合88 | 伊人久久婷婷五月综合97色 | √天堂中文官网8在线 | 黑人大群体交免费视频 | 欧美兽交xxxx×视频 | 成人影院yy111111在线观看 | 久久综合激激的五月天 | 欧洲极品少妇 | 中文字幕av伊人av无码av | 999久久久国产精品消防器材 | 久久精品国产日本波多野结衣 | yw尤物av无码国产在线观看 | 久久午夜无码鲁丝片午夜精品 | 国产成人午夜福利在线播放 | 国内精品一区二区三区不卡 | 人人爽人人爽人人片av亚洲 | 久久精品99久久香蕉国产色戒 | 嫩b人妻精品一区二区三区 | 欧美日韩久久久精品a片 | 国产无套粉嫩白浆在线 | 精品夜夜澡人妻无码av蜜桃 | 狂野欧美激情性xxxx | 鲁大师影院在线观看 | 天堂亚洲免费视频 | 大地资源中文第3页 | 欧美国产日韩亚洲中文 | 色欲av亚洲一区无码少妇 | 亚洲国产精品毛片av不卡在线 | 亚洲国产成人a精品不卡在线 | 少妇被黑人到高潮喷出白浆 | 日韩精品乱码av一区二区 | 色欲人妻aaaaaaa无码 | 国产午夜亚洲精品不卡 | 亚洲欧洲无卡二区视頻 | 国产精品美女久久久网av | 日本欧美一区二区三区乱码 | 久久精品无码一区二区三区 | 性色av无码免费一区二区三区 | 亚洲无人区午夜福利码高清完整版 | 人妻天天爽夜夜爽一区二区 | 精品乱子伦一区二区三区 | 狠狠综合久久久久综合网 | 无码国产色欲xxxxx视频 | 99久久久无码国产精品免费 | 日本乱人伦片中文三区 | 成人亚洲精品久久久久软件 | 中文字幕无码免费久久99 | 亚洲爆乳精品无码一区二区三区 | 国产激情无码一区二区app | 特黄特色大片免费播放器图片 | 国产精品丝袜黑色高跟鞋 | 亚洲精品午夜国产va久久成人 | 人人澡人人透人人爽 | 国内老熟妇对白xxxxhd | 亚洲国产成人av在线观看 | 亚洲欧美国产精品专区久久 | 国产 精品 自在自线 | 亚洲国产一区二区三区在线观看 | 欧美一区二区三区视频在线观看 | 欧美freesex黑人又粗又大 | 国产激情无码一区二区 | 亚洲成在人网站无码天堂 | 少妇性俱乐部纵欲狂欢电影 | 一区二区三区高清视频一 | 成熟人妻av无码专区 | 亚洲国产精品久久人人爱 | aa片在线观看视频在线播放 | 一本无码人妻在中文字幕免费 | 欧美人与禽猛交狂配 | 精品久久久中文字幕人妻 | 少妇性荡欲午夜性开放视频剧场 | 亚洲国产精品无码久久久久高潮 | 男人扒开女人内裤强吻桶进去 | 日本欧美一区二区三区乱码 | 国产熟妇高潮叫床视频播放 | 久久国产精品精品国产色婷婷 | 国产香蕉97碰碰久久人人 | 55夜色66夜色国产精品视频 | 日本va欧美va欧美va精品 | 亚洲熟悉妇女xxx妇女av | a在线观看免费网站大全 | 暴力强奷在线播放无码 | 色综合久久88色综合天天 | 国产色精品久久人妻 | 捆绑白丝粉色jk震动捧喷白浆 | 十八禁视频网站在线观看 | 国产一精品一av一免费 | 人人妻人人澡人人爽欧美精品 | 亚洲の无码国产の无码步美 | 国产精品福利视频导航 | 国产精品多人p群无码 | 中文字幕色婷婷在线视频 | 日本护士xxxxhd少妇 | 中文字幕无码免费久久99 | 欧美国产日韩久久mv | 国产激情精品一区二区三区 | 国产精品久免费的黄网站 | 国产精品久久久久9999小说 | 久久亚洲a片com人成 | 国产精品无套呻吟在线 | 秋霞成人午夜鲁丝一区二区三区 | 国产精品-区区久久久狼 | 国产两女互慰高潮视频在线观看 | 国产乱人偷精品人妻a片 | 少妇的肉体aa片免费 | 玩弄少妇高潮ⅹxxxyw | 丝袜足控一区二区三区 | 国产小呦泬泬99精品 | 好男人社区资源 | 蜜桃av蜜臀av色欲av麻 999久久久国产精品消防器材 | 欧美日韩一区二区综合 | 亚洲成av人片在线观看无码不卡 | 国产精品高潮呻吟av久久4虎 | 亚洲精品久久久久中文第一幕 | 色老头在线一区二区三区 | 久久久久免费看成人影片 | 一本大道伊人av久久综合 | 国产综合在线观看 | 中文字幕人妻丝袜二区 | 国产成人无码a区在线观看视频app | 人人妻人人藻人人爽欧美一区 | 又紧又大又爽精品一区二区 | 国产成人综合在线女婷五月99播放 | 美女黄网站人色视频免费国产 | 国产免费无码一区二区视频 | 国产亚洲欧美在线专区 | 国产精品第一区揄拍无码 | 精品国产精品久久一区免费式 | 欧美日韩在线亚洲综合国产人 | 人人超人人超碰超国产 | 国产va免费精品观看 | 精品夜夜澡人妻无码av蜜桃 | 精品一二三区久久aaa片 | 精品国偷自产在线视频 | 久久久中文字幕日本无吗 | 亚洲精品中文字幕乱码 | 国内精品九九久久久精品 | aⅴ在线视频男人的天堂 | 国产精品对白交换视频 | 国产无遮挡又黄又爽又色 | 中文字幕乱妇无码av在线 | 特黄特色大片免费播放器图片 | 丰满少妇熟乱xxxxx视频 | 熟妇人妻无乱码中文字幕 | 精品偷拍一区二区三区在线看 | 欧美人与牲动交xxxx | www一区二区www免费 | 蜜桃av抽搐高潮一区二区 | 爱做久久久久久 | 日本一卡2卡3卡4卡无卡免费网站 国产一区二区三区影院 | 久久国产36精品色熟妇 | 婷婷综合久久中文字幕蜜桃三电影 | 日日噜噜噜噜夜夜爽亚洲精品 | 日本大香伊一区二区三区 | 国产无遮挡吃胸膜奶免费看 | 大胆欧美熟妇xx | 亚洲第一无码av无码专区 | 亚洲乱码国产乱码精品精 | 国产无遮挡吃胸膜奶免费看 | 久久久精品人妻久久影视 | 久久婷婷五月综合色国产香蕉 | 亚洲啪av永久无码精品放毛片 | 2019nv天堂香蕉在线观看 | 国产精品无码一区二区三区不卡 | 粉嫩少妇内射浓精videos | 伊在人天堂亚洲香蕉精品区 | 国产香蕉97碰碰久久人人 | 日本一卡2卡3卡四卡精品网站 | аⅴ资源天堂资源库在线 | 亚洲 激情 小说 另类 欧美 | 精品日本一区二区三区在线观看 | 成人片黄网站色大片免费观看 | 国产一区二区三区影院 | 男人的天堂av网站 | 欧美freesex黑人又粗又大 | 国产精品a成v人在线播放 | 久久熟妇人妻午夜寂寞影院 | 日韩无套无码精品 | 国产综合久久久久鬼色 | 在线视频网站www色 | 亚洲精品国偷拍自产在线观看蜜桃 | 精品久久久中文字幕人妻 | 国产精品无码永久免费888 | 中文字幕无码免费久久99 | 日韩人妻无码中文字幕视频 | 永久免费精品精品永久-夜色 | 中文字幕无码免费久久99 | 亚洲一区二区三区香蕉 | 亚洲国产成人a精品不卡在线 | 国产免费观看黄av片 | 久久久中文久久久无码 | 无套内谢老熟女 | 小鲜肉自慰网站xnxx | 日本免费一区二区三区最新 | 久久国产精品_国产精品 | 国产激情一区二区三区 | 中文久久乱码一区二区 | 中文字幕乱码亚洲无线三区 | 一本无码人妻在中文字幕免费 | 兔费看少妇性l交大片免费 | 国产在线精品一区二区三区直播 | 亚洲精品www久久久 | 午夜性刺激在线视频免费 | 久久精品国产日本波多野结衣 | 亚洲成av人片天堂网无码】 | 国内揄拍国内精品少妇国语 | 国产肉丝袜在线观看 | 欧美熟妇另类久久久久久不卡 | 麻豆精品国产精华精华液好用吗 | 2020最新国产自产精品 | 久热国产vs视频在线观看 | 国产卡一卡二卡三 | 久久精品国产一区二区三区肥胖 | 国产午夜亚洲精品不卡 | 97精品国产97久久久久久免费 | 无人区乱码一区二区三区 | 天天av天天av天天透 | 激情爆乳一区二区三区 | 天堂а√在线地址中文在线 | 亚洲人成影院在线无码按摩店 | 久久人妻内射无码一区三区 | 真人与拘做受免费视频 | 久久国产精品萌白酱免费 | 色综合久久网 | 1000部啪啪未满十八勿入下载 | 精品偷拍一区二区三区在线看 | 久热国产vs视频在线观看 | 国产美女极度色诱视频www | 2019nv天堂香蕉在线观看 | 中文字幕久久久久人妻 | 国产成人无码av片在线观看不卡 | 亚洲码国产精品高潮在线 | 波多野结衣 黑人 | 午夜不卡av免费 一本久久a久久精品vr综合 | 青青草原综合久久大伊人精品 | 亚洲综合精品香蕉久久网 | 久久99精品国产麻豆蜜芽 | 18禁黄网站男男禁片免费观看 | 无套内谢的新婚少妇国语播放 | 亚洲精品一区三区三区在线观看 | 草草网站影院白丝内射 | 欧美性猛交内射兽交老熟妇 | 性色av无码免费一区二区三区 | 欧美激情内射喷水高潮 | 最近免费中文字幕中文高清百度 | 人妻熟女一区 | 国产精品无码一区二区桃花视频 | 午夜精品一区二区三区在线观看 | 激情五月综合色婷婷一区二区 | 夜夜躁日日躁狠狠久久av | 97色伦图片97综合影院 | 麻豆蜜桃av蜜臀av色欲av | 日韩视频 中文字幕 视频一区 | 欧洲极品少妇 | 亚洲精品一区二区三区在线观看 | 十八禁视频网站在线观看 | 国产成人精品必看 | 女人被男人爽到呻吟的视频 | 日韩人妻少妇一区二区三区 | 双乳奶水饱满少妇呻吟 | 亚洲另类伦春色综合小说 | 亚洲第一无码av无码专区 | 中文亚洲成a人片在线观看 | 在线 国产 欧美 亚洲 天堂 | 88国产精品欧美一区二区三区 | av人摸人人人澡人人超碰下载 | 乱人伦人妻中文字幕无码 | 久久99热只有频精品8 | 美女张开腿让人桶 | 亚洲啪av永久无码精品放毛片 | 最新国产麻豆aⅴ精品无码 | 清纯唯美经典一区二区 | 精品久久久中文字幕人妻 | 最新国产麻豆aⅴ精品无码 | 狠狠躁日日躁夜夜躁2020 | 超碰97人人做人人爱少妇 | 99国产欧美久久久精品 | 人妻中文无码久热丝袜 | 国产精品无码永久免费888 | 亚洲 欧美 激情 小说 另类 | 99久久精品国产一区二区蜜芽 | 欧美人与物videos另类 | 丝袜人妻一区二区三区 | 乱人伦中文视频在线观看 | 国产无套内射久久久国产 | 欧美高清在线精品一区 | 国产精品久久国产精品99 | 真人与拘做受免费视频一 | 精品一二三区久久aaa片 | 国内老熟妇对白xxxxhd | 亚洲精品久久久久久久久久久 | 天下第一社区视频www日本 | 日本高清一区免费中文视频 | 精品国产精品久久一区免费式 | 亚洲 另类 在线 欧美 制服 | 青青青手机频在线观看 | 国精产品一品二品国精品69xx | 国产乱人伦偷精品视频 | 综合人妻久久一区二区精品 | 大乳丰满人妻中文字幕日本 | 国产成人无码a区在线观看视频app | 伊人久久婷婷五月综合97色 | 亚洲午夜福利在线观看 | 国内精品久久毛片一区二区 | 学生妹亚洲一区二区 | 免费无码一区二区三区蜜桃大 | 国产成人av免费观看 | 欧美怡红院免费全部视频 | 在线天堂新版最新版在线8 | 国产精华av午夜在线观看 | 国产综合久久久久鬼色 | 久久久久se色偷偷亚洲精品av | 中文字幕无码日韩专区 | 免费无码av一区二区 | 国产性猛交╳xxx乱大交 国产精品久久久久久无码 欧洲欧美人成视频在线 | 国产又粗又硬又大爽黄老大爷视 | a片在线免费观看 | 国产人成高清在线视频99最全资源 | av无码久久久久不卡免费网站 | 国产精品a成v人在线播放 | 欧美变态另类xxxx | 丁香花在线影院观看在线播放 | 精品亚洲成av人在线观看 | 免费人成在线视频无码 | 999久久久国产精品消防器材 | 2019nv天堂香蕉在线观看 | 成人女人看片免费视频放人 | 亚洲 激情 小说 另类 欧美 | 鲁一鲁av2019在线 | 沈阳熟女露脸对白视频 | 亚洲娇小与黑人巨大交 | 国产99久久精品一区二区 | 亚洲乱码中文字幕在线 | 麻豆精品国产精华精华液好用吗 | 亚洲啪av永久无码精品放毛片 | 午夜精品久久久内射近拍高清 | 国产av人人夜夜澡人人爽麻豆 | 精品成人av一区二区三区 | 免费男性肉肉影院 | 欧美性生交活xxxxxdddd | 亚洲综合色区中文字幕 | 国产一精品一av一免费 | 国产成人精品一区二区在线小狼 | 内射巨臀欧美在线视频 | 国产网红无码精品视频 | 妺妺窝人体色www在线小说 | 久久午夜无码鲁丝片 | 精品久久综合1区2区3区激情 | 成 人影片 免费观看 | 日韩欧美中文字幕公布 | 日产国产精品亚洲系列 | 欧美性黑人极品hd | 成人精品视频一区二区三区尤物 | 六十路熟妇乱子伦 | 黑人巨大精品欧美一区二区 | 色五月丁香五月综合五月 | 久久精品国产精品国产精品污 | 日韩亚洲欧美中文高清在线 | 亚洲精品国产精品乱码视色 | 少妇邻居内射在线 | 国产口爆吞精在线视频 | 3d动漫精品啪啪一区二区中 | 婷婷综合久久中文字幕蜜桃三电影 | 精品久久8x国产免费观看 | 欧美日韩一区二区三区自拍 | 精品亚洲韩国一区二区三区 | 狠狠色欧美亚洲狠狠色www | 久久五月精品中文字幕 | 国产亚洲精品久久久ai换 | 大屁股大乳丰满人妻 | 日本一区二区更新不卡 | 国产片av国语在线观看 | 精品国产青草久久久久福利 | 久久久久国色av免费观看性色 | 中文字幕人成乱码熟女app | 乱人伦中文视频在线观看 | 97夜夜澡人人双人人人喊 | 欧美成人午夜精品久久久 | 西西人体www44rt大胆高清 | 日本免费一区二区三区最新 | 欧美午夜特黄aaaaaa片 | 97精品国产97久久久久久免费 | 一个人看的www免费视频在线观看 | 天天拍夜夜添久久精品大 | 国产成人无码区免费内射一片色欲 | 曰本女人与公拘交酡免费视频 | 国产午夜视频在线观看 | 国产免费久久精品国产传媒 | 草草网站影院白丝内射 | 国产精品久久久久9999小说 | 在线亚洲高清揄拍自拍一品区 | 精品无码一区二区三区的天堂 | 国产激情精品一区二区三区 | 日韩精品乱码av一区二区 |