内存映射MMAP和DMA【转】
轉(zhuǎn)自:http://blog.csdn.net/zhoudengqing/article/details/41654293
版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。
這一章介紹Linux內(nèi)存管理和內(nèi)存映射的奧秘。同時講述設(shè)備驅(qū)動程序是如何使用“直接內(nèi)存訪問”(DMA)的。盡管你可能反對,認為DMA更屬于硬件處理而不是軟件接口,但我覺得與硬件控制比起來,它與內(nèi)存管理更相關(guān)。
這一章比較高級;大多數(shù)驅(qū)動程序的作者并不需要太深入到系統(tǒng)內(nèi)部。不過理解內(nèi)存如何工作可以幫助你在設(shè)計驅(qū)動程序時有效地利用系統(tǒng)的能力。
Linux中的內(nèi)存管理
這一節(jié)不是描述操作系統(tǒng)中內(nèi)存管理的理論,而是關(guān)注于這個理論在Linux實現(xiàn)中的主要特征。本節(jié)主要提供一些信息,跳過它不會影響您理解后面一些更面向?qū)崿F(xiàn)的主題。
頁表
當一個程序查一個虛地址時,處理器將地址分成一些位域(bit field)。每個位域被用來索引一個稱做頁表的數(shù)組,以獲得要么下一個表的地址,要么是存有這個虛地址的物理頁的地址。
為了進行虛地址到物理地址的映射,Linux核心管理三級頁表。開始這也許會顯得有些奇怪。正如大多數(shù)PC程序員所知道的,x86硬件只實現(xiàn)了兩級頁表。事實上,大多數(shù)Linux支持的32位處理器實現(xiàn)兩級,但不管怎樣核心實現(xiàn)了三級。
在處理器無關(guān)的實現(xiàn)中使用三級,使得Linux可以同時支持兩級和三級(如Alpha)的處理器,而不必用大量的#ifdef語句把代碼攪得一團糟。這種“保守編碼”方式并不會給核心在兩級處理器上運行時帶來額外的開銷,因為實際上,編譯器已經(jīng)把沒用的一級優(yōu)化掉了。
但是讓我們看一會兒實現(xiàn)換頁的數(shù)據(jù)結(jié)構(gòu)。為了跟上討論,你應(yīng)該記住大多數(shù)用作內(nèi)存管理的數(shù)據(jù)都采用unsigned long的內(nèi)部表示,因為它們所表示的地址不會再被復引用。
下述幾條總結(jié)了Linux的三級實現(xiàn),由圖13-1示意:
l?????一個“頁目錄(Page Directory,PGD)”是頂級頁表。PGD是由pgd_t項所組成的數(shù)組,每一項指向一個二級頁表。每個進程都有它自己的頁目錄,你可以認為頁目錄是個頁對齊的pgd_t數(shù)組。
l?????二級表被稱做“中級頁目錄(Page Mid_level Directory)”或PMD。?PMD是一個頁對齊的pmd_t數(shù)組。每個pmd_t是個指向三級頁表的指針。兩級的處理器,如x86和sparc_4c,沒有物理PMD;它們將PMD聲明為只有一個元素的數(shù)組,這個元素的值就是PMD本身——馬上我們將會看到C語言是如何處理這種情況以及編譯器是如何把這一級優(yōu)化掉的。
l?????再下一級被簡單地稱為“頁表(Page Table)”。同樣地,它也是一個頁對齊的數(shù)組,每一項被稱為“頁表項(Page Table Entry)”。核心使用pte_t類型表示每一項。pte_t包含數(shù)據(jù)頁的物理地址。
上面提到的類型都在<asm/page.h>中定義,每個與換頁相關(guān)的源文件都必須包含它。
核心在一般程序執(zhí)行時并不需要為頁表查尋操心,因為這是有硬件完成的。不過,核心必須將事情組織好,硬件才能正常工作。它必須構(gòu)造頁表,并在處理器報告一個頁面錯時(即當處理器需要的虛地址不在內(nèi)存中時)查找頁表,。
下面的符號被用來訪問頁表。<asm/page.h>和<asm/pgtable.h>必須被包含以使它們可以被訪問。
(Figure 13.1 Linux的三級頁表)
PTRS_PER_PGD
PTRS_PER_PMD
PTRS_PER_PTE
每個頁表的大小。兩級處理器置PTRS_PER_PMD為1,以避免處理中級。
unsigned long pgd_bal(pgd_t pgd)
unsigned long pmd_val(pmd_t pmd)
unsigned long pte_val(pte_t pte)
這三個宏被用來從有類型數(shù)據(jù)項中獲取無符號長整數(shù)值。這些宏通過在源碼中使用嚴格的數(shù)據(jù)類型有助于減小計算開銷。
pgd_t *pgd_offset(struct mm_struct *mm,unsigned long address)
pmd_t *pmd_offset(pgd_t *dir,unsigned long address)
pte_t *pte_offset(pmd_t *dir,unsigned long address)
這些線入函數(shù)是用于獲取與address相關(guān)聯(lián)的pgd,pmd和pte項。頁表查詢從一個指向結(jié)構(gòu)mm_struct的指針開始。與當前進程內(nèi)存映射相關(guān)聯(lián)的指針是current->mm。指向核心空間的指針由init_mm描述,它沒有被引出到模塊,因為它們不需要它。兩級處理器定義pmd_offset(dir,add)為(pmd_t*?)dir,這樣就把pmd折合在pgd上。掃描頁表的函數(shù)總是被聲明為inline,而且編譯器優(yōu)化掉所有pmd查找。
unsigned long pte_page(pte_t pte)
這個函數(shù)從頁表項中抽取物理頁的地址。使用pte_val(pte)并不可行,因為微處理器使用pte的低位存貯頁的額外信息。這些位不是實際地址的一部分,而且需要使用pte_page從頁表中、抽取實際地址。
pte_present(pte_t pte)
這個宏返回布爾值表明數(shù)據(jù)頁當前是否在內(nèi)存中。這是訪問pte低位的幾個函數(shù)中最常用的一個——這些低位被pte_page丟棄。有趣的是注意到不論物理頁是否在內(nèi)存中,頁表始終在(在當前的Linux實現(xiàn)中)。這簡化了核心代碼,因為pgd_offset及其它類似函數(shù)從不失敗;另一方面,即使一個有零“駐留存貯大小”的進程也在實際RAM中保留它的頁表。
僅僅看看這些列出的函數(shù)不足以使你對Linux的內(nèi)存管理算法熟悉起來;實際的內(nèi)存管理要復雜的多,而且還要處理其它一些繁雜的事,如高速緩存一致性。不過,上面列出的函數(shù)足以給你一個關(guān)于頁面管理實現(xiàn)的初步印象;你可以從核心源碼的include/asm和mm子樹中得到更好的信息。
虛擬內(nèi)存區(qū)域
盡管換頁位于內(nèi)存管理的最低層,你在能有效地使用計算機資源之前還需要一些別的知識。核心需要一種更高級的機制處理進程看到它的內(nèi)存方式。這種機制在Linux中以“虛擬內(nèi)存區(qū)域的方式實現(xiàn),我稱之為“區(qū)域”或“VMA”。
一個區(qū)域是在一個進程的虛存中的一個同質(zhì)區(qū)間,一個具有同樣許可標志的地址的連續(xù)范圍。它與“段”的概念松散對應(yīng),盡管最好還是將其描述為“具有自己屬性的內(nèi)存對象”。一個進程的內(nèi)存映象由下面組成:一個程序代碼(正文)區(qū)域;一個數(shù)據(jù)、BSS(未初始化的數(shù)據(jù))和棧區(qū)域;以及每個活動的內(nèi)存映射的區(qū)域。一個進程的內(nèi)存區(qū)域可以通過查看/proc/pid/maps看到。/proc/self是/proc/pid的特殊情況,它總是指向當前進程,做為一個例子,下面是三個不同的內(nèi)存映象,我在#字號后面加了一些短的注釋:
(代碼271)
每一行的域為:
start_end perm offset major:minor inode
perm代表一個位掩碼包括讀、寫和執(zhí)行許可;它表示對屬于這個區(qū)域的頁,允許進程做什么。這個域的最后一個字符要么是p表示私有的,要么是s表示共享的。
/proc/*/maps的每個域?qū)?yīng)著結(jié)構(gòu)vm_area_struct的一個域,我們將在下面描述這個結(jié)構(gòu)。
實現(xiàn)mmap的方法的驅(qū)動程序需要填充在映射設(shè)備的進程地址空間中的一個VMA結(jié)構(gòu)。因此,驅(qū)動程序的作者對VMA應(yīng)該有個最起碼的理解以便使用它們。
讓我們看一下結(jié)構(gòu)vm_area_struct(在<linux/mm.h>)中最重要的幾個域。這些域可能在設(shè)備驅(qū)動程序的mmap實現(xiàn)中被用到。注意核心維護VMA的列表和樹以優(yōu)化區(qū)域查找,vm_area_struct的幾個域被用來維護這個組織。VMA不能按照驅(qū)動程序的意愿被產(chǎn)生,不然結(jié)構(gòu)將會崩潰。VMA的幾個主要域如下:
unsigned long vm_start
unsigned long vm_end
一個VMA描述的虛地址介于vma->vm_start和vma->vm_end之間。這兩個域是/pro/*/maps中顯示的最先兩個域。
struct inode *vm_inode
如果這個區(qū)域與一個inode相關(guān)聯(lián)(如一個磁盤文件或一個設(shè)備節(jié)點),這個域是指向這個inode的指針。不然,它為NULL。
unsigned long vm_offset
inode中這個區(qū)域的偏移量。當一個文件或設(shè)備被映射時,這是映射到這個區(qū)域的第一個字節(jié)的文件的位置(filp->f_ops)。
struct vm_operations_struct *vm_ops
vma->vm_ops說明這個內(nèi)存區(qū)域是一個核心“對象”,就象我們在本書中一直在用的結(jié)構(gòu)file。這個區(qū)域聲明在其內(nèi)容上操作的“方法”,這個域就是用來列出這些方法。
和結(jié)構(gòu)vm_area_struct一樣,vm_operations_struct在<linux/mm.h>中定義;它包括了列在下面的操作。這些操作是處理進程內(nèi)存需要的所有操作,它們以被聲明的順序列出。列出的原型是2.0的,與1.2.13的區(qū)別在每一項中都有描述。在本章的后面,這些函數(shù)中的部分會被實現(xiàn),那時會更完全地加以描述。
void(*open)(struct vm_area_struct??*vma);
在核心生成一個VMA后,它就把它打開。當一個區(qū)域被復制時,孩子從父親那里繼承它的操作,就區(qū)域用vm->open打開。例如,當fork將存在進程的區(qū)域復制到新的進程時,vm_ops->open被調(diào)用以打開所有的映象。另一方面,只要mmap執(zhí)行,區(qū)域在file->f_ops->mmap被調(diào)用前被產(chǎn)生,此時不調(diào)用vm_ops->open。
void(*close)(struct vm_area_struct *vma);
當一個區(qū)域被銷毀時,核心調(diào)用它的close操作。注意VMA沒有相關(guān)的使用計數(shù);區(qū)域只被打開和關(guān)閉一次。
void(*unmap)(struct vm_area_struct *vma,unsigned long addr,size_t len);
核心調(diào)用這個方法取消一個區(qū)域的部分或全部映射。如果整個區(qū)域的映射被取消,核心在vm_ops->unmap返回后立即調(diào)用vm_ops->close。
void (*protect)(struct vm_area_struct *vma,unsigned long,size_t,unsigned int new prot);
當前未被使用。許可(保護)位的處理并不依賴于區(qū)域本身。
int(*sync)(struct vm_area_struct *vma,unsigned long,size_t,unsigned int flags);
這個方法被msync系統(tǒng)調(diào)用以將一個臟的內(nèi)存區(qū)段保存到存貯介質(zhì)上。如果成功則返回值為0?,如果有錯,則返回一個負數(shù)。核心版本1.2讓這個方法返回void,因為這個函數(shù)不被認為會失敗。
void(*advise)(struct vm_area_struct *vma,unsigned long,size_t,unsigned int advise);
當前未被使用。
unsigned long(*nopage)(struct vm_area_struct *vma,unsigned long address,int write_access);
當一進程試圖訪問屬于另一個有效VMA的某頁,而該頁當前不在內(nèi)存時,nopage方法就會被調(diào)用,如果它為相關(guān)區(qū)域定義。這個方法返回該頁的(物理)地址。如果這個方法不為這個區(qū)域所定義,核心會分配一個空頁。通常,驅(qū)動程序并不實現(xiàn)nopage,因為被一個驅(qū)動程序映射的區(qū)段往往被完全映射到系統(tǒng)物理地址。核心版本1.2的nopage具有一個不同的原型和不同的含義。第三個參數(shù)write_access被當做“不共享”——一個非零值意味著該頁必須被當前進程所有,而零則表示共享是可能的。
unsigned long(*wppage)(struct vm_area_struct *vma,unsigned long address,unsigned long page);
這個方法處理“寫保護”頁面錯,但目前不被使用。核心處理所有不調(diào)用區(qū)域特定的回調(diào)函數(shù)卻往一個被保護的頁面上寫的企圖。寫保護被用來實現(xiàn)“寫時拷貝(copy_on_write)”。一個私有的頁可以被不同進程所共享,直到其中一個進程試圖寫它時。當這種情況發(fā)生時,頁面被克隆,進程向自己的頁拷貝上寫。如果整個區(qū)域被稱為只讀,會有一SIGSEGV信息被發(fā)送給進程,寫時拷貝就未能完成。
int (*swapout)(struct vm_area_struct *vma,unsigned long offset,pte_t *page_table);
這個方法被用來從交換空間取得一頁。參數(shù)offset是相對區(qū)域而言(與上面swapout一樣),而entry是頁面的當前pte——如果swapout在這一項中保存了一些信息,那么現(xiàn)在就可以用這些信息來取得該頁。
一般說來,驅(qū)動程序并不需要去實現(xiàn)swapout或swapin,因為驅(qū)動程序通常映射I/O內(nèi)存,而不是常規(guī)內(nèi)存。I/O頁是一些象訪問內(nèi)存一樣訪問的物理地址,但被映射到設(shè)備硬件而不是RAM上。I/O內(nèi)存區(qū)段或者被標記為“保留”,或者居于物理內(nèi)存之上,因此它們從不被換出—交換I/O內(nèi)存沒什么實際意義。
內(nèi)存映象
在Linux中還有與內(nèi)存管理相關(guān)的第三個數(shù)據(jù)結(jié)構(gòu)。VMA和頁表組織虛擬地址空間,而物理地址空間則由內(nèi)存映象概括。
核心需要物理內(nèi)存當前使用情況的一個描述。由于內(nèi)存可以被看作是頁面數(shù)組,因此這個信息也可以組織為一個數(shù)組。如果你需要其頁面的信息,你就用其物理地址去訪問內(nèi)存映象。下面就是核心代碼用來訪問內(nèi)存映象的一些符號:
typedef struct {/*…*/} mem_map_t
extern mem_map_t mem_map[];
映象本身是mem_map_t的一個數(shù)組。系統(tǒng)中的每個物理頁,包括核心代碼和核心數(shù)據(jù),都在mem_map中有一項。
PAGE_OFFSET
這個宏表示由物理地址映射到的核心地址空間中的虛地址。PAGE_OFFSET在任何用到“物理”地址的地方都必須要考慮。核心認為的物理地址實際上是一個虛擬地址,從實際物理地址偏移PAGE_OFFSET——這個實際物理地址是在CPU外的電氣地址線使用。在Linux2.0.x中,PAGE_OFFSET在PC上都是零,在大多數(shù)其它平臺上都不是零。2.1.0版修改了PC上的實現(xiàn),所以它現(xiàn)在也使用偏移映射。如果考慮到核心代碼,將物理空間映射到高的虛擬地址有一些好處,但這已經(jīng)超出了本書的范圍。
int??MAP_NR(addr)
當程序需要訪問一個內(nèi)存映象時,MAP_NR返回在與addr關(guān)聯(lián)的mem_map數(shù)組中的索引。參數(shù)addr可以是unsigned long,也可以是一個指針。因為這個宏被幾個關(guān)鍵的內(nèi)存管理函數(shù)使用多次,所以它不進行addr的有效性檢查;調(diào)用代碼在必要的時候必須自己進行檢查。
((nr<<PAGE_SHIFT)+PAGE_OFFSET)
沒有標準化的函數(shù)或者宏可以將一個映象號轉(zhuǎn)譯為一個物理地址。如果你需要MAP_NR的逆函數(shù),這個語句可以使用。
內(nèi)存映象是用來為每個內(nèi)存頁維護一些低級信息。在核心開發(fā)過程中,內(nèi)存映象結(jié)構(gòu)的準確定義變過幾次,你不必了解細節(jié),因為驅(qū)動程序不期望查看映象內(nèi)部。
不過,如果你對了解頁面管理的內(nèi)部感興趣的話,頭文件<linux/mm.h>含有一大段注釋解釋mem_map_t域的含義。
mmap設(shè)備操作
內(nèi)存映象是現(xiàn)代Unix系統(tǒng)中最有趣的特征之一。至于驅(qū)動程序,內(nèi)存映射可以提供用戶程序?qū)υO(shè)備內(nèi)存的直接訪問。
例如,一個簡單ISA抓圖器將圖象數(shù)據(jù)保存在它自己的內(nèi)存中,或者在640KB-1KB地址范圍,或者在“ISA洞”(指14MB-16MB之間的范圍參見第8章“硬件管理”中“訪問設(shè)備板子上的內(nèi)存”一節(jié))中。
將圖象數(shù)據(jù)復制到常規(guī)(并且更快)RAM中是不定期抓圖的合適的方法,但如果用戶程序需要經(jīng)常性地訪問當前圖象,使用mmap方法將更合適。
映射一個設(shè)備的意思是使用戶空間的一段地址空間關(guān)聯(lián)到設(shè)備內(nèi)存上。當程序讀寫指定的地址范圍時,它實際上是在訪問設(shè)備。
正如你所懷疑的,并不是每個設(shè)備都適合mmap概念;例如,對于串口或其它面向流的設(shè)備來說它的確沒有意義。mmap的另一個限制是映射是以PAGE_SIZE為單位的。核心只能在頁表一級處置虛地址,因此,被映射的區(qū)域必須是PAGE_SIZE的整數(shù)倍,而且居于頁對齊的物理內(nèi)存。核心通過使一個區(qū)段稍微大一點兒的辦法解決了頁面粒度問題。對齊的問題通過使用vma->vm_offset來處理,但這對于驅(qū)動程序并不可行——映射一個設(shè)備簡化為訪問物理頁,它必須是頁對齊的。
這些限制對驅(qū)動程序來說并不是很大的問題,因為不管怎樣,訪問設(shè)備的程序是設(shè)備相關(guān)的。它知道如何使得被映射的內(nèi)存區(qū)段有意義,因此頁對齊不是一個問題。當你ISA板子插到一個Alpha機器上時,有一個更大的限制,因為ISA內(nèi)存是以8位、16位或32位項的散布集合被訪問的,沒有從ISA地址到Alpha地址的直接映射。在這種情況下,你根本不能使用mmap。不能進行ISA地址到Alpha地址的直接映射歸因于兩種系統(tǒng)數(shù)據(jù)傳送規(guī)范的不兼容。Alpha只能進行32位和64位的內(nèi)存訪問,而ISA只能進行8位和16位的傳送,沒有辦法透明地從一個協(xié)議映射到另一個。結(jié)果是你根本不能對插在Alpha計算機的ISA板子使用mmap。
當可行的時候,使用mmap有一些好處。例如,一個類似于X服務(wù)器的程序從顯存中傳送大量的數(shù)據(jù);把圖形顯示映射到用戶空間與lseek/write實現(xiàn)相比,顯著地改善了吞吐率。另一個例子是程序控制PCI設(shè)備。大多數(shù)PCI外圍設(shè)備都將它們的控制寄存映射到內(nèi)存地址上,一個請求應(yīng)用更喜歡能直接訪問寄存器,而不是反復調(diào)用ioctl來完成任務(wù)。
mmap方法是file_oprations結(jié)構(gòu)的一部分,在mmap系統(tǒng)調(diào)用被發(fā)出時調(diào)用。在調(diào)用實際方法之前,核心用mmap完成了很多工作,因此,這個方法的原型與系統(tǒng)調(diào)用很不一樣。這與其它調(diào)用如ioctl和select不同,它們在被調(diào)用之前核心并不做太多的工作。
系統(tǒng)調(diào)用如下聲明(在mmap(2)手冊中有描述):
mmap(caddr_t,size_t len,int prot,int flags,int fd,off_t offset)
另一方面,文件操作如下聲明:
int?(*mmap)(struct inode*inode,struct file*filp,struct vm_area_struct *vma);
方法中inode和filp參數(shù)與第三章“字符設(shè)備驅(qū)動程序”中介紹的一樣。vma會有用以訪問設(shè)備的虛擬地址范圍的信息。這樣,驅(qū)動程序只需為這個地址范圍構(gòu)造合適的頁表:如果需要,用一組新的操作代替vma->vm_ops。
一個簡單的實現(xiàn)
設(shè)備驅(qū)動程序的大多數(shù)mmap實現(xiàn)對居于周邊設(shè)備上的某些I/O內(nèi)存進行線性的映射。/dev/mem和/dev/audio都是這類重映射的例子。下面的代碼來自drivers/char/mem.c,顯示了在一個被稱為simple(Simple Implementation Mapping Pages with Little Enthusiasm)的典型模塊中這個任務(wù)是如何完成的:
(代碼277)
很清楚,操作的核心由remap_page_range完成,它被引出到模塊化的驅(qū)動程序,因為它做了大多數(shù)映射需要做的工作。
維護使用計數(shù)
上面給出的實現(xiàn)的主要問題在于驅(qū)動程序沒有維護一個與被映射區(qū)域的連接。這對/dev/mem來說并不是個問題,它是核心的一個完整的部分,但對于模塊來說必須有一個辦法來保持它的使用計數(shù)是最新的。一個程序可以對文件描述符調(diào)用close,并仍然訪問內(nèi)存映射的區(qū)段。然而,如果關(guān)閉文件描述符導致模塊的使用計數(shù)降為零,那么模塊可能被卸載,即使它們?nèi)员煌ㄟ^mmap使用著。
試圖關(guān)于這個問題警告模塊的使用者是不充分的解決辦法,因為可能使用kerneld裝載和卸載你的模塊。這個守護進程在模塊的使用計數(shù)降為零時自動地去除它們,你當然不能警告kerneld去留神mmap。
這個問題的解決辦法是用跟蹤使用計數(shù)的操作取代缺省的vma->vm.ops。代碼相當簡單——用于模塊化的/dev/mem的一個完全的mmap實現(xiàn)如下所示:
(代碼278)
這個代碼依賴于一個事實,即核心在調(diào)用f_op->mmap之前將新產(chǎn)生區(qū)域中的vm_ops域初始化為NULL。為安全起見以防止在將來的核心發(fā)生什么改變,給出的代碼檢查了指針的當前值。
給出的實現(xiàn)利用了一個概念,即open(vma)和close(vma)都是缺省實現(xiàn)的一個補充。驅(qū)動程序的方法不須復制打開和關(guān)閉的內(nèi)存區(qū)域的標準代碼;驅(qū)動程序只是實現(xiàn)額外的管理。
有趣的是注意到,VMA的swapin和swapout方法以另外的方式工作——驅(qū)動程序定義的vm_ops->swap*不是添加而是用完全不同的東西取代了缺省實現(xiàn)。
支持mremap系統(tǒng)調(diào)用
mremap系統(tǒng)調(diào)用被應(yīng)用程序用來改變映射區(qū)段的邊界地址。如果驅(qū)動程序希望能支持mremap,以前的實現(xiàn)就不能正確地工作,因為驅(qū)動程序沒有辦法知道映射的區(qū)域已經(jīng)改變了。
Linux的mremap實現(xiàn)不提醒驅(qū)動程序關(guān)于映射區(qū)域的改變。實際上,它到是通過unmap方法在區(qū)域減小時提醒驅(qū)動程序,但在區(qū)域變大時沒有回調(diào)發(fā)出。
將減小告訴驅(qū)動程序隱含的基本思想法是驅(qū)動程序(或是將常規(guī)文件映射到內(nèi)存的文件系統(tǒng))需要知道區(qū)段什么時候被取消映射了,從而采取適應(yīng)的動作,如將頁面刷新到磁盤上。另一方面,映射區(qū)域的增大對驅(qū)動程序來說意義不大。除非調(diào)用mremap的程序訪問新的虛地址。在實際情況中,映射從未使用的區(qū)段是很常見的(如未使用過的某些程序代碼段)。因此,Linux核心在映射區(qū)段增大時并不告訴驅(qū)動程序,因為nopage方法將會照管這些頁。如果它們確實被訪問了。
換句話說,當映射區(qū)段增大時,驅(qū)動程序未被提醒是因為nopage后來會這樣做;從而不必在需要前使用內(nèi)存。這個優(yōu)化主要是針對常規(guī)文件的,它們使用真正的RAM進行映射。
因此,如果你想支持mremap系統(tǒng)調(diào)用,就必須實現(xiàn)nopage。不過,一旦有了nopage,你可選擇廣泛地使用它,從而避免從fops->mmap調(diào)用remap_page_range;這在下一個代碼段中給出。在這個mmap的實現(xiàn)中,設(shè)備方法只取代了vma->vm_fops。nopage方法負責一次重映射一個頁并返回其地址。
一個支持mremap(為節(jié)省空間,不支持使用計數(shù))的/dev/mem實現(xiàn)如下所示:
(代碼279)
(代碼280)
如果nopage方法被留為NULL,處理頁面錯的核心代碼就將零頁映射到出錯虛地址。零頁是一個寫時拷貝頁,被當作零來讀,可以用來映射BSS段。因此,如果一個進程通過調(diào)用mremap擴展一個映射區(qū)段,并且驅(qū)動程序沒有實現(xiàn)nopage,你最終會得到一些零頁,而不是段錯。
注意,給出的實現(xiàn)遠遠不是最優(yōu)的;如果內(nèi)存方法能繞過remap_page_range而直接返回物理地址會更好。不幸的是,這個技術(shù)的正確實現(xiàn)牽涉到一些細節(jié),只能在本章晚些時候搞清楚。而且上面給出的實現(xiàn)在核心1.2中并不能工作,因為nopage的原型在版本1.2和2.0之間做了修改。在本節(jié)中我不打算管1.2核心。
重映射特定的I/O區(qū)段
到目前為止,我們所看到的所有例子都是/dev/mem的再次實現(xiàn);它們將物理地址重映射到用戶空間——或者至少這是它們認為它們所做的。然而,典型的驅(qū)動程序只想映射應(yīng)用于它的外圍設(shè)備的小地址區(qū)間,并非所有內(nèi)存。
為了能為一個特定的驅(qū)動程序自定義/dev/mem的實現(xiàn),我們需要進一步來研究一下remap_page_range的內(nèi)部。這個函數(shù)的完整原型是:
int remap_page_range(unsigned long virt_add,unsigned long phy_add,unsigned long size, pgprot_t prot);
這個函數(shù)的返回值通常為零或為一個負的錯誤代碼。讓我們看看它的參數(shù)的確切含義。
unsigned long virt_add
重映射開始處的虛擬地址。這個函數(shù)為虛地址空間virt_add和virt_add+size之間的范圍構(gòu)造頁表。
unsigned long phys_add
虛擬地址應(yīng)該映射到的物理地址。這個地址在上面提到的意義下是“物理的”這個函數(shù)影響phys_add到phys_add+size之間的物理地址。
unsigned long size
被重映射的區(qū)域的大小,以字節(jié)為單位。
pgprot_t prot
為新頁所請求的“保護”。驅(qū)動程序不必修改保護,而且在vma->vma_page_prot中找到的參數(shù)可以不加改變地使用。如果你好奇,你可以在<Linux/mm.h>中找到更多的信息。
為了向用戶空間映射整個內(nèi)存區(qū)間的一個子集,驅(qū)動程序需要處理偏移量。下面幾行為映射了從物理地址simple_region_start開始的simple_region_size字節(jié)大小的區(qū)段的驅(qū)動程序完成了這項工作:
(代碼281)
除了計算偏移量,上面的代碼還為錯誤條件引入了兩個檢查。第一個檢查拒絕將一個在物理空間未對齊的位置映射到用戶空間。由于只有完整的頁能被重映射,因此映射的區(qū)段只能偏移頁面大小的整數(shù)倍。ENXIO是這種情況下通常返回的錯誤代碼,它被展開為“無此設(shè)備或地址”。
第二個檢查在程序試圖映射多于目標設(shè)備I/O區(qū)段可獲得內(nèi)存的空間時報告一個錯誤。代碼中psize是在偏移被確定后剩下的物理I/O大小,vsize是請求的虛存大小;這個函數(shù)拒絕映射超出允許內(nèi)存范圍的地址。
注意,如果進程調(diào)用mremap,它便可以擴展其映射。一個“非常炫耀”的驅(qū)動程序可能希望阻止這個發(fā)生;達到目的的唯一辦法是實現(xiàn)一個vma->nopage方法。下面是這個方法的最簡單的實現(xiàn):
unsigned long simple_pedantic_nopage(struct vm_area_struct *vma,unsigned long address, int write_access);
{return 0;}?????/*發(fā)送一個SIGBUS*/
如果nopage方法返回0而不是一個有效的物理地址,一個SIGBUS(總線錯)被發(fā)送到當前進程(即發(fā)生頁面錯的進程)。如果驅(qū)動程序沒有實現(xiàn)nopage,進程在請求的虛地址處得到一個零頁;這通常可以接受,因為mremap是個非常少用的系統(tǒng)調(diào)用,而且將零頁映射到用戶空間也沒有安全問題。
重映射RAM
在Linux中,物理地址的一頁被標記在內(nèi)存映象中是“保留的”,表明不被內(nèi)存管理系統(tǒng)使用。例如在PC上,640KB到1MB之間的部分被稱為“保留的”,它被用來存放核心代碼。
remap_page_range的一個有趣的限制是,它只能給予對保留的頁和物理內(nèi)存之上的物理地址的訪問。保留頁被鎖在內(nèi)存中,是僅有的能安全映射到用戶空間的頁;這個限制是系統(tǒng)穩(wěn)定性的基本要求*。
因此,remap_page_range不允許你重映射常規(guī)地址——包括你通過調(diào)用get_free_page所獲得的那些。不過,這個函數(shù)做了所有一個硬件驅(qū)動程序希望它做的,因為它可以重映射高PCI緩沖和ISA內(nèi)存——包括第1兆內(nèi)存和15MB處ISA洞,如果在第八章“1M以上的ISA內(nèi)存”中提到的改變發(fā)生了的話。另一方面,當對非保留的頁使用remap_page_range時,缺省的nopage處理程序映射被訪問的虛地址處的零頁。
這個行為可以通過運行mapper看到。mapper是在O’Reilly的FTP站點上提供的文件中misc_programs里的一個示例程序。它是個可以快速測試mmap系統(tǒng)調(diào)用的簡單工具。mapper根據(jù)命令行選項映射一個文件中的只讀部分,并把映射的區(qū)段輸出到標準輸出上。例如,下面這個交互過程表明/dev/mem不映射位于64KB地址處的物理頁(本例中的宿主機是個PC,但在別的平臺上結(jié)果應(yīng)該是一樣的):
(代碼283)
remap_page_range對處理RAM的無能為力說明象scullp這樣的設(shè)備不能簡單地實現(xiàn)mmap,因為它的設(shè)備內(nèi)存是常規(guī)RAM,而不是I/O內(nèi)存。
有兩個辦法可以繞過remap_page_range對RAM的不可用性。一個是“糟糕”的辦法,另一個是干凈的。
使用預定位
糟糕的辦法要為你想映射到用戶空間的頁在mem_map[MAP_NR(page)]中置PG_reserved位。這樣就預定了這些頁,而一旦預定了,remap_page_range就可以按期望工作了。設(shè)置標志的代碼很短很容易,但我不想在這兒給出來,因為另一個方法更有趣。不用說,不釋放頁面之前,預定的位必須被清除。
有兩個原因說明為什么這是個好辦法。第一,被標為預定的頁永遠不會被內(nèi)存管理所動。核心在數(shù)據(jù)結(jié)構(gòu)初始化之前系統(tǒng)引導時確定它們,因此不能用在任何其它用途上。而另一方面,通過get_free_page,vmalloc或其它一些方式分配的頁都是由內(nèi)存子系統(tǒng)處理的。即使2.0核心在你運行時預定額外的頁并不崩潰,這樣做可能在將來會產(chǎn)生問題。因而是不鼓勵的。不過你可以嘗試這種快且臟的技術(shù)看看它是任何工作的。
預定頁不是個好辦法的第二個原因是被預定的頁不被算做是整個系統(tǒng)內(nèi)存的一部分,有的用戶在系統(tǒng)RAM發(fā)生變化時可能會很在意——用戶經(jīng)常留意空閑內(nèi)存數(shù)量,而總的內(nèi)存量一般總和空閑內(nèi)存一道顯示。
實現(xiàn)nopage方法
將實際RAM映射到用戶空間的一個較好的辦法是用vm_ops->nopage來一次處理一個頁面錯。作為scullp模塊一部分的一個示例實現(xiàn)在第七章“把握內(nèi)存”中介紹過。
scullp是面向頁的字符設(shè)備。因為它是面向頁的,所以可以在它的內(nèi)存中實現(xiàn)mmap。實現(xiàn)內(nèi)存映射的代碼用了一些以前在“Linux的內(nèi)存管理”中介紹過的概念。
在查看代碼之前,讓我們看一下影響scullp中mmap實現(xiàn)的設(shè)計選擇。
l???????????設(shè)備為模塊更新使用計數(shù)
 在卸載模塊時為了避免發(fā)生問題,內(nèi)存區(qū)域的open和close方法被實現(xiàn)去跟蹤模塊的使用。
l???????????設(shè)備為頁更新使用計數(shù)
 這是為保證系統(tǒng)穩(wěn)定是一個嚴格要求;不能更新這個計數(shù)將導致系統(tǒng)崩潰。每個頁有其自己的使用計數(shù);當它降為零時,該頁被插入到空閑頁表。當一個活動映象被破壞掉時,核心會將相關(guān)RAM頁的使用計數(shù)減小。因此,驅(qū)動程序必須增加它所映射的每個頁的使用計數(shù)(注意,這個計數(shù)在nopage增加它時不能為零,因為該頁已經(jīng)被fops->write分配了)。
l???????????只要設(shè)備是被映射的,scullp就不能釋放設(shè)備內(nèi)存
 這與其說是個要求,不如說是項政策,這與scull及類似設(shè)備的行為不同,因為它們在被因?qū)懚蜷_時長度被截為0。拒絕釋放被映射的scullp設(shè)備允許一個設(shè)備一個進程重寫正被另一個進程映射的區(qū)段,這樣你就可以測試并看到進程與設(shè)備內(nèi)存之間是如何交互的。為避免釋放一個被映射的設(shè)備,驅(qū)動程序必須保存一個活動映射的計數(shù);設(shè)備結(jié)構(gòu)中的vma域被用于這個目的。
l???????????只有在scullp的序號order參數(shù)為0時才進行內(nèi)存影射
 這個參數(shù)控制get_free_pages是如何調(diào)用的(見第七章中“get_free_pages和朋友們”一節(jié))。這個選擇是由get_free_pages的內(nèi)部機制決定的——scullp利用的分配機制。為了最大化分配性能,Linux核心為每個分配的序號(order)維護一個空閑頁的列表,在一個簇中只有第一頁的頁計數(shù)由get-free_pages增加和free_pages減少。如果分配序號大于0,那么對一個scullp設(shè)備來說mmap方法是關(guān)閉的,因為nopage只處理單項,而不是一簇頁。
?
最后一個選擇主要是為了保證代碼的簡單。通過處理頁的使用計數(shù),也有可能為多頁分配正確地實現(xiàn)mmap,但那樣只能增加例子的復雜性,而不能帶來任何有趣的信息。
如果代碼想按照上面提到的規(guī)則來映射RAM,它需要實現(xiàn)open,close和nopage,還要訪問mem_map。
scullp_mmap的實現(xiàn)非常短,因為它依賴于nopage來完成所有有趣的工作:
(代碼285??#1)
開頭的條件語句是為了避免映射未對齊的偏移和分配序號不為0的設(shè)備。最后,vm_ops->open被調(diào)用以更新模塊的使用計數(shù)和設(shè)備的活動映射計數(shù)。
open和close就是為了跟蹤這些計數(shù),被定義如下:
(代碼285??#2)
由于模塊生成了4個scullp設(shè)備并且也沒有內(nèi)存區(qū)域可用的private_data指針,所以open和close取得與vma相關(guān)聯(lián)的scullp設(shè)備是通過從inode結(jié)構(gòu)中抽取次設(shè)備號。次設(shè)備號被用來從設(shè)備結(jié)構(gòu)的scullp_devices數(shù)組取偏移后得到指向正確結(jié)構(gòu)的指針。
大部分工作是由nopage完成的。當進程發(fā)生頁面錯時,這個函數(shù)必須取得被引用頁的物理地址并返回給調(diào)用者。如果需要,這個方法可以計算address參數(shù)的頁對齊。在scullp的實現(xiàn)中,address被用來計算設(shè)備里的偏移;偏移又被用來在scullp的內(nèi)存樹上查找正確的頁。
(代碼286??#1)
最后一行增加頁計數(shù);這個計數(shù)在atomic_t中生命,因此可以由一個原子操作更新。事實上,在這種特定的情況下,原子更新并不是嚴格要求的,因為該頁已經(jīng)在使用中,并且沒有與中斷處理程序或別的異步代碼的競爭條件。
現(xiàn)在scullp可以按預期的那樣工作了,正如你在工具mapper的示例輸出中所看到的:
(代碼286??#2)
(代碼287??#1)
?
重映射虛地址
盡管很少需要重映射虛地址,但看看驅(qū)動程序如何用mmap將虛地址映射到用戶空間是很有趣的。這里虛地址指的是由vmalloc返回的地址,也就是被映射到核心頁表的虛地址。本節(jié)的代碼取自scullv,這個模塊與scullp類似,只是它通過vmalloc分配存儲。
scullv的大部分實現(xiàn)與我們剛剛看到的scullp完全類似,除了不需要檢查分配序號。原因是vmalloc一次只分配一頁,因為單頁分配比多頁分配容易成功的多。因此,使用計數(shù)問題在通過vmalloc分配的空間中不適用。
scullv的主要工作是構(gòu)造一個頁表,從而可以象連續(xù)地址空間一樣訪問分配的頁。而另一方面,nopage必須向調(diào)用者返回一個物理地址。因此,scullv的nopage實現(xiàn)必須掃描頁表以取得與頁相關(guān)聯(lián)的物理地址。
這個函數(shù)與我們在scullp中看到的一樣,除了結(jié)尾。這個代碼的節(jié)選只包括了nopage中與scullp不同的部分。
(代碼287??2#)
???????atomic_inc(&mem_map[MAP_NR(page)]).count;
???????return page;
???}
頁表由本章開始時介紹的那些函數(shù)來查詢。用于這個目的的頁目錄存在核心空間的內(nèi)存結(jié)構(gòu)init_m中。
宏VMALLOC_VMADDR(pageptr)返回正確的unsigned long值用于vmalloc地址的頁表查詢。注意,由于一個內(nèi)存管理的問題,這個值的強制類型轉(zhuǎn)換在早于2.1的X86核心上不能工作。在X86的2.1.1版中內(nèi)存管理做了改動,VMALLOC_VMADDR被定義為一個實體函數(shù),與在其它平臺上一樣。
最后要提到的一點是init_mm是如何被訪問的,因為我前面提到過,它并未引出到模塊中。實際上,scullv要作一些額外的工作來取得init_mm的指針,解釋如下。
實際上,常規(guī)模塊并不需要init_mm,因為它們并不期望與內(nèi)存管理交互;它們只是調(diào)用分配和釋放函數(shù)。為scullv的mmap實現(xiàn)很少見。本小節(jié)中介紹的代碼實際上并不用來驅(qū)動硬件;我介紹它只是用實際代碼來支持關(guān)于頁表的討論。
不過,既然談到這兒,我還是想給你看看scullv是如何獲得init_mm的地址的。這段代碼依賴于這樣的事實:0號進程(所謂的空閑任務(wù))處于內(nèi)核中,它的頁目錄描述了核心地址空間。為了觸到空閑任務(wù)的數(shù)據(jù)結(jié)構(gòu),scullv掃描進程鏈表直到找到0號進程。
(代碼288)
這個函數(shù)由fops->mmap調(diào)用,因為nopage只在mmap調(diào)用后運行。
基于上面的討論,你也許還想將由vremap(如果你用Linux2.1,就是ioremap)返回的地址映射到用戶空間。這很容易實現(xiàn),因為你可以直接使用remap_page_range,而不用實現(xiàn)虛擬內(nèi)存區(qū)域的方法。換句話說,remap_page_range已經(jīng)可用以構(gòu)造將I/O內(nèi)存映射到用戶空間的頁表;并不需要象我們在scullv中那樣查看由vremap構(gòu)造的核心頁表。
直接內(nèi)存訪問
直接內(nèi)存訪問,或DMA,是我們內(nèi)存訪問方面討論的高級主題。DMA是一種硬件機制,它允許外圍組件將I/O數(shù)據(jù)直接從(或向)主存中傳送。
為了利用硬件的DMA能力,設(shè)備驅(qū)動程序需要能正確地設(shè)置DMA傳送并能與硬件同步。不幸的是,由于DMA的硬件實質(zhì),它非常以來于系統(tǒng)。每種體系結(jié)構(gòu)都有它自己管理DMA傳送的技術(shù),編程接口也互不相同。核心也不能提供一個一致的接口,因為驅(qū)動程序很難將底層硬件機制適當?shù)爻橄蟆1菊轮?#xff0c;我將描述DMA在ISA設(shè)備及PCI外圍上是如何工作的,因為它們是目前最常用的外圍接口體系結(jié)構(gòu)。
不過,我不想討論ISA太多的細節(jié)。DMA的ISA實現(xiàn)過于復雜,在現(xiàn)代外圍中并不常用。目前ISA總線主要用在啞外圍接口上,而需要DMA能力的硬件生產(chǎn)商傾向于使用PCI總線。
DMA數(shù)據(jù)傳送的概況
在介紹編程細節(jié)以前,我們先大致看看DMA傳送是如何工作的。為簡化討論,只介紹輸入傳送。
數(shù)據(jù)傳送有兩種方式觸發(fā):或者由軟件請求數(shù)據(jù)(通過一個函數(shù)如read),或者由硬件將數(shù)據(jù)異步地推向系統(tǒng)。
在第一中情況下,各步驟可如下概括:
l???????????當一個進程調(diào)用一個read,這個驅(qū)動程序方法分配一個DMA緩沖區(qū),并告訴硬件去傳誦數(shù)據(jù)。進程進入睡眠。
l???????????硬件向DMA緩沖區(qū)寫數(shù)據(jù),完成時發(fā)出一個中斷。
l???????????中斷處理程序獲得輸入數(shù)據(jù),應(yīng)答中斷,喚醒進程,它現(xiàn)在可以讀取數(shù)據(jù)。
有時DMA被異步地使用。例如,一些數(shù)據(jù)采集設(shè)備持續(xù)地推入數(shù)據(jù),即使沒有人讀它。這種情況下,驅(qū)動程序要維護一個緩沖區(qū),使得接下來的一個read調(diào)用可以將所有累積的數(shù)據(jù)返回到擁護空間。這種傳送的步驟稍有不同:
l???????????硬件發(fā)出一個中斷,表明新的數(shù)據(jù)到達了。
l???????????中斷處理程序分配一個緩沖區(qū),告訴硬件將數(shù)據(jù)傳往何處。
l???????????外圍設(shè)備將數(shù)據(jù)寫入緩沖區(qū);當寫完時,再次發(fā)出中斷。
l???????????處理程序派發(fā)新數(shù)據(jù),喚醒所有相關(guān)進程,處理一些雜務(wù)。
?
上面這兩種情況下的處理步驟都強調(diào):高效的DMA處理以來于中斷報告。盡管可以用一個輪詢驅(qū)動程序來實現(xiàn)DMA,這樣做并無意義,因為輪詢驅(qū)動程序會將DMA相對于簡單的處理器驅(qū)動I/O獲得的性能優(yōu)勢都抵消了。
這里介紹的另一個相關(guān)問題是DMA緩沖區(qū)。為利用直接內(nèi)存訪問,設(shè)備驅(qū)動程序必須能分配一個特殊緩沖區(qū)以適合DMA。注意大多數(shù)驅(qū)動程序在初始化時分配它們的緩沖區(qū),一直使用到關(guān)機——因此,上面步驟中“分配”一詞指的是“獲得以前已分配的緩沖區(qū)”。
分配DMA緩沖區(qū)
DMA緩沖區(qū)的主要問題是當它大于一頁時,它必須占據(jù)物理內(nèi)存的連續(xù)頁,因為設(shè)備使用ISA或PCI總線傳送數(shù)據(jù),它都只攜帶物理地址。有趣的是注意到,這個限制對Sbus并不適用(見第15章“外圍總線概覽”中“Sbus”一節(jié)),它在外圍總線上適用虛地址。
盡管DMA緩沖區(qū)可以在系統(tǒng)引導或運行時分配,模塊只能在運行時分配其緩沖區(qū)。第七章介紹了這些技術(shù):“Playing Dirty”講述在系統(tǒng)引導時分配;“kmalloc的真實故事”和“get_free_page和朋友們”講述運行時分配。如果你用kmalloc或get_free_page,你必須指定GFP_DMA優(yōu)先級,與GFP_KERNEL或GFP_ATOMIC進行異或。
GFP_DMA要求內(nèi)存空間必須適合于DMA傳送。核心保證能夠進行DMA的緩沖區(qū)具有以下兩個特點。第一,當get_free_page返回不止一頁時,其物理地址必須是連續(xù)的(不過,一般情況下的確如此,與GFP_DMA無關(guān),因為本身就是以成簇的連續(xù)頁來組織空閑內(nèi)存的)。第二,當GFP_DMA等設(shè)備時,核心保證只有低于MAX_DMA_ADDRESS的地址才被返回。宏MAX_DMA_ADDRESS在PC上被設(shè)為16MB,用以對付馬上就會講到的ISA限制。
在PCI情況下,沒有MAX_DMA_ADDRESS的限制,PCI設(shè)備驅(qū)動程序在分配它的緩沖區(qū)時應(yīng)避免設(shè)置GFP_DMA。
自行分配
我們已經(jīng)明白為何get_free_page(從而kmalloc)不能返回超過128KB(或更一般地,32頁)的連續(xù)內(nèi)存空間。但這個要求很容易失敗,即使當分配的緩沖區(qū)小于128KB時,因為隨著時間的推移,系統(tǒng)內(nèi)存會成為一些碎片*。
如果核心不能返回所需數(shù)量的內(nèi)存,或如果你需要超過128KB的內(nèi)存(例如對于一個PCI抓圖器來說,這是個很常見的需求),相對于返回-ENOMEM的一個辦法是在引導時分配內(nèi)存或為你的緩沖區(qū)保留物理RAM的頂端。我在第七章“Playing Dirty”中講述了引導時的分配,但這個辦法對模塊不適用。保留RAM頂部可以通過向核心傳遞一個mem=參數(shù)來完成。例如,如果你有32M,參數(shù)mem=31M防止核心適用頂部一兆。你的模塊以后可以用下面的代碼來獲得對該內(nèi)存的訪問:
???????dmabuf=vremap(0x1F00000 /*31MB*/, 0x100000 /* 1MB */ );
我自己分配DMA緩沖區(qū)的實現(xiàn)在allocator.c模塊(和一個相配的頭文件)中。你可以在src/misc-modules的示例文件中找到一個版本,最新版本總可以在我的FTP站點找到:ftp://ftp.systemy.it/pub/develop。你也可以找核心補丁bigphysarea,它和我的分配程序完成同樣的工作。
總線地址
當進行DMA時,設(shè)備驅(qū)動程序必須與連在接口總線上的硬件對話,這里使用物理地址,但程序代碼使用虛地址。
事實上,情況還要復雜一些。基于DMA的硬件使用總線地址,而不是物理地址。盡管在PC上,ISA和PCI地址與物理地址一樣,但并不是所有平臺都是這樣。有時接口總線是通過將I/O地址影射到不同物理地址的橋接電路被連接的。
Linux核心通過引出定義在<asm/io.h>中的下列函數(shù)來提供一個可移植的解決方案。
unsigned long virt_to_bus(volatile void * address);
???????void * bus_to_virt(unsigned long address);
其中virt_to_bus轉(zhuǎn)換在驅(qū)動程序需要向一個I/O設(shè)備(如一個擴展板或DMA控制器)發(fā)送地址信息時必須使用,而bus_to_virt在收到來自連于總線上的硬件地址信息時必須使用。
如果你查看依賴于前面講的allocator機制的代碼,你會發(fā)現(xiàn)這些函數(shù)的使用例子。這些代碼也依賴于vremap,因為上下文:
(代碼292)
盡管與DMA無關(guān),我們值得再了解兩個核心引出的函數(shù):
???????unsigned long virt_to_phys(volatile void * address);
???????void * phys_to_virt(unsigned long address);
這兩個函數(shù)在虛地址和物理地址之間進行轉(zhuǎn)換;它們在程序代碼需要和內(nèi)存管理單元(MMU)或其它連在處理器地址線上的硬件對話時被用到。在PC平臺上,這兩對函數(shù)完成同樣的工作;但將它們分開是重要的,既為了代碼的清晰,也為了可移植性。
ISA設(shè)備DMA
ISA總線允許兩類DMA傳送:“native DMA”使用主板上的標準DMA控制器電路驅(qū)動ISA總線上的信號線;另一方面,“ISA bus-master DMA”則完全由外圍設(shè)備控制。后一種DMA類型很少用,所以不值得在這里討論,因為它類似于PCI設(shè)備的DMA,至少從驅(qū)動程序的角度看是這樣的。一個ISA bus-master的例子是1542 SCSI控制器,它的驅(qū)動程序是核心源碼中的drivers/scsi/aba1542.c。
關(guān)于native DMA,有三個實體參與了ISA總線上的DMA數(shù)據(jù)傳送:
8237 DMA控制器(DMAC)
控制器存有DMA傳送的信息,如方向、內(nèi)存地址、傳送大小。它還有一個跟蹤傳送狀態(tài)的計數(shù)器。當控制器收到一個DMA請求信號,它獲得總線控制并驅(qū)動信號線以使設(shè)備可以讀寫數(shù)據(jù)。
外圍設(shè)備
???????設(shè)備在準備好傳送數(shù)據(jù)時,必須激活DMA請求信號。實際的傳送由DMAC控制;當控制器通知了設(shè)備,硬件設(shè)備就順序地從/往總線上讀/寫數(shù)據(jù)。
設(shè)備驅(qū)動程序
???????驅(qū)動程序要做的很少,它向DMA控制器提供方向、RAM地址、傳送大小。它還與外圍設(shè)備對話準備好傳送數(shù)據(jù)或在DMA結(jié)束時響應(yīng)中斷。
?
原先在PC中使用的DMA控制器能管理4個通道,每個通道與一組DMA寄存器關(guān)聯(lián),因此4個設(shè)備可以同時在控制器中存儲它們的DMA信息。新一些的PC有相當于兩套DMAC的設(shè)備*:第二個控制器(主)連向系統(tǒng)處理器,第一個(從)連在第二個控制器的0通道上+。
通道編號為0~7;4號通道對ISA外圍不可用,因為它是內(nèi)部用來將從控制器級聯(lián)到主控制器上。這樣從控制器上可用的通道為0~3(8位通道),主控制器上為5~7(16位通道§)。每次DMA傳送的大小存儲在控制器中,是一個16位數(shù),表示總線周期數(shù)。因此從控制器的最大傳送大小為64KB,主控制器為128KB。
由于DMA是系統(tǒng)范圍的資源,因此核心協(xié)助處理它。它用一個DMA注冊項提供DMA通道的請求和釋放機制,并用一組函數(shù)配置DMA控制器的通道信息。
注冊DMA的使用
你應(yīng)該已經(jīng)熟悉核心注冊項了——我們在I/O端口和中斷線那里見過它們。DMA通道的注冊項與其它類似。在包含了<asm/dma.h>后,下面的函數(shù)可以用來獲得和釋放DMA通道的所有權(quán):
???????int request_dma(unsigned int channel, const char *name);
???????void free_dma(unsigned int channel);
參數(shù)channel是0到7之間的一個數(shù),或更精確地說,是一個小于MAX_DMA_CHANNELS的正數(shù)。在PC上,MAX_DMA_CHANNELS被定義為8,以匹配硬件。參數(shù)name是確定設(shè)備的一個字符串。指定的名字出現(xiàn)在文件/proc/dma中,可由擁護程序讀出。
request_dma在成功時返回0,有錯誤時返回-EINVAL或-EBUSY。前者表明請求的通道出了范圍,后者表明有其它設(shè)備正占有這個設(shè)備。
我建議你對待DMA通道象對待I/O端口和中斷線一樣認真;在open時請求通道比從init_module中請求要好的多。推遲請求可以允許驅(qū)動程序間的一些共享;例如,你的聲卡和你的模擬I/O接口可以共享DMA通道,只要它們不在同時使用。
我同時也建議你在請求中斷線之后請求DMA通道,并在中斷之前釋放它。這是請求這兩個資源的常規(guī)順序;依照這個順序可以避免可能的死鎖。注意每個使用DMA的設(shè)備需要一個IRQ線,不然無法表明數(shù)據(jù)傳送的完成。
在典型的情況下,open的代碼看起來如下,這是個虛設(shè)的dad模塊(DMA獲取設(shè)備)。dad設(shè)備使用一個快速的中斷處理程序,不支持共享IRQ線。
(代碼295??#1)
與open匹配的close實現(xiàn)如下所示:
(代碼295??#2)
下面是小一個裝有聲卡的系統(tǒng)上/proc/dma文件的內(nèi)容:
merlino% cat /proc/dma
??????????????1:??Sound Blaster8
??????????????4:??cascade
有趣的是注意到缺省的聲卡驅(qū)動程序在系統(tǒng)引導時獲得DMA通道,并永不釋放。顯示的cascade項只是占據(jù)一個位置,表明通道4對驅(qū)動程序不可用,如前所述。
與DMA控制器對話
注冊完成后,驅(qū)動程序的主要工作是為正確的操作來配置DMA控制器。這項工作并不簡單,好在核心引出了所有典型驅(qū)動程序所需的函數(shù)。
在read或write被調(diào)用,或者在預備異步傳送時,驅(qū)動程序都需要配置DMA控制器。第二種情況,任務(wù)在open時或在對一個ioctl命令響應(yīng)時被執(zhí)行,這依賴于驅(qū)動程序及其實現(xiàn)策略。這里給出的代碼一般是由read或write設(shè)備方法調(diào)用。
本小節(jié)對DMA控制器內(nèi)部給出一個快速的概覽,這樣你就可以理解這里介紹的代碼。如果你想學更多,我鼓勵你閱讀<asm/dma.h>和一些介紹PC體系結(jié)構(gòu)的硬件手冊。特別地,我并不關(guān)注8位和16位數(shù)據(jù)傳輸?shù)膮^(qū)別。如果你在為ISA設(shè)備板子寫設(shè)備驅(qū)動程序,你應(yīng)該在設(shè)備的硬件手冊里查找相關(guān)信息。
必須裝入控制器的信息由三項組成:RAM地址,必須傳送的原子項數(shù)目(以字節(jié)或字為單位),傳送的方向。為了這個目的,下面的函數(shù)由<asm/dma.h>引出:
void set_dma_mode(unsigned int channel, char mode);
???????說明通道是從設(shè)備讀(DMA_MODE_READ)還是向設(shè)備寫(DMA_MODE_WRITE)。還有第三個模式,DMA_MODE_CASCADE,用來釋放對總線的控制。級聯(lián)是第一個控制器連到第二個控制器上的方法,但它也可以由真正的ISA bus-master設(shè)備使用。我在這里不想討論bus-master。
void set_dma_addr(unsigned int channel, unsigned int addr);
???????分配DMA緩沖區(qū)的地址。這個函數(shù)將addr的低24位存入到控制器。參數(shù)addr必須是個總線地址(見“總線地址”)。
void set_dma_count(unsigned int channel, unsigned int count);
???????分配要傳送的字節(jié)數(shù)。參數(shù)count對16位通道仍以字節(jié)為單位;在這種情況下,這個數(shù)必須是個偶數(shù)。
?
除了這幾個函數(shù),還有一些必須用來處理DMA設(shè)備的雜務(wù)工具:
void disable_dma(unsigned int channel);
???????一個DMA通道可以在控制器內(nèi)被關(guān)閉。在DMAC被配置之前,通道應(yīng)該被關(guān)閉以防止不正確的操作(控制器通過8位數(shù)據(jù)傳送編程,這樣前面的函數(shù)都不能被原子地執(zhí)行。)
void enable_dma(unsigned int channel);
???????這個函數(shù)告訴控制器這個DMA通道含有效數(shù)據(jù)。
int get_dma_residue(unsigned int channel);
???????驅(qū)動程序有時需要知道一個DMA傳送是否結(jié)束了。這個函數(shù)返回尚待傳送的字節(jié)數(shù)。如果成功傳送完,則返回0;如果控制器還在工作,返回值則不可預知(但不是0)。這種不可預知性反映一個事實,即這個余數(shù)是個16位值,通過兩個8位輸入操作獲得。
void clear_dma_ff(unsigned int channel);
???????這個函數(shù)清除DMA flip-flop。flip-flop用來控制對16位寄存器的訪問。這些寄存器由兩個連續(xù)的8位操作來訪問,flip-flop用來選中低字節(jié)(當它被清除時)或高字節(jié)(當它被置時)。flip-flop在8位傳輸完后自動反轉(zhuǎn);在訪問DMA積存器前必須清除一次flip-flop。
?
用這些函數(shù),驅(qū)動程序可以實現(xiàn)如下所示的一個函數(shù)來預備一個DMA傳送:
(代碼297)
如下的函數(shù)用來檢查DMA的成功完成:
int dad_dma_isdone(int channel)
{
?????return(get_dma_residue(channel)==0);
}
剩下唯一要做的事就是配置設(shè)備板子。這個設(shè)備特定的任務(wù)通常包括讀寫幾個I/O端口。設(shè)備在很多地方不同。例如,有的設(shè)備期望程序員告訴硬件DMA緩沖區(qū)有多大,有時驅(qū)動程序必須從設(shè)備中讀出被硬寫入的數(shù)值。為了配置板子,硬件手冊是你唯一的朋友。
?
DMA和PCI設(shè)備
DMA的PCI實現(xiàn)比ISA上要簡單的多。
PCI支持多個bus-master,而DMA就簡化成bus-mastering。需要讀寫主存的設(shè)備只需要簡單地請求獲得總線的控制,接著就可以直接控制電信號。PCI的實現(xiàn)在硬件級更精巧,在設(shè)備驅(qū)動程序中更容易管理。
編寫PCI上的DMA傳送由下列步驟組成:
分配一個緩沖區(qū)
???????DMA緩沖區(qū)在內(nèi)存中必須是物理連續(xù)的,但沒有16MB尋址能力的限制。一個get_free_page調(diào)用就足夠了。不必在優(yōu)先級中指定GFP???_DMA。如果你真的需要它,你可以轉(zhuǎn)向(不鼓勵)在前面“分配DMA緩沖區(qū)”中介紹過的更具進攻性的技術(shù)。
和設(shè)備對話
???????擴展設(shè)備必須被告知DMA緩沖區(qū)。這通常意味著將緩沖區(qū)的地址和大小寫入幾個設(shè)備積存器。有時,DMA的大小由硬件設(shè)備決定,但這是設(shè)備相關(guān)的。傳往PCI設(shè)備的地址必須是總線地址。
正如你所看到的,不存在為PCI設(shè)備編寫的通用代碼。一個典型的實現(xiàn)如下所示,但每個設(shè)備都不相同,配置信息量變化也很大。
(代碼298)
快速參考
本章介紹了與內(nèi)存處理有關(guān)的下列符號。下面的列表不包括第一節(jié)中介紹的符號,因為其列表太大,而且那些符號在設(shè)備驅(qū)動程序中也很少用到。
#include <linux/mm.h>
???????所有與內(nèi)存管理有關(guān)的函數(shù)和結(jié)構(gòu)在這個頭文件中定義。
int remap_page_range(unsigned long virt_add, unsigned long phys_add,
???????????????????unsigned long size, pgprot_t prot);
???????這個函數(shù)居于mmap的核心,它將開始于物理地址phys_add的size字節(jié)映射到virt_add。與虛擬空間相關(guān)聯(lián)的保護位在port中指定。
#include <asm/io.h>
unsigned long virt_to_bus(volatile void * address);
void * bus_to_virt(unsigned int address);
unsigned long virt_to_phys(volatile void * address);
void * phys_to_virt(unsigned long address);
???????這些函數(shù)在虛擬和物理地址之間轉(zhuǎn)換。必須使用總線地址來和外圍設(shè)備對話,物理地址用來和MMU電路對話。
/proc/dma
???????這個文件包括DMA控制器中已分配通道的文本形式快照。基于PCI的DMA并不顯示,因為各個板子獨立工作,不必在DMA控制器中分配一個通道。
#include <asm/dma.h>
???????這個頭文件定義了所有與DMA有關(guān)的函數(shù)和宏。要使用下面的符號就必須包含它。
int request_dma(unsigned int channel, const char * name);
void free_dma(unsigned int channel);
???????這些函數(shù)訪問DMA注冊項。在使用ISA DMA通道前必須注冊。
void set_dma_mode(unsigned int channel, char mode);
void set_dma_addr(unsigned int channel, unsigned int addr);
void set_dma_count(unsigned int channel, unsigned int count);
???????這些函數(shù)用來將DMA信息置入DMA控制器。addr是總線地址。
void disable_dma(unsigned int channel);
void enable_dma(unsigned int channel);
???????在配置時,DMA通道必須關(guān)閉。這些函數(shù)改變DMA通道的狀態(tài)。
int get_dma_residue(unsigned int channel);
???????如果驅(qū)動程序想知道DMA傳送進行的如何,它可以調(diào)用這個函數(shù),返回尚需傳送的數(shù)據(jù)字節(jié)數(shù)。DMA成功完成后,函數(shù)返回0;如果還在傳送中,這個值是不可預知的。
void clear_dma_ff(unsigned int channel);
???????DMA flip-flop被控制器用來用8位操作來傳送16位的值。在傳送任何數(shù)值到控制器前必須將其清楚。
?
*?事實中,在sparc上的這些函數(shù)并不是inline的,而是實際extern的函數(shù),它們沒有被引出到模塊化的代碼中。因此,你不能在運行在上的模塊中使用這些函數(shù),不過實際上一般也用不著那樣做。
*?當某頁成為進程內(nèi)存映象的一部分時,它的使用計數(shù)必須增加,因為在取消映射時,它會被減小。?這類鎖定不能在活動的RAM頁上實施,因為它可能阻止正常的系統(tǒng)操作(象swapping和allocation/deallocation)。
*?“碎片”這個詞一般用于磁盤,表示文件在磁介質(zhì)上不是連續(xù)地存放。這個概念同樣適用于內(nèi)存,即當每個虛擬地址空間都散布在整個物理RAM,很難為DMA的緩沖區(qū)請求分配連續(xù)的空閑頁。
*?這些電路現(xiàn)在是主板芯片組的一部分,但在幾年前,它們是兩個獨立的8237芯片。
+?最初的PC只有一個控制器;第二個是在286平臺上開始加上的。第二個控制器以主控制器的身份連接的原因是它能處理16位的傳送,而第一個控制器一次只傳送8位,它的存在只是為了后向兼容。
§?一個總線I/O周期傳送兩個字節(jié)。
本文轉(zhuǎn)自張昺華-sky博客園博客,原文鏈接:http://www.cnblogs.com/sky-heaven/p/5956703.html,如需轉(zhuǎn)載請自行聯(lián)系原作者
總結(jié)
以上是生活随笔為你收集整理的内存映射MMAP和DMA【转】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: Powercli的一些使用案例
- 下一篇: Struts框架原理分析之我见
