文件读取 linux_Linux 进程、线程、文件描述符的底层原理
說到進程,恐怕面試中最常見的問題就是線程和進程的關(guān)系了,那么先說一下答案:在 Linux 系統(tǒng)中,進程和線程幾乎沒有區(qū)別。
Linux 中的進程其實就是一個數(shù)據(jù)結(jié)構(gòu),順帶可以理解文件描述符、重定向、管道命令的底層工作原理,最后我們從操作系統(tǒng)的角度看看為什么說線程和進程基本沒有區(qū)別。
一、進程是什么
首先,抽象地來說,我們的計算機就是這個東西:
這個大的矩形表示計算機的內(nèi)存空間,其中的小矩形代表進程,左下角的圓形表示磁盤,右下角的圖形表示一些輸入輸出設(shè)備,比如鼠標鍵盤顯示器等等。另外,注意到內(nèi)存空間被劃分為了兩塊,上半部分表示用戶空間,下半部分表示內(nèi)核空間。
用戶空間裝著用戶進程需要使用的資源,比如你在程序代碼里開一個數(shù)組,這個數(shù)組肯定存在用戶空間;內(nèi)核空間存放內(nèi)核進程需要加載的系統(tǒng)資源,這一些資源一般是不允許用戶訪問的。但是注意有的用戶進程會共享一些內(nèi)核空間的資源,比如一些動態(tài)鏈接庫等等。
我們用 C 語言寫一個 hello 程序,編譯后得到一個可執(zhí)行文件,在命令行運行就可以打印出一句 hello world,然后程序退出。在操作系統(tǒng)層面,就是新建了一個進程,這個進程將我們編譯出來的可執(zhí)行文件讀入內(nèi)存空間,然后執(zhí)行,最后退出。
你編譯好的那個可執(zhí)行程序只是一個文件,不是進程,可執(zhí)行文件必須要載入內(nèi)存,包裝成一個進程才能真正跑起來。進程是要依靠操作系統(tǒng)創(chuàng)建的,每個進程都有它的固有屬性,比如進程號(PID)、進程狀態(tài)、打開的文件等等,進程創(chuàng)建好之后,讀入你的程序,你的程序才被系統(tǒng)執(zhí)行。
那么,操作系統(tǒng)是如何創(chuàng)建進程的呢?對于操作系統(tǒng),進程就是一個數(shù)據(jù)結(jié)構(gòu),我們直接來看 Linux 的源碼:
struct?task_struct?{????//?進程狀態(tài)
????long??????????????state;
????//?虛擬內(nèi)存結(jié)構(gòu)體
????struct?mm_struct??*mm;
????//?進程號
????pid_t?????????????pid;
????//?指向父進程的指針
????struct?task_struct???*parent;
????//?子進程列表
????struct?list_head????? children;
????//?存放文件系統(tǒng)信息的指針
????struct?fs_struct??????*fs;
????//?一個數(shù)組,包含該進程打開的文件指針
????struct?files_struct???*files;
};
task_struct就是 Linux 內(nèi)核對于一個進程的描述,也可以稱為「進程描述符」。源碼比較復(fù)雜,我這里就截取了一小部分比較常見的。
我們主要聊聊mm指針和files指針。mm指向的是進程的虛擬內(nèi)存,也就是載入資源和可執(zhí)行文件的地方;files指針指向一個數(shù)組,這個數(shù)組里裝著所有該進程打開的文件的指針。
二、文件描述符是什么
先說files,它是一個文件指針數(shù)組。一般來說,一個進程會從files[0]讀取輸入,將輸出寫入files[1],將錯誤信息寫入files[2]。
舉個例子,以我們的角度 C 語言的printf函數(shù)是向命令行打印字符,但是從進程的角度來看,就是向files[1]寫入數(shù)據(jù);同理,scanf函數(shù)就是進程試圖從files[0]這個文件中讀取數(shù)據(jù)。
每個進程被創(chuàng)建時,files的前三位被填入默認值,分別指向標準輸入流、標準輸出流、標準錯誤流。我們常說的「文件描述符」就是指這個文件指針數(shù)組的索引,所以程序的文件描述符默認情況下 0 是輸入,1 是輸出,2 是錯誤。
我們可以重新畫一幅圖:
對于一般的計算機,輸入流是鍵盤,輸出流是顯示器,錯誤流也是顯示器,所以現(xiàn)在這個進程和內(nèi)核連了三根線。因為硬件都是由內(nèi)核管理的,我們的進程需要通過「系統(tǒng)調(diào)用」讓內(nèi)核進程訪問硬件資源。
PS:不要忘了,Linux 中一切都被抽象成文件,設(shè)備也是文件,可以進行讀和寫。
如果我們寫的程序需要其他資源,比如打開一個文件進行讀寫,這也很簡單,進行系統(tǒng)調(diào)用,讓內(nèi)核把文件打開,這個文件就會被放到files的第 4 個位置,對應(yīng)文件描述符 3:
明白了這個原理,輸入重定向就很好理解了,程序想讀取數(shù)據(jù)的時候就會去files[0]讀取,所以我們只要把files[0]指向一個文件,那么程序就會從這個文件中讀取數(shù)據(jù),而不是從鍵盤:
同理,輸出重定向就是把files[1]指向一個文件,那么程序的輸出就不會寫入到顯示器,而是寫入到這個文件中:
錯誤重定向也是一樣的,就不再贅述。
管道符其實也是異曲同工,把一個進程的輸出流和另一個進程的輸入流接起一條「管道」,數(shù)據(jù)就在其中傳遞,不得不說這種設(shè)計思想真的很巧妙:
到這里,你可能也看出「Linux 中一切皆文件」設(shè)計思路的高明了,不管是設(shè)備、另一個進程、socket 套接字還是真正的文件,全部都可以讀寫,統(tǒng)一裝進一個簡單的files數(shù)組,進程通過簡單的文件描述符訪問相應(yīng)資源,具體細節(jié)交于操作系統(tǒng),有效解耦,優(yōu)美高效。
三、線程是什么
首先要明確的是,多進程和多線程都是并發(fā),都可以提高處理器的利用效率,所以現(xiàn)在的關(guān)鍵是,多線程和多進程有啥區(qū)別。
為什么說 Linux 中線程和進程基本沒有區(qū)別呢,因為從 Linux 內(nèi)核的角度來看,并沒有把線程和進程區(qū)別對待。
我們知道系統(tǒng)調(diào)用fork()可以新建一個子進程,函數(shù)pthread()可以新建一個線程。但無論線程還是進程,都是用task_struct結(jié)構(gòu)表示的,唯一的區(qū)別就是共享的數(shù)據(jù)區(qū)域不同。
換句話說,線程看起來跟進程沒有區(qū)別,只是線程的某些數(shù)據(jù)區(qū)域和其父進程是共享的,而子進程是拷貝副本,而不是共享。就比如說,mm結(jié)構(gòu)和files結(jié)構(gòu)在線程中都是共享的,我畫兩張圖你就明白了:
所以說,我們的多線程程序要利用鎖機制,避免多個線程同時往同一區(qū)域?qū)懭霐?shù)據(jù),否則可能造成數(shù)據(jù)錯亂。
那么你可能問,既然進程和線程差不多,而且多進程數(shù)據(jù)不共享,即不存在數(shù)據(jù)錯亂的問題,為什么多線程的使用比多進程普遍得多呢?
因為現(xiàn)實中數(shù)據(jù)共享的并發(fā)更普遍呀,比如十個人同時從一個賬戶取十元,我們希望的是這個共享賬戶的余額正確減少一百元,而不是希望每人獲得一個賬戶的拷貝,每個拷貝賬戶減少十元。
當(dāng)然,必須要說明的是,只有 Linux 系統(tǒng)將線程看做共享數(shù)據(jù)的進程,不對其做特殊看待,其他的很多操作系統(tǒng)是對線程和進程區(qū)別對待的,線程有其特有的數(shù)據(jù)結(jié)構(gòu),我個人認為不如 Linux 的這種設(shè)計簡潔,增加了系統(tǒng)的復(fù)雜度。
在 Linux 中新建線程和進程的效率都是很高的,對于新建進程時內(nèi)存區(qū)域拷貝的問題,Linux 采用了 copy-on-write 的策略優(yōu)化,也就是并不真正復(fù)制父進程的內(nèi)存空間,而是等到需要寫操作時才去復(fù)制。所以 Linux 中新建進程和新建線程都是很迅速的。
以上就是全部內(nèi)容,如果有幫助的話,不妨點個在看,我看看操作系統(tǒng)相關(guān)的文章閱讀數(shù)據(jù)怎么樣,不錯的話以后可以再寫寫操作系統(tǒng)方面的小知識。
總結(jié)
以上是生活随笔為你收集整理的文件读取 linux_Linux 进程、线程、文件描述符的底层原理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嵌入式系统的知识体系、学习误区及学习建议
- 下一篇: VC添加.chm帮助文档 --HtmlH