半同步半异步模式
半同步半異步模式
一個(gè)架構(gòu)模式,清晰的結(jié)構(gòu),高效并發(fā)的I/O
譯者:
英文原文:?http://www.cs.wustl.edu/~schmidt/PDF/HS-HA.pdf
摘要
這篇文字介紹了半同步半異步模式,這個(gè)模式運(yùn)用在復(fù)雜的并行系統(tǒng)中,把同步和異步I/O模型集成在一起,既保持了編程簡(jiǎn)單又保證了執(zhí)行的效率。這個(gè)模式中,高層使用同步I/O模型,簡(jiǎn)化編程。低層使用異步I/O模型,高效執(zhí)行。各種操作系統(tǒng)和其它復(fù)雜的并行系統(tǒng)中廣泛使用這個(gè)模式,使用這個(gè)模式的操作系統(tǒng)有:UNIX, Mach,Windows NT,and VMS。
1 意圖
在系統(tǒng)中分離了同步I/O和異步I/O的兩個(gè)過(guò)程,既簡(jiǎn)化了并行程序?qū)崿F(xiàn)的復(fù)雜,又不會(huì)影響執(zhí)行的效率。
2 動(dòng)機(jī)
如圖一所示,為了說(shuō)明半同步半異步模式,我們來(lái)考慮一個(gè)軟件架構(gòu),BSD UNIX[1]的網(wǎng)絡(luò)子系統(tǒng)。BSD UNIX的內(nèi)核負(fù)責(zé)協(xié)調(diào)異步通信設(shè)備(如:網(wǎng)絡(luò)適配器、遠(yuǎn)程終端)和應(yīng)用程序之間的I/O行為。數(shù)據(jù)包隨時(shí)到達(dá)設(shè)備,產(chǎn)生硬件中斷,然后由中斷處理例程把數(shù)據(jù)交給操作系統(tǒng)內(nèi)核。這些中斷處理例程接收數(shù)據(jù),觸發(fā)上層的網(wǎng)絡(luò)協(xié)議處理(如 IP,TCP和UDP)。應(yīng)用數(shù)據(jù)包在套接口層排隊(duì)。操作系統(tǒng)把這些數(shù)據(jù)包分發(fā)給每個(gè)用戶(hù)進(jìn)程。用戶(hù)進(jìn)程使用系統(tǒng)調(diào)用read,以同步的方式接收套接口層的數(shù)據(jù)。用戶(hù)進(jìn)程可以在任意時(shí)刻調(diào)用read,當(dāng)數(shù)據(jù)沒(méi)有到達(dá)的時(shí)候,進(jìn)程將一直阻塞等待。
在這個(gè)體系中,操作系統(tǒng)內(nèi)核響應(yīng)設(shè)備的中斷,執(zhí)行異步的I/O。而用戶(hù)級(jí)的應(yīng)用程序進(jìn)行同步的I/O。這正是“半同步半異步”這個(gè)名字的由來(lái),這個(gè)結(jié)構(gòu)滿(mǎn)足下面的兩個(gè)需要:
編程實(shí)現(xiàn)簡(jiǎn)單。異步I/O模型中,中斷隨時(shí)觸發(fā)輸入和輸出操作,編程復(fù)雜。使用異步I/O模型,當(dāng)中斷處理例程擁有線程控制權(quán)時(shí),會(huì)產(chǎn)生非常麻煩的時(shí)序和竟?fàn)巻?wèn)題。而且,使用中斷機(jī)制的程序要求額外的數(shù)據(jù)結(jié)構(gòu),這個(gè)數(shù)據(jù)結(jié)構(gòu)用于在異步事件發(fā)生的時(shí)候保存進(jìn)程上下文狀態(tài)。并且,程序執(zhí)行的時(shí)候,外部的事件會(huì)在不固定的時(shí)間發(fā)生,程序不容易調(diào)試。
與其相比,使用同步I/O模型的時(shí)候,I/O操作在確定的點(diǎn)發(fā)生,編程實(shí)現(xiàn)要容易的多。此外,同步I/O操作的程序會(huì)阻塞等待I/O操作的完成。進(jìn)程運(yùn)行上下文的活動(dòng)記錄自動(dòng)在運(yùn)行棧中保存,不必使用獨(dú)立的數(shù)據(jù)結(jié)構(gòu)。因此,為了讓編程簡(jiǎn)單,有強(qiáng)烈的理由使用同步I/O模型。
程序執(zhí)行高效。在中斷驅(qū)動(dòng)的設(shè)備上,異步I/O模型運(yùn)用帶來(lái)了高效率。異步I/O讓通信和計(jì)算同時(shí)進(jìn)行。并且,因?yàn)槌绦蜻\(yùn)行狀態(tài)的數(shù)據(jù)量相對(duì)較小,上下文切換的消耗被最小化[2]。因此,為了提高運(yùn)行的性能,也有強(qiáng)烈理由使用異步I/O模型。
與其相比,如果每種資源的事件(例如網(wǎng)卡,終端和計(jì)時(shí)器)占用一個(gè)獨(dú)立的活動(dòng)對(duì)象(進(jìn)程或線程),一個(gè)完全同步I/O模型效率會(huì)低。每個(gè)活動(dòng)對(duì)象包含多個(gè)資源(例如棧,寄存器),每種資源都會(huì)讓它阻塞,等待資源事件的發(fā)生。在創(chuàng)建,調(diào)度,分發(fā)和終止這些獨(dú)立的活動(dòng)對(duì)象,會(huì)消耗更多的時(shí)間和空間。
3 方案
??? 編程簡(jiǎn)單和高效率執(zhí)行是矛盾的,半同步半異步模式目的正是為了解決這個(gè)矛盾。這個(gè)模式集成了同步和異步兩種I/O模式,結(jié)構(gòu)清晰,效率高。在這個(gè)模式中,上層的任務(wù)(如:數(shù)據(jù)庫(kù)查詢(xún),文件傳輸)使用同步I/O模型,簡(jiǎn)化了編寫(xiě)并行程序的難度。而底層的任務(wù)(如網(wǎng)絡(luò)控制器的中斷處理)使用異步I/O模型,提供了執(zhí)行效率。一般情況下,上層的任務(wù)要比下層的任務(wù)多,使用一個(gè)簡(jiǎn)單的層次實(shí)現(xiàn)異步處理的復(fù)雜性,可以對(duì)外隱藏異步處理的細(xì)節(jié)。另外,同步層次和異步層次任務(wù)間的通信使用一個(gè)隊(duì)列來(lái)協(xié)調(diào)。???
4 應(yīng)用?
半同步半異步模式在下面的場(chǎng)景中使用。
× 一個(gè)系統(tǒng)中的進(jìn)程有下面的特征:
系統(tǒng)必須響應(yīng)和處理外部異步發(fā)生的事件,
如果為每一個(gè)外部資源的事件分派一個(gè)獨(dú)立的線程同步處理I/O,效率很低。
如果上層的任務(wù)以同步方式處理I/O,實(shí)現(xiàn)起來(lái)簡(jiǎn)單。
× 一個(gè)或多個(gè)任務(wù)必須在單獨(dú)的控制線程中執(zhí)行,其它任務(wù)可以在多線程中執(zhí)行。
例如,X Window和Sun RPC 的庫(kù)函數(shù)許多是不可重入的。多個(gè)控制線程不能安全地同時(shí)調(diào)用這些函數(shù)。然而,為了使多個(gè)CPU提高服務(wù)的質(zhì)量,有必要使用并行,不同的線程同時(shí)執(zhí)行批量數(shù)據(jù)的傳輸或數(shù)據(jù)庫(kù)的查詢(xún)。使用半同步半異步模式,可以在多線程中分離出單獨(dú)的線程。在不改變現(xiàn)有代碼的情況下,這個(gè)分離可以讓不可重入的函數(shù)在并行環(huán)境正確執(zhí)行。
5 結(jié)構(gòu)和組成單元
圖二顯示了半同步半異步模式的組成結(jié)構(gòu)。這些組成單元如下描述
×同步任務(wù)層(用戶(hù)級(jí)的進(jìn)程)
本層的任務(wù)完成上層的I/O操作,使用同步I/O模型,通過(guò)隊(duì)列層的隊(duì)列中傳輸數(shù)據(jù)。和異步層不同,同步層的任務(wù)使用活動(dòng)對(duì)象[3]執(zhí)行,這些活動(dòng)對(duì)象有自己運(yùn)行棧和寄存器狀態(tài)。當(dāng)執(zhí)行同步I/O的時(shí)候,他們會(huì)被阻塞/睡眠。
×隊(duì)列層(套接口層)
這個(gè)層在同步任務(wù)層和異步任務(wù)層之間,提供了同步控制和緩存的功能。異步任務(wù)的I/O事件被緩存到消息隊(duì)列中,同步任務(wù)層在隊(duì)列中提取這些事件(相反方向亦然)。
×異步任務(wù)層
處理低層的事件,這些事件由多個(gè)外部的事件源產(chǎn)生(例如網(wǎng)卡,終端)。和異步任務(wù)不同,此層的實(shí)體是被動(dòng)對(duì)象,沒(méi)有自己的運(yùn)行棧,要求不能被阻塞。
×外部事件源(網(wǎng)絡(luò)接口)
外部設(shè)備產(chǎn)生事件,產(chǎn)生的事件先被異步任務(wù)層接收和處理。
6 協(xié)作
圖三展現(xiàn)了一個(gè)動(dòng)態(tài)的過(guò)程:當(dāng)外部事件到達(dá)后,半同步半異步模式的各個(gè)組成單元協(xié)作和處理。把協(xié)作的過(guò)程分成下面三個(gè)階段:
×異步階段。通過(guò)中斷機(jī)制或異步事件通知,外部的事件源和異步任務(wù)層完成交互。
×排隊(duì)階段。隊(duì)列層的隊(duì)列提供了一個(gè)同步控制機(jī)制,響應(yīng)輸入事件,緩存同步層和異步層之間的消息,
×同步階段。同步任務(wù)層在隊(duì)列層提取消息。注意,同步層和異步層專(zhuān)遞數(shù)據(jù)的協(xié)議是獨(dú)立的,和隊(duì)列層具體處理通信的方式無(wú)關(guān)。
在圖三中,同步層和異步層之間的通信使用生產(chǎn)者/消費(fèi)者模型。理解這個(gè)模型的關(guān)鍵是:完成同步任務(wù)的是活動(dòng)對(duì)象。他們可以在任意時(shí)刻阻塞調(diào)用read或在 write。如果數(shù)據(jù)沒(méi)有準(zhǔn)備好,這些活動(dòng)對(duì)象可以一直等待。相反的,異步任務(wù)層的實(shí)體是被動(dòng)對(duì)象。他們不能被阻塞。這些對(duì)象被通知或外部對(duì)象觸發(fā)。
7 結(jié)果
半同步半異步模式有下面的優(yōu)點(diǎn)
×上層的任務(wù)被簡(jiǎn)化,這是因?yàn)椴恍枰倜鎸?duì)底層的異步I/O。復(fù)雜的并發(fā)控制,中斷處理和計(jì)時(shí)操作都委托給異步任務(wù)層。異步層負(fù)責(zé)處理底層的細(xì)節(jié),如,異步系統(tǒng)編程的中斷處理。異步任務(wù)層管理與硬件相關(guān)的組件間(如DMA,內(nèi)存管理,設(shè)備寄存器)的交互。
×不同層可以使用不同的同步策略。每一層不必使用相同的并行控制方式。例如,在單線程的BSD UNIX內(nèi)核中,異步任務(wù)層使用低級(jí)的機(jī)構(gòu)(如修改CPU的中斷級(jí)別)。與此不同,用戶(hù)級(jí)的進(jìn)程使用高級(jí)的同步機(jī)構(gòu)(如使用信號(hào)量,消息隊(duì)列,條件變量,記錄鎖)。
×層間的通信被限制在單獨(dú)的一點(diǎn),因?yàn)樗械慕换ナ褂藐?duì)列層協(xié)調(diào)。隊(duì)列層對(duì)兩層之間的消息進(jìn)行緩存。如果直接通信,同步和異步任務(wù)層直接訪問(wèn)對(duì)方的內(nèi)存,就必須使用復(fù)雜的鎖和時(shí)序控制。
×在多處理器環(huán)境中提高了性能。使用同步的I/O可以簡(jiǎn)化編程和提高性能。例如,長(zhǎng)時(shí)間的數(shù)據(jù)傳輸(如從數(shù)據(jù)庫(kù)中加載一個(gè)大的醫(yī)學(xué)圖象)使用同步I/O效率更高。因?yàn)橐粋€(gè)處理器單獨(dú)為一個(gè)線程使用,可以更有效的使用CPU的指令和數(shù)據(jù)的緩存。
半同步半異步模式有下面的缺點(diǎn)
× 跨邊界導(dǎo)致的性能消耗,這是因?yàn)橥娇刂?#xff0c;數(shù)據(jù)拷貝和上下文切換會(huì)過(guò)度地消耗資源。在同步和異步任務(wù)層之間使用隊(duì)列層傳送數(shù)據(jù)的時(shí)候,這種消耗往往會(huì)發(fā)生。特別是,許多使用半同步半異步模式的操作系統(tǒng),把隊(duì)列層放到用戶(hù)和內(nèi)核域的邊界上。到跨越這個(gè)邊界的時(shí)候,往往會(huì)有明顯的性能消耗。例如,BSD UNIX的套接口層,在很大比例上造成了TCP/IP網(wǎng)絡(luò)的過(guò)載[4]。
×上層任務(wù)缺少異步I/O的實(shí)現(xiàn)。依賴(lài)與系統(tǒng)接口的設(shè)計(jì),可能導(dǎo)致上層無(wú)法直覺(jué)使用低層的異步I/O設(shè)備。因此,如果外部的設(shè)備支持異步的重疊的I/O方式,系統(tǒng)的I/O結(jié)構(gòu)會(huì)防礙應(yīng)用程序高效的使用。
8 實(shí)現(xiàn)
這一節(jié)描述如何實(shí)現(xiàn)半同步半異步模式,系統(tǒng)中分成了同步任務(wù)層和異步任務(wù)層,兩層之間使用隊(duì)列層通信。
???
8.1 找到消耗時(shí)間的長(zhǎng)時(shí)任務(wù),使用同步I/O實(shí)現(xiàn)他們。
使用同步I/O方式,可以讓系統(tǒng)任務(wù)的實(shí)現(xiàn)簡(jiǎn)單化,而系統(tǒng)中經(jīng)常有會(huì)時(shí)間長(zhǎng)的任務(wù),如執(zhí)行大量流數(shù)據(jù)碰[5]傳輸,或者是等待服務(wù)器響應(yīng)的數(shù)據(jù)查詢(xún)。
使用活動(dòng)對(duì)象[3]模型實(shí)現(xiàn)這些長(zhǎng)時(shí)任務(wù)。活動(dòng)對(duì)象擁有自己的運(yùn)行棧和寄存器狀態(tài),在執(zhí)行同步I/O的時(shí)候可以被阻塞。實(shí)現(xiàn)活動(dòng)對(duì)象結(jié)構(gòu),要求一個(gè)控制線程的切換機(jī)制,需要一個(gè)地方存放和恢復(fù)線程的狀態(tài)(如寄存器的值,棧指針),這些功能足夠?qū)崿F(xiàn)一個(gè)非搶占的,沒(méi)有內(nèi)存保護(hù)的線程機(jī)構(gòu)。“用戶(hù)級(jí)線程”包一般實(shí)現(xiàn)了此類(lèi)的功能(譯者:操作系統(tǒng)都實(shí)現(xiàn)了這個(gè)功能)。
然而,在一個(gè)要求健壯的多任務(wù)系統(tǒng)中,要使用進(jìn)程或線程的方式實(shí)現(xiàn)活動(dòng)對(duì)象,需要更多的功能。這種情況下,每種線程需要自己的線程(或進(jìn)程)空間,這些空間被處理器的內(nèi)存管理單元(MMU)管理。當(dāng)線程(或進(jìn)程)切換的時(shí)候,新的地址空間信息需要加載到MMU中。切換時(shí)還需要清空高速緩存,特別是高速緩存使用虛擬地址的情況下。除了地址空間,一個(gè)操作系統(tǒng)進(jìn)程還可能包含一個(gè)“用戶(hù)ID”。這個(gè)標(biāo)識(shí)告訴操作系統(tǒng)這個(gè)進(jìn)程的訪問(wèn)權(quán)限和占用的系統(tǒng)資源。
為了防止一個(gè)單獨(dú)的線程(或進(jìn)程)永久的占用系統(tǒng),要有搶占的機(jī)制。經(jīng)常使用計(jì)時(shí)器實(shí)現(xiàn),計(jì)時(shí)器周期性的產(chǎn)生時(shí)鐘中斷。在中斷處理期間,操作系統(tǒng)檢查當(dāng)前的進(jìn)程是否應(yīng)該被搶占。如果應(yīng)該被搶占,就保存當(dāng)前進(jìn)程的狀態(tài),加載下一個(gè)進(jìn)程的狀態(tài)運(yùn)行。
??????
8.2 找到短時(shí)任務(wù),使用異步I/O實(shí)現(xiàn)
系統(tǒng)中的一些任務(wù)不能阻塞過(guò)長(zhǎng)的時(shí)間。這些任務(wù)一般和外界事件完成一個(gè)短期的交互過(guò)程(如圖形用戶(hù)界面或中斷驅(qū)動(dòng)的網(wǎng)絡(luò)接口器),為了提高效率和保證響應(yīng)速度,這些外部事件的處理一定不能阻塞。
實(shí)現(xiàn)這樣的短期任務(wù),要使用被動(dòng)對(duì)象[6]模型。被動(dòng)對(duì)象使用別人的控制線程(調(diào)用者的線程或者一個(gè)獨(dú)立的中斷棧)。因?yàn)樗麄儾荒艹r(shí)間的等待,不能被阻塞。不阻塞的主要目標(biāo)是保證其響應(yīng)時(shí)間(如高優(yōu)先級(jí)的硬件中斷,如時(shí)鐘中斷)。
實(shí)現(xiàn)一個(gè)結(jié)構(gòu)清晰的異步I/O框架,有多種方式。
× 使用反應(yīng)堆模式[6]實(shí)現(xiàn)多路事件的處理,反應(yīng)堆模式使用一個(gè)單線程的處理循環(huán),把多路的事件派發(fā)給多個(gè)處理者。這個(gè)模式組合了單線程處理循環(huán)的簡(jiǎn)單性和面向?qū)ο缶幊烫峁┑目蓴U(kuò)展性。反應(yīng)堆模式在一個(gè)線程(或進(jìn)程)中進(jìn)行順序的消息處理,常用來(lái)消除多線程同步和加鎖處理的復(fù)雜性。
一個(gè)反應(yīng)堆可以使用在同步或者異步的事件源上。但是它支持的事件處理者的行為要求是異步的。也就是說(shuō),為了不影響其它事件源的響應(yīng)效率,事件處理者是不能阻塞的。
×實(shí)現(xiàn)一個(gè)多級(jí)的中斷處理機(jī)構(gòu)。這種機(jī)構(gòu)下,當(dāng)更高級(jí)別的任務(wù)(如硬中斷)要求處理的時(shí)候,當(dāng)前的進(jìn)程可以被中斷。為了防止共享的狀態(tài)訪問(wèn)時(shí)被破壞,異步層使用的數(shù)據(jù)結(jié)構(gòu)必須被保護(hù)(例如提升處理器級(jí)別或使用信號(hào)量)。
× 例如,在一個(gè)操作系統(tǒng)內(nèi)核中,硬件中斷的服務(wù)時(shí)間很大程度上決定了對(duì)多級(jí)中斷處理機(jī)構(gòu)的需要。如果這個(gè)時(shí)間能夠顯著的減少,可以把所有的處理放到硬中斷的層次上,這樣就可以避免軟中斷的過(guò)度資源消耗。TCP/IP的實(shí)現(xiàn)中,就減少輸入包的協(xié)議處理時(shí)間化費(fèi),讓所有的包處理過(guò)程可以在兩級(jí)中斷機(jī)構(gòu)實(shí)現(xiàn)。
8.3 實(shí)現(xiàn)一個(gè)隊(duì)列層
隊(duì)列層包含了一個(gè)同步控制點(diǎn),緩存同步任務(wù)和異步任務(wù)之間交換的消息。在實(shí)現(xiàn)隊(duì)列層的時(shí)候,要注意下面幾點(diǎn):
× 并行控制。如果同步任務(wù)和異步任務(wù)的執(zhí)行是并行的(如論使用多CPU還是硬件中斷),為了避免爭(zhēng)用,共享的隊(duì)列的狀態(tài)變化必須是連續(xù)的。因此,實(shí)現(xiàn)隊(duì)列層的時(shí)候,經(jīng)常使用并行控制機(jī)制,如信號(hào)量,互斥體和條件變量等。當(dāng)消息在隊(duì)列中插入或刪除的時(shí)候,并行控制保證隊(duì)列的內(nèi)部數(shù)據(jù)結(jié)構(gòu)不被破壞。
×層到層之間的流量控制。在隊(duì)列層緩存消息,系統(tǒng)不能提供無(wú)限的資源。因此,必須控制同步和異步層之間傳輸?shù)臄?shù)據(jù)量。例如,在層到層的流控制下,避免同步層的數(shù)據(jù)量超過(guò)網(wǎng)絡(luò)接口能夠傳輸?shù)臉O限。
同步任務(wù)可以被阻塞。因此,可以使用下面的策略:如果其排隊(duì)超過(guò)一定的量,可以讓任務(wù)阻塞。當(dāng)異步任務(wù)層把排隊(duì)數(shù)降低到一定的水平,就可以重新喚醒同步任務(wù)繼續(xù)執(zhí)行。相對(duì)地,異步層地任務(wù)不能被阻塞,當(dāng)處理過(guò)量地?cái)?shù)據(jù)時(shí),隊(duì)列層要根據(jù)策略丟棄消息。這種情況下,如果使用了一個(gè)可靠的,面向連接的網(wǎng)絡(luò)協(xié)議,發(fā)送者最終會(huì)發(fā)現(xiàn)傳輸超時(shí),要求重新傳輸數(shù)據(jù)。
×數(shù)據(jù)拷貝消耗。一些系統(tǒng)(如BSD UNIX),把隊(duì)列層放到了用戶(hù)和內(nèi)核之間的保護(hù)邊界上。為了分離不同的保護(hù)域,一般使用拷貝數(shù)據(jù)的方法。然而,這增加了系統(tǒng)總線和內(nèi)存的負(fù)擔(dān)。當(dāng)大數(shù)據(jù)量的消息傳輸?shù)臅r(shí)候,這可能會(huì)降低很大的性能。
一種減少數(shù)據(jù)拷貝的方式:分配一個(gè)專(zhuān)用的內(nèi)存區(qū),這個(gè)內(nèi)存區(qū)被同步任務(wù)層和異步任務(wù)層共享[7]。這樣,兩層之間可以高效率的交換數(shù)據(jù),不需要拷貝。例如 [8],存在一個(gè)I/O子系統(tǒng),使用輪詢(xún)的中斷機(jī)制改進(jìn)連續(xù)的I/O流處理,最小化跨邊界數(shù)據(jù)傳送消耗。這種方法同時(shí)提供了一個(gè)緩存管理系統(tǒng),準(zhǔn)許高效率的頁(yè)影射,一個(gè)由用戶(hù)進(jìn)程,內(nèi)核,設(shè)備使用的共享內(nèi)存機(jī)構(gòu)。
9 例子代碼
這節(jié)說(shuō)明兩個(gè)使用半同步半異步模式的例子,這是在BSD UNIX中兩個(gè)不同部分。這些例子將說(shuō)明:半同步半異步模式如果讓用戶(hù)進(jìn)程同步操作,讓內(nèi)核進(jìn)程異步操作。第一個(gè)例子,在網(wǎng)絡(luò)子系統(tǒng)中使用這個(gè)模式,在以太網(wǎng)上處理通過(guò)TCP/IP協(xié)議棧輸入的數(shù)據(jù)。第二個(gè)例子,在文件系統(tǒng)上使用這個(gè)模式,在磁盤(pán)控制器上實(shí)現(xiàn)一個(gè)中斷驅(qū)動(dòng)的輸出過(guò)程。
9.1 BSD網(wǎng)絡(luò)子系統(tǒng)的例子
這個(gè)例子說(shuō)明了如何把半主動(dòng)半自動(dòng)模式應(yīng)用與read系統(tǒng)調(diào)用,實(shí)現(xiàn)同步的操作。異步地接收和處理到達(dá)網(wǎng)絡(luò)接口的數(shù)據(jù),同步完成read的調(diào)用。圖一 說(shuō)明了BSD UNIX中,這個(gè)模式的參與者和結(jié)構(gòu)。關(guān)于BSD UNIX網(wǎng)絡(luò)子系統(tǒng)的完整解釋,請(qǐng)參考[9].
9.1.1同步調(diào)用
考慮一個(gè)用戶(hù)進(jìn)程,創(chuàng)建了一個(gè)被動(dòng)模式的TCP流套接口,從連接的套接口描述子中接收TCP數(shù)據(jù)。對(duì)用戶(hù)進(jìn)程來(lái)說(shuō),read系統(tǒng)調(diào)用就是一個(gè)同步的操作,進(jìn)程調(diào)用然后數(shù)據(jù)返回。當(dāng)read被調(diào)用時(shí),它進(jìn)入操作系統(tǒng)內(nèi)核,進(jìn)入網(wǎng)絡(luò)套接口的實(shí)現(xiàn)代碼。最終,控制線程會(huì)進(jìn)入soreceive函數(shù),這個(gè)函數(shù)完成半同步部分的處理。soreceive負(fù)責(zé)把套接口隊(duì)列的數(shù)據(jù)傳遞給用戶(hù)。它必須能夠處理多種類(lèi)型的套接口(如數(shù)據(jù)報(bào)套接口和流套接口)。下面是簡(jiǎn)化后的樣子,重點(diǎn)強(qiáng)調(diào)了同步和異步任務(wù)層之間的邊界。
/* Receive data from a socket. */
int soreceive ( ... )
{
??? for (;;) {
??????? sblock (...); /* lock socket recv queue */
??????? /* mask off network interrupts to protect queue */
??????? s = splnet ();
??????? if (not enough data to satisfy read request) {
??????????? sbunlock (...); /* unlock socket queue */
??????????? /***** Note! *****
??????????? * The following call forms the boundary
??????????? * between the Sync and Async layers. */
??????????? sbwait (...); /* wait for data */
??????????? splx (s); /* drop splnet */
??????? }
??????? else
??????????? break;
??? }
??? splx (s); /* drop splnet */
??? /* copy data to user’s buffer at normal priority */
??? uiomove (...);
??? s = splnet (); /* mask off network interrupts */
??? sbunlock (...); /* unlock socket queue */
??? splx (s); /* restore spl */
??? return (error code); /* returns 0 if no error */
}
上面的代碼展示了同步的用戶(hù)進(jìn)程和異步的內(nèi)核進(jìn)程之間的邊界。用戶(hù)進(jìn)程可以阻塞等待數(shù)據(jù),內(nèi)核卻不能被掛起,因?yàn)槠渌挠脩?hù)進(jìn)程或硬件設(shè)備需要它的服務(wù)。
soreceive處理read的請(qǐng)求有多種方式,這取決于套接口的屬性和當(dāng)前隊(duì)列中的數(shù)據(jù)。
×完全同步。如果用戶(hù)請(qǐng)求的數(shù)據(jù)已經(jīng)在套接口隊(duì)列中,數(shù)據(jù)將被立即取出,同步地完成操作。
×半同步半異步。如果請(qǐng)求的數(shù)據(jù)還沒(méi)有到達(dá)內(nèi)核,內(nèi)核將調(diào)用sbwait函數(shù),讓用戶(hù)進(jìn)程阻塞至數(shù)據(jù)到達(dá)。
一旦sbwait讓進(jìn)程進(jìn)入隨眠狀態(tài),操作系統(tǒng)的調(diào)度者會(huì)立即把上下文切換到其它進(jìn)程運(yùn)行。但原來(lái)的用戶(hù)進(jìn)程看起來(lái),read系統(tǒng)調(diào)用是同步執(zhí)行的。當(dāng)包含數(shù)據(jù)的包到達(dá)內(nèi)核時(shí),將被異步處理,見(jiàn)9.1.2的描述。當(dāng)足夠多的數(shù)據(jù)到達(dá)隊(duì)列后,內(nèi)核將喚醒原來(lái)的進(jìn)程進(jìn)行處理。
9.1.2 異步數(shù)據(jù)接收和協(xié)議處理
當(dāng)異步數(shù)據(jù)包到達(dá)網(wǎng)絡(luò)接口的時(shí)候,半異步部分啟動(dòng)。所有輸入的包在中斷處理例程中處理。中斷處理,沒(méi)有進(jìn)程上下文也沒(méi)有控制線程,這期間是不能睡眠(被阻塞)的。因此,一個(gè)中斷處理例程必須借用調(diào)用者所在的控制線程(例如,它的運(yùn)行棧和寄存器)執(zhí)行。BSD UNIX 內(nèi)核使用這個(gè)策略,借用發(fā)起系統(tǒng)調(diào)用的用戶(hù)線程。
許多中斷驅(qū)動(dòng)的計(jì)算機(jī)給中斷分配優(yōu)先級(jí)。例如,在SPARC體系中,一共有15個(gè)中斷級(jí)別,最低的是Level 1 最高的是Level 15。其它的處理器有不同的級(jí)別數(shù)(例如,Motorola 68030有7個(gè)中斷級(jí)別)。在BSD UNIX中,設(shè)計(jì)了與機(jī)器無(wú)關(guān)的中斷級(jí)別,叫SPL級(jí)別(SPL這個(gè)詞原于古老的PDP-11機(jī)器上的UNIX系統(tǒng)),把每個(gè)處理器特有的級(jí)別將影射到這個(gè)SPL級(jí)別上。例如,最高的網(wǎng)絡(luò)中斷級(jí)別為SPLIMP,時(shí)鐘中斷為SPLCLOCK,最高的系統(tǒng)中斷級(jí)別是SPLHIGH。每一個(gè)中斷級(jí)別對(duì)應(yīng)一個(gè)函數(shù)名字,這個(gè)函數(shù)完成處理器對(duì)應(yīng)中斷級(jí)別的設(shè)置。所以,函數(shù)splimp調(diào)用后,將把所有的網(wǎng)絡(luò)硬件中斷排除在外。所有的spl*函數(shù)返回上一個(gè)處理器級(jí)別,這個(gè)值供恢復(fù)使用。
傳統(tǒng)的BSD UNIX版本使用兩級(jí)的中斷結(jié)構(gòu)進(jìn)行數(shù)據(jù)包的處理。硬件級(jí)關(guān)鍵處理在高級(jí)別(SPLIMP)上完成,較不關(guān)鍵的軟件處理在低級(jí)別(SPLNET)上完成。這種兩個(gè)級(jí)別的體系,防止軟件協(xié)議處理的過(guò)度消耗對(duì)硬中斷處理造成延時(shí)。兩個(gè)級(jí)別的包處理體系自然分成了兩部分:硬件相關(guān)的處理和軟件協(xié)議處理。當(dāng)一個(gè)包到達(dá)網(wǎng)絡(luò)接口時(shí),產(chǎn)生那個(gè)接口級(jí)別的中斷,所有網(wǎng)絡(luò)接口的中斷優(yōu)先級(jí)<=SPLIMP。操作系統(tǒng)處理硬件的中斷,把進(jìn)入的數(shù)據(jù)包交給協(xié)議層處理(如IP協(xié)議)。當(dāng)硬中斷的處理完成,并且沒(méi)有其它的未處理完的高級(jí)別中斷,較低級(jí)別的軟件中斷(SPLNET)開(kāi)始進(jìn)行剩余的協(xié)議的處理。BSD的內(nèi)核被小心的設(shè)計(jì),保證在軟中斷處理的過(guò)程中,如果又發(fā)生硬中斷,不會(huì)造成數(shù)據(jù)丟失和緩存被破壞的情況。
考慮一個(gè)例子,一個(gè)主機(jī)安裝了AMD LANCE的以太網(wǎng)卡,這個(gè)設(shè)備的驅(qū)動(dòng)名字叫“l(fā)e”。當(dāng)數(shù)據(jù)到達(dá)的時(shí)候,中斷處理中l(wèi)erint函數(shù)被調(diào)用。它的工作是確認(rèn)和清除中斷,從包中提取數(shù)據(jù),把數(shù)據(jù)拷貝到名字為mbuf的內(nèi)存緩存區(qū)。如下:
int lerint (...)
{
/* perform hardware sanity checks */
while (inbound buffers to process) {
???? /* get length and clear interrupt ... */
???? /* read the packet into mbufs */
???? ether_input (interface, ether_type, packet);
???? /* free buffer */
}
}
mbuf被傳遞給以太函數(shù)ether_init
int ether_input (char *intf, int etype, struct mbuf *packet)
{
?? switch (etype) {
????? case ETHERTYPE_IP:
????? /* schedule network interrupt */
?????? schednetisr (NETISR_IP);
?????? inq = &ipintrq;
????? break;
????? /* etc... */
?? }
?? s = splimp ();
?? /* Try to insert the packet onto the IP queue. */
?? if (IF_QFULL (inq)) {
????? /* queue full, drop packet */
????? IF_DROP (inq);
????? m_freem (packet);
?? }else
????? /* queue packet for net interrupt */
????? IF_ENQUEUE (inq, m);
????? splx (s);
}
每一個(gè)網(wǎng)絡(luò)協(xié)議擁有一個(gè)數(shù)據(jù)包隊(duì)列(例如,IP 包隊(duì)列),ether_input函數(shù)先檢測(cè)應(yīng)該使用哪一個(gè)網(wǎng)絡(luò)協(xié)議,把數(shù)據(jù)包入隊(duì)到正確的協(xié)議的隊(duì)列中。然后,一個(gè)軟中斷發(fā)生,這個(gè)中斷是較低的SPLNET級(jí)別。到了這里,硬件中斷的處理已經(jīng)完成,中斷服務(wù)例程退出。
硬中斷完成后,當(dāng)沒(méi)有更高級(jí)別中斷的時(shí)候,SPLNET級(jí)別的軟中斷發(fā)生。如果輸入的數(shù)據(jù)包是一個(gè)IP數(shù)據(jù)包,內(nèi)核將調(diào)用IP中斷例程(ipintr)。在這個(gè)例程中進(jìn)行IP協(xié)議的處理(如:消息頭解析,包轉(zhuǎn)發(fā),分解和重組)。如果數(shù)據(jù)包確定要發(fā)給本機(jī)的進(jìn)程,把數(shù)據(jù)包傳遞給傳輸層。傳輸層會(huì)進(jìn)行更多的協(xié)議處理(如TCP協(xié)議級(jí)的重組和確認(rèn))。最終傳輸層把數(shù)據(jù)放到套接口隊(duì)列中,調(diào)用sbwakeup,這個(gè)調(diào)用將喚醒原來(lái)的用戶(hù)進(jìn)程,這個(gè)進(jìn)程之前在 soreceive調(diào)用中阻塞。當(dāng)這些工作完成,軟中斷的包處理完成。
下面的代碼對(duì)ipintr的處理流程進(jìn)行了說(shuō)明,從tcp_input,到sowakeup,組成了同步和異步層的邊界,第一個(gè)函數(shù)ipintr,處理輸入的數(shù)據(jù)包。
int ipintr (...)
{
?? int s;
?? struct mbuf *m;
?? /* loop, until there are no more packets */
?? for (;;) {
???? s = splimp ();
???? IF_DEQUEUE (&ipintrq, m); /* dequeue next packet */
???? splx(s);
???? if (m == 0) return; /* return if no more packets */
???? if (packet not for us) {
???????? /* route and forward packet */
???? } else {
??????? /* packet for us... reassemble */
??????? /* call protocol input, which is tcp_input() */
??????? (*inetsw[ip_protox[ip->ip_p]].pr_input)(m, hlen);
???? }
?? }
}
在我們的例子中,要處理的是一個(gè)TCP/IP的包,inetsw函數(shù)會(huì)根據(jù)判斷結(jié)果調(diào)用tcp_input函數(shù)。這個(gè)函數(shù)處理一個(gè)輸入的TCP數(shù)據(jù)包。
int tcp_input (m, iphlen)
{
?? /* lots of complicated protocol processing... */
?? /* We come here to pass data up to the user */
?? sbappend (&so->so_rcv, m);
?? sowakeup((so), &(so)->so_rcv);
?? /* ... */
}
函數(shù)sowakeup將喚醒在read調(diào)用中睡眠的用戶(hù)進(jìn)程,這個(gè)進(jìn)程之前一直在等待數(shù)據(jù)包的到達(dá)。在下面一節(jié)的討論中將會(huì)看到,這個(gè)函數(shù)組成了同步和異步層的邊界。
9.1.3 同步階段的完成
當(dāng)數(shù)據(jù)添加到隊(duì)列后,如果有一個(gè)用戶(hù)進(jìn)程正在睡眠中等待這個(gè)數(shù)據(jù),sowakeup函數(shù)將被調(diào)用。
void sowakeup (so, sb)
{
?? /* ... */
?? if (a user process is asleep on this queue) {
????? /***** Note! *****
????? The following call forms the boundary
????? between the Async and Sync layers. */
????? wakeup ((caddr_t) &sb->sb_cc);
?? }
}
當(dāng)一個(gè)進(jìn)程陷入睡眠后,進(jìn)程會(huì)和一個(gè)“Handle”綁定在一起。要喚醒這個(gè)睡眠的進(jìn)程,wakeup以這個(gè)Handle為參數(shù)。一個(gè)等待事件的線程,一般使用和這個(gè)事件相關(guān)的數(shù)據(jù)結(jié)構(gòu)的地址作為Handle。在我們的例子中,套接口接收隊(duì)列的地址(sb->sc_cc)作為Handle。
如果套接口隊(duì)列上沒(méi)有等待數(shù)據(jù)的進(jìn)程,什么也不會(huì)發(fā)生。在我們的例子中,如9.1.1的說(shuō)明,原來(lái)的進(jìn)程阻塞在soreceive調(diào)用上。內(nèi)核將要喚醒這個(gè)進(jìn)程,它循環(huán)檢測(cè)是否有足夠多的數(shù)據(jù)到達(dá)供read使用。如果足夠的數(shù)據(jù)到達(dá),soreceive把數(shù)據(jù)拷貝到用戶(hù)的緩沖區(qū),系統(tǒng)調(diào)用read將會(huì)返回。
對(duì)應(yīng)用戶(hù)進(jìn)程,read調(diào)用看起來(lái)就是同步的。然而,這不過(guò)是半同步半異步模式造成的幻覺(jué)。特別地,異步進(jìn)程和上下文的切換,在用戶(hù)進(jìn)程睡眠的過(guò)程中默默地發(fā)生。注意,內(nèi)核不會(huì)阻塞,會(huì)一直在干活,總有一些東西在運(yùn)行,哪怕是空閑進(jìn)程行。
9.2 磁盤(pán)控制器的例子
這個(gè)例子說(shuō)明了在BSD UNIX的文件子系統(tǒng)中使用半主動(dòng)半被動(dòng)模式的情況。上面的例子說(shuō)明了這個(gè)模式中,數(shù)據(jù)在網(wǎng)絡(luò)接口卡輸入通過(guò)TCP/IP的協(xié)議棧一直傳遞到用戶(hù)進(jìn)程。下面這個(gè)例子將說(shuō)明如何輸出數(shù)據(jù),數(shù)據(jù)來(lái)自用戶(hù)的進(jìn)程,通過(guò)了BSD UNIX 的I/O子系統(tǒng), 最后到達(dá)磁盤(pán)。
訪問(wèn)UNIX的磁盤(pán)類(lèi)的存儲(chǔ)設(shè)備,有兩種方式。一種是通過(guò)/dev下的塊設(shè)備文件,另外一種是通過(guò)字符設(shè)備文件。通過(guò)塊設(shè)備文件訪問(wèn)的時(shí)候,要通過(guò)一個(gè)軟件實(shí)現(xiàn)的磁盤(pán)塊緩存區(qū)。與此相反,通過(guò)字符設(shè)備(叫“raw”I/O)訪問(wèn)的時(shí)候,會(huì)繞過(guò)緩存系統(tǒng)直接進(jìn)行I/O操作。掛接一個(gè)文件系統(tǒng)前,Raw I/O往往用來(lái)做完整性檢查。一些用戶(hù)級(jí)別的數(shù)據(jù)庫(kù),想自己實(shí)現(xiàn)磁盤(pán)緩存機(jī)制,也會(huì)使用raw I/O。
9.2.1 同步調(diào)用
如果一個(gè)進(jìn)程打開(kāi)一個(gè)字符設(shè)備文件(例如:/dev/rdk0a),進(jìn)行一個(gè)寫(xiě)動(dòng)作,當(dāng)設(shè)備驅(qū)動(dòng)真正完成寫(xiě)動(dòng)作后才會(huì)結(jié)束。這是半同步的處理部分,多數(shù)原始磁盤(pán)設(shè)備有一個(gè)write動(dòng)作的執(zhí)行入口點(diǎn),入口點(diǎn)作為一個(gè)全局I/O的例程存儲(chǔ)在全局的cdevsw向量中。如下所示。
/* Do a write on a device for a user process. */
int raw_write (dev_t dev, struct uio *uio)
{
??? return physio (cdevsw[major(dev)].d_strategy,
?????????????????? (struct buf *) NULL,
?????????????????? dev, B_WRITE, minphys, uio);
}
這個(gè)函數(shù)同步調(diào)用了physio,physio在用戶(hù)進(jìn)程的請(qǐng)求下完成物理I/O動(dòng)作,物理I/O直接從裸設(shè)備寫(xiě)入到用戶(hù)緩存區(qū),繞過(guò)系統(tǒng)的高速緩存。如下實(shí)現(xiàn)
int physio (int (*strategy)(),
??????????? struct buf *bp,
??????????? dev_t dev,
??????????? int flags,
??????????? u_int (*minphys)(),
??????????? struct uio *uio)
{
??? struct iovec *iovp;
??? struct proc *p = curproc;
??? int error, done, i, nobuf, s, todo;
??? /* ... */
??? /* read and write, from above */
??? flags &= B_READ | B_WRITE;
??? bp->b_flags = B_BUSY | B_PHYS | B_RAW | flags;
??? /* call driver's strategy to start the transfer */
??? (*strategy) (bp);
??? /***** Note! *****
???? The following call forms the boundary
???? between the Sync and Async layers. */
???? while ((bp->b_flags & B_DONE) == 0)
???????? /* Wait for the transfer to complete */
???????? tsleep ((caddr_t) bp, PRIBIO + 1, "physio", 0);
???? /* ... */
}
這個(gè)physio例程使用一個(gè)用戶(hù)緩沖區(qū),一個(gè)設(shè)備和設(shè)備的strategy函數(shù)指針作為參數(shù)。這個(gè)例程的任務(wù)是:發(fā)起一個(gè)讀或?qū)懖僮?#xff0c;然后立即返回。因?yàn)閳?zhí)行用戶(hù)緩沖去的指針是用戶(hù)提供的,第一步必須認(rèn)。一旦確認(rèn),就把緩沖區(qū)封裝到一個(gè)buf的結(jié)構(gòu)體中。buf結(jié)構(gòu)體的標(biāo)志被設(shè)置說(shuō)明其是一個(gè)寫(xiě)還是一個(gè)讀操作。同時(shí)有標(biāo)志說(shuō)明了這是一個(gè)raw I/O的操作。當(dāng)buf的結(jié)構(gòu)體設(shè)置好,就傳遞到strategy,這個(gè)例程調(diào)度I/O操作并返回。下一步,physio睡眠直到I/O操作完成。
9.2.2 異步處理
帶緩存的和raw I/O的請(qǐng)求,都是同步的進(jìn)入設(shè)備的驅(qū)動(dòng),通過(guò)strategy函數(shù)。
void strategy (struct buf *bp)
{
/* ... */
s = splbio (); /* protect the queues */
/* sort the buffer structure into the
driver's queue (e.g., using disksort()) */
if (drive is busy) { splx (s); return; }
????? /* flow control is here.... if the
????? drive is busy the request stays in the queue */
????? /* start first request on the queue */
????? /* done! */
????? splx (s);
????? return;
}
strategy被設(shè)計(jì)成通用的函數(shù),大部分設(shè)備的I/O都使用這個(gè)接口。上面的例子假定驅(qū)動(dòng)一次只處理一個(gè)請(qǐng)求。一個(gè)設(shè)備可能在一個(gè)時(shí)間處理多個(gè)請(qǐng)求,在這種情況下,需要使用多個(gè)列表保存哪一個(gè)緩存區(qū)是激活的,哪一個(gè)正在等待I/O。???????????
??????????
9.2.3 同步完成階段。
當(dāng)磁盤(pán)控制器完成操作后,會(huì)產(chǎn)生中斷。這將觸發(fā)一個(gè)中斷處理例程,這個(gè)例程聯(lián)系了同步任務(wù)層和異步任務(wù)層。如下面的代碼
int intr (void *v)
{
???? struct buf *bp;
???? /* get current request into "bp" */
???? /***** Note! *****
????? The following ties the Async layer back
????? into the Sync layer. */
???? biodone (bp); /* Wakeup the sleep in physio(). */
???? /* start next request on queue */
???? return (1); /* done */
}
這個(gè)中斷處理函數(shù),完成中斷服務(wù)并清除硬件中斷。查看驅(qū)動(dòng)的狀態(tài)表檢測(cè)一個(gè)I/O是不是完成。一個(gè)I/O的請(qǐng)求使用異步buf結(jié)構(gòu)描述,一旦boidone函數(shù)被調(diào)用,將通知高一級(jí)的內(nèi)核軟件,write請(qǐng)求已經(jīng)完成。這會(huì)導(dǎo)致進(jìn)程的tsleep調(diào)用返回。
10 變化
使用半同步半異步模式的傳統(tǒng)方式是:來(lái)自異步任務(wù)層的輸入使用“pash-driver”的I/O,來(lái)自同步任務(wù)層的輸入使用“pull-driver”的I/O,處理輸出使用相反的方式。在一些系統(tǒng)中有下面的變化。
×組合異步通知和同步I/O。當(dāng)數(shù)據(jù)在排隊(duì)層緩存后,通知同步層。UNIX的SIGIO就是實(shí)現(xiàn)的這種信號(hào)驅(qū)動(dòng)的I/O。在這種情況下,一個(gè)信號(hào)發(fā)給上層的用戶(hù)進(jìn)程,然后用戶(hù)進(jìn)程使用read讀出數(shù)據(jù)。
×當(dāng)要求異步處理的時(shí)候新產(chǎn)生線程。組合異步通知和同步I/O的另外一種方式,當(dāng)異步事件發(fā)生的時(shí)候產(chǎn)生一個(gè)新的線程。
× 在上層任務(wù)中使用異步I/O。一些系統(tǒng)擴(kuò)展了原來(lái)的模型,準(zhǔn)許把傳遞數(shù)據(jù)的通知發(fā)給上層任務(wù)。UNIX SYSTEM V 的第4版本使用這種方法擴(kuò)展了信號(hào)接口。一個(gè)緩沖區(qū)指針作為信號(hào)處理函數(shù)的參數(shù)傳遞。Windows NT 使用重疊I/O的方式實(shí)現(xiàn)了相似的結(jié)構(gòu)。這種結(jié)構(gòu)中,一個(gè)異步事件中包含一個(gè)重疊的IO結(jié)構(gòu),結(jié)構(gòu)中包含完成事件的標(biāo)識(shí)和對(duì)應(yīng)的數(shù)據(jù)。
× 底層任務(wù)實(shí)現(xiàn)同步的I/O。單線程的操作系統(tǒng)(如BSD UNIX)。通常只對(duì)上層的任務(wù)使用混合的同步/異步模型。在這些系統(tǒng)中,底層的任務(wù)必須嚴(yán)格的使用異步I/O。如果使用線程實(shí)現(xiàn)上下文切換,系統(tǒng)準(zhǔn)許在內(nèi)核中使用同步的I/O。在高性能的媒體系統(tǒng)中,使用一個(gè)內(nèi)核線程在固定的時(shí)間輪詢(xún)共享內(nèi)存特定的域,使用這種輪詢(xún)的中斷機(jī)制,可以減少上下文切換。
如果異步任務(wù)層擁有自己的控制線程,他可以自動(dòng)運(yùn)行把消息通過(guò)隊(duì)列層傳遞給同步任務(wù)層。微內(nèi)核操作系統(tǒng)一般使用這種設(shè)計(jì)。在微內(nèi)核中使用一個(gè)獨(dú)立的進(jìn)程和用戶(hù)進(jìn)程交換數(shù)據(jù)。
11 Known Uses
×The BSD UNIX networking subsystem [1] and the original System V UNIX STREAMS communication framework [12] use the Half-Sync/Half-Async pattern to structure the concurrent I/O architecture of user processes and the OS kernel. All I/O in these kernels is asynchronous and triggered by interrupts. The Queueing layer is implemented by the Socket layer in BSD and by STREAM heads in System V STREAMS. I/O for user processes is synchronous. Most UNIX applications are developed as user processes that call the synchronous higher-level read/write interfaces. This design shields developers from the complexity of asynchronous OS handled by the kernel. There are provisions for notifications (via the SIGIO signal) that asynchronously trigger synchronous I/O.
×The multi-threaded version of Orbix 1.3 (MT-Orbix) [13] uses several variations of the Half-Sync/Half-Async pattern to dispatch CORBA remote operations in a concurrent server. In the Asynchronous layer of MTOrbix a separate thread is associated with each HANDLE that is connected to a client. Each thread blocks synchronously readingCORBArequests from the client. When a request is received it is formatted and then enqueued at the Queueing layer. An active object thread in the Synchronous layer then wakes up, dequeues the request, and processes it to completion by performing an upcall on the CORBA object implementation.
×The Motorola Iridium system uses the Half-Sync/Half-Async pattern in an application-level Gateway that routes messages between satellites and ground control stations [14]. The Iridium Gateway implements the Half-Sync/Half-Async pattern with the ADAPTIVE Service eXecutive (ASX) framework [15]. The Reactor [6] class category from the ASX framework implements an object-oriented demultiplexing and dispatching mechanism that handles events asynchronously. The ASX Message Queue class implements the Queueing layer, and the ASX Task class implements active objects in the Synchronous task layer.
×The Conduit communication framework [16] from the Choices OS project [17] implements an object-oriented version of the Half-Sync/Half-Async pattern. User processes are synchronous active objects, an Adapter Conduit serves as the Queueing layer, and the Conduit micro-kernel operates asynchronously.?
12 Related Patterns
×The Synchronous task layer uses the Active Object pattern[3].(這個(gè)模式,我也已經(jīng)翻譯了)
×The Asynchronous task layer may use the Reactor pattern [6] to demultiplex events from multiple sources of events.
×The Queueing layer provides a Facade [18] that simplifies the interface to the Asynchronous task layer of the system.
×The Queueing layer is also a Mediator [18] that coordinates the exchange of data between the Asynchronous and Synchronous task layers.
Acknowledgements
We would like to thank Lorrie Cranor and Paul McKenney for comments and suggestions for improving this paper.
References
[1] S. J. Leffler,M.McKusick,M. Karels, and J.Quarterman, The Design and Implementation of the 4.3BSD UNIX Operating System. Addison-Wesley, 1989.
[2] D. C. Schmidt and T. Suda, "Measuring the Performance of Parallel Message-based Process Architectures," in Proceedings of the Conference on Computer Communications (INFOCOM),(Boston, MA), pp. 624-633, IEEE, April 1995.
[3] R. G. Lavender and D. C. Schmidt, "Active Object: an Object Behavioral Pattern for Concurrent Programming," in Proceedings of the 2nd Annual Conference on the Pattern Languages of Programs, (Monticello, Illinois), pp. 1-7, September 1995.
[4] N. C. Hutchinson and L. L. Peterson, "The x-kernel: An Architecture for ImplementingNetwork Protocols," IEEE Transactions on Software Engineering, vol. 17, pp. 64-76, January 1991.
[5] D. C. Schmidt, T. H. Harrison, and E. Al-Shaer, "Object-Oriented Components for High-speed Network Programming,"in Proceedings of the 1st Conference on Object-Oriented Technologies and Systems, (Monterey, CA),USENIX, June 1995.
[6] D. C. Schmidt, "Reactor: An Object Behavioral Pattern for Concurrent Event Demultiplexing and Event Handler Dispatching," in Pattern Languages of Program Design (J. O.Coplien and D. C. Schmidt, eds.), Reading, MA: Addison-Wesley, 1995.
[7] P. Druschel and L. L. Peterson, "Fbufs: A High-Bandwidth Cross-Domain Transfer Facility," in Proceedings of the 14th Symposium on Operating System Principles (SOSP), Dec.1993.
[8] C. Cranor and G. Parulkar, Design of Universal Continuous Media I/O, in Proceedings of the 5th InternationalWorkshop on Network and Operating Systems Support for Digital Audio and Video (NOSSDAV (Durham, New Hampshire),pp. 83-86, Apr. 1995.
[9] W. R. Stevens, TCP/IP Illustrated, Volume 2. Reading, Massachusetts:AddisonWesley, 1993.
[10] H. Custer, Inside Windows NT. Redmond, Washington: MicrosoftPress, 1993.
[11] D. L. Black, "Scheduling Support for Concurrency and Parallelism in the Mach Operating System, IEEE Computer,vol. 23, pp. 23-33,May 1990.
[12] D. Ritchie, A Stream Input-Output System,"AT&TBell Labs Technical Journal, vol. 63, pp. 311-314,Oct. 1984.
[13] C. Horn, "The Orbix Architecture," tech. rep., IONA Technologies,August 1993.
[14] D. C. Schmidt, A Family of Design Patterns for Applicationlevel Gateways," The Theory and Practice of Object Systems (Special Issue on Patterns and Pattern Languages), vol. 2, no. 1, 1996.
[15] D. C. Schmidt, "ACE: an Object-Oriented Framework for Developing Distributed Applications, Proceedings of the 6th USENIX C++ Technical Conference, (Cambridge, Massachusetts),USENIX Association, April 1994.
[16] J. M. Zweig, "The Conduit: a Communication Abstraction in C++," in Proceedings of the 2nd USENIX C++ Conference,pp. 191-203,USENIX Association, April 1990.
[17] R. Campbell, N. Islam, D. Raila, and P. Madany, "Designing and Implementing Choices: an Object-Oriented System in C++," Communications of the ACM, vol. 36, pp. 117-126,Sept. 1993.
[18] E. Gamma, R. Helm, R. Johnson, and J. Vlissides, Design Patterns: Elements of Reusable Object-Oriented Software.Reading,MA: Addison-Wesley, 1995.總結(jié)
- 上一篇: 人工智能之路学习计划
- 下一篇: 小程序开发之全栈开发(一)