深入Java集合学习系列:ConcurrentHashMap之实现细节
http://www.iteye.com/topic/344876
ConcurrentHashMap是Java 5中支持高并發(fā)、高吞吐量的線程安全HashMap實(shí)現(xiàn)。在這之前我對ConcurrentHashMap只有一些膚淺的理解,僅知道它采用了多個(gè)鎖,大概也足夠了。但是在經(jīng)過一次慘痛的面試經(jīng)歷之后,我覺得必須深入研究它的實(shí)現(xiàn)。面試中被問到讀是否要加鎖,因?yàn)樽x寫會(huì)發(fā)生沖突,我說必須要加鎖,我和面試官也因此發(fā)生了沖突,結(jié)果可想而知。還是閑話少說,通過仔細(xì)閱讀源代碼,現(xiàn)在總算理解ConcurrentHashMap實(shí)現(xiàn)機(jī)制了,其實(shí)現(xiàn)之精巧,令人嘆服,與大家共享之。
?
?
實(shí)現(xiàn)原理?
?
鎖分離 (Lock Stripping)
?
ConcurrentHashMap允許多個(gè)修改操作并發(fā)進(jìn)行,其關(guān)鍵在于使用了鎖分離技術(shù)。它使用了多個(gè)鎖來控制對hash表的不同部分進(jìn)行的修改。ConcurrentHashMap內(nèi)部使用段(Segment)來表示這些不同的部分,每個(gè)段其實(shí)就是一個(gè)小的hash table,它們有自己的鎖。只要多個(gè)修改操作發(fā)生在不同的段上,它們就可以并發(fā)進(jìn)行。
?
有些方法需要跨段,比如size()和containsValue(),它們可能需要鎖定整個(gè)表而而不僅僅是某個(gè)段,這需要按順序鎖定所有段,操作完畢后,又按順序釋放所有段的鎖。這里“按順序”是很重要的,否則極有可能出現(xiàn)死鎖,在ConcurrentHashMap內(nèi)部,段數(shù)組是final的,并且其成員變量實(shí)際上也是final的,但是,僅僅是將數(shù)組聲明為final的并不保證數(shù)組成員也是final的,這需要實(shí)現(xiàn)上的保證。這可以確保不會(huì)出現(xiàn)死鎖,因?yàn)楂@得鎖的順序是固定的。不變性是多線程編程占有很重要的地位,下面還要談到。
?
Java代碼???
不變(Immutable)和易變(Volatile)
?
ConcurrentHashMap完全允許多個(gè)讀操作并發(fā)進(jìn)行,讀操作并不需要加鎖。如果使用傳統(tǒng)的技術(shù),如HashMap中的實(shí)現(xiàn),如果允許可以在hash鏈的中間添加或刪除元素,讀操作不加鎖將得到不一致的數(shù)據(jù)。ConcurrentHashMap實(shí)現(xiàn)技術(shù)是保證HashEntry幾乎是不可變的。HashEntry代表每個(gè)hash鏈中的一個(gè)節(jié)點(diǎn),其結(jié)構(gòu)如下所示:
?
Java代碼??可以看到除了value不是final的,其它值都是final的,這意味著不能從hash鏈的中間或尾部添加或刪除節(jié)點(diǎn),因?yàn)檫@需要修改next引用值,所有的節(jié)點(diǎn)的修改只能從頭部開始。對于put操作,可以一律添加到Hash鏈的頭部。但是對于remove操作,可能需要從中間刪除一個(gè)節(jié)點(diǎn),這就需要將要?jiǎng)h除節(jié)點(diǎn)的前面所有節(jié)點(diǎn)整個(gè)復(fù)制一遍,最后一個(gè)節(jié)點(diǎn)指向要?jiǎng)h除結(jié)點(diǎn)的下一個(gè)結(jié)點(diǎn)。這在講解刪除操作時(shí)還會(huì)詳述。為了確保讀操作能夠看到最新的值,將value設(shè)置成volatile,這避免了加鎖。
?
其它
?
為了加快定位段以及段中hash槽的速度,每個(gè)段hash槽的的個(gè)數(shù)都是2^n,這使得通過位運(yùn)算就可以定位段和段中hash槽的位置。當(dāng)并發(fā)級(jí)別為默認(rèn)值16時(shí),也就是段的個(gè)數(shù),hash值的高4位決定分配在哪個(gè)段中。但是我們也不要忘記《算法導(dǎo)論》給我們的教訓(xùn):hash槽的的個(gè)數(shù)不應(yīng)該是2^n,這可能導(dǎo)致hash槽分配不均,這需要對hash值重新再hash一次。(這段似乎有點(diǎn)多余了?)
?
這是重新hash的算法,還比較復(fù)雜,我也懶得去理解了。
Java代碼???
這是定位段的方法:
Java代碼???
?
數(shù)據(jù)結(jié)構(gòu)
?
關(guān)于Hash表的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),這里不想做過多的探討。Hash表的一個(gè)很重要方面就是如何解決hash沖突,ConcurrentHashMap和HashMap使用相同的方式,都是將hash值相同的節(jié)點(diǎn)放在一個(gè)hash鏈中。與HashMap不同的是,ConcurrentHashMap使用多個(gè)子Hash表,也就是段(Segment)。下面是ConcurrentHashMap的數(shù)據(jù)成員:
?
Java代碼???
所有的成員都是final的,其中segmentMask和segmentShift主要是為了定位段,參見上面的segmentFor方法。
?
每個(gè)Segment相當(dāng)于一個(gè)子Hash表,它的數(shù)據(jù)成員如下:
?
Java代碼??count用來統(tǒng)計(jì)該段數(shù)據(jù)的個(gè)數(shù),它是volatile,它用來協(xié)調(diào)修改和讀取操作,以保證讀取操作能夠讀取到幾乎最新的修改。協(xié)調(diào)方式是這樣的,每次修改操作做了結(jié)構(gòu)上的改變,如增加/刪除節(jié)點(diǎn)(修改節(jié)點(diǎn)的值不算結(jié)構(gòu)上的改變),都要寫count值,每次讀取操作開始都要讀取count的值。這利用了Java 5中對volatile語義的增強(qiáng),對同一個(gè)volatile變量的寫和讀存在happens-before關(guān)系。modCount統(tǒng)計(jì)段結(jié)構(gòu)改變的次數(shù),主要是為了檢測對多個(gè)段進(jìn)行遍歷過程中某個(gè)段是否發(fā)生改變,在講述跨段操作時(shí)會(huì)還會(huì)詳述。threashold用來表示需要進(jìn)行rehash的界限值。table數(shù)組存儲(chǔ)段中節(jié)點(diǎn),每個(gè)數(shù)組元素是個(gè)hash鏈,用HashEntry表示。table也是volatile,這使得能夠讀取到最新的table值而不需要同步。loadFactor表示負(fù)載因子。
?
?
實(shí)現(xiàn)細(xì)節(jié)
?
修改操作
?
先來看下刪除操作remove(key)。
Java代碼??整個(gè)操作是先定位到段,然后委托給段的remove操作。當(dāng)多個(gè)刪除操作并發(fā)進(jìn)行時(shí),只要它們所在的段不相同,它們就可以同時(shí)進(jìn)行。下面是Segment的remove方法實(shí)現(xiàn):
Java代碼???整個(gè)操作是在持有段鎖的情況下執(zhí)行的,空白行之前的行主要是定位到要?jiǎng)h除的節(jié)點(diǎn)e。接下來,如果不存在這個(gè)節(jié)點(diǎn)就直接返回null,否則就要將e前面的結(jié)點(diǎn)復(fù)制一遍,尾結(jié)點(diǎn)指向e的下一個(gè)結(jié)點(diǎn)。e后面的結(jié)點(diǎn)不需要復(fù)制,它們可以重用。下面是個(gè)示意圖,我直接從這個(gè)網(wǎng)站?上復(fù)制的(畫這樣的圖實(shí)在是太麻煩了,如果哪位有好的畫圖工具,可以推薦一下)。
?
?
刪除元素之前:
?
?
?
刪除元素3之后:
?
第二個(gè)圖其實(shí)有點(diǎn)問題,復(fù)制的結(jié)點(diǎn)中應(yīng)該是值為2的結(jié)點(diǎn)在前面,值為1的結(jié)點(diǎn)在后面,也就是剛好和原來結(jié)點(diǎn)順序相反,還好這不影響我們的討論。
?
整個(gè)remove實(shí)現(xiàn)并不復(fù)雜,但是需要注意如下幾點(diǎn)。第一,當(dāng)要?jiǎng)h除的結(jié)點(diǎn)存在時(shí),刪除的最后一步操作要將count的值減一。這必須是最后一步操作,否則讀取操作可能看不到之前對段所做的結(jié)構(gòu)性修改。第二,remove執(zhí)行的開始就將table賦給一個(gè)局部變量tab,這是因?yàn)閠able是volatile變量,讀寫volatile變量的開銷很大。編譯器也不能對volatile變量的讀寫做任何優(yōu)化,直接多次訪問非volatile實(shí)例變量沒有多大影響,編譯器會(huì)做相應(yīng)優(yōu)化。
?
?
接下來看put操作,同樣地put操作也是委托給段的put方法。下面是段的put方法:
Java代碼??該方法也是在持有段鎖的情況下執(zhí)行的,首先判斷是否需要rehash,需要就先rehash。接著是找是否存在同樣一個(gè)key的結(jié)點(diǎn),如果存在就直接替換這個(gè)結(jié)點(diǎn)的值。否則創(chuàng)建一個(gè)新的結(jié)點(diǎn)并添加到hash鏈的頭部,這時(shí)一定要修改modCount和count的值,同樣修改count的值一定要放在最后一步。put方法調(diào)用了rehash方法,reash方法實(shí)現(xiàn)得也很精巧,主要利用了table的大小為2^n,這里就不介紹了。
?
修改操作還有putAll和replace。putAll就是多次調(diào)用put方法,沒什么好說的。replace甚至不用做結(jié)構(gòu)上的更改,實(shí)現(xiàn)要比put和delete要簡單得多,理解了put和delete,理解replace就不在話下了,這里也不介紹了。
?
?
獲取操作
?
首先看下get操作,同樣ConcurrentHashMap的get操作是直接委托給Segment的get方法,直接看Segment的get方法:
?
Java代碼???
get操作不需要鎖。第一步是訪問count變量,這是一個(gè)volatile變量,由于所有的修改操作在進(jìn)行結(jié)構(gòu)修改時(shí)都會(huì)在最后一步寫count變量,通過這種機(jī)制保證get操作能夠得到幾乎最新的結(jié)構(gòu)更新。對于非結(jié)構(gòu)更新,也就是結(jié)點(diǎn)值的改變,由于HashEntry的value變量是volatile的,也能保證讀取到最新的值。接下來就是對hash鏈進(jìn)行遍歷找到要獲取的結(jié)點(diǎn),如果沒有找到,直接訪回null。對hash鏈進(jìn)行遍歷不需要加鎖的原因在于鏈指針next是final的。但是頭指針卻不是final的,這是通過getFirst(hash)方法返回,也就是存在table數(shù)組中的值。這使得getFirst(hash)可能返回過時(shí)的頭結(jié)點(diǎn),例如,當(dāng)執(zhí)行g(shù)et方法時(shí),剛執(zhí)行完getFirst(hash)之后,另一個(gè)線程執(zhí)行了刪除操作并更新頭結(jié)點(diǎn),這就導(dǎo)致get方法中返回的頭結(jié)點(diǎn)不是最新的。這是可以允許,通過對count變量的協(xié)調(diào)機(jī)制,get能讀取到幾乎最新的數(shù)據(jù),雖然可能不是最新的。要得到最新的數(shù)據(jù),只有采用完全的同步。
?
最后,如果找到了所求的結(jié)點(diǎn),判斷它的值如果非空就直接返回,否則在有鎖的狀態(tài)下再讀一次。這似乎有些費(fèi)解,理論上結(jié)點(diǎn)的值不可能為空,這是因?yàn)閜ut的時(shí)候就進(jìn)行了判斷,如果為空就要拋NullPointerException。空值的唯一源頭就是HashEntry中的默認(rèn)值,因?yàn)镠ashEntry中的value不是final的,非同步讀取有可能讀取到空值。仔細(xì)看下put操作的語句:tab[index] = new HashEntry<K,V>(key, hash, first, value),在這條語句中,HashEntry構(gòu)造函數(shù)中對value的賦值以及對tab[index]的賦值可能被重新排序,這就可能導(dǎo)致結(jié)點(diǎn)的值為空。這種情況應(yīng)當(dāng)很罕見,一旦發(fā)生這種情況,ConcurrentHashMap采取的方式是在持有鎖的情況下再讀一遍,這能夠保證讀到最新的值,并且一定不會(huì)為空值。
?
Java代碼???
另一個(gè)操作是containsKey,這個(gè)實(shí)現(xiàn)就要簡單得多了,因?yàn)樗恍枰x取值:
Java代碼???
跨段操作?
?
有些操作需要涉及到多個(gè)段,比如說size(), containsValaue()。先來看下size()方法:
?
Java代碼???
size方法主要思路是先在沒有鎖的情況下對所有段大小求和,如果不能成功(這是因?yàn)楸闅v過程中可能有其它線程正在對已經(jīng)遍歷過的段進(jìn)行結(jié)構(gòu)性更新),最多執(zhí)行RETRIES_BEFORE_LOCK次,如果還不成功就在持有所有段鎖的情況下再對所有段大小求和。在沒有鎖的情況下主要是利用Segment中的modCount進(jìn)行檢測,在遍歷過程中保存每個(gè)Segment的modCount,遍歷完成之后再檢測每個(gè)Segment的modCount有沒有改變,如果有改變表示有其它線程正在對Segment進(jìn)行結(jié)構(gòu)性并發(fā)更新,需要重新計(jì)算。
?
?
其實(shí)這種方式是存在問題的,在第一個(gè)內(nèi)層for循環(huán)中,在這兩條語句sum += segments[i].count; mcsum += mc[i] = segments[i].modCount;之間,其它線程可能正在對Segment進(jìn)行結(jié)構(gòu)性的修改,導(dǎo)致segments[i].count和segments[i].modCount讀取的數(shù)據(jù)并不一致。這可能使size()方法返回任何時(shí)候都不曾存在的大小,很奇怪javadoc居然沒有明確標(biāo)出這一點(diǎn),可能是因?yàn)檫@個(gè)時(shí)間窗口太小了吧。size()的實(shí)現(xiàn)還有一點(diǎn)需要注意,必須要先segments[i].count,才能segments[i].modCount,這是因?yàn)閟egment[i].count是對volatile變量的訪問,接下來segments[i].modCount才能得到幾乎最新的值(前面我已經(jīng)說了為什么只是“幾乎”了)。這點(diǎn)在containsValue方法中得到了淋漓盡致的展現(xiàn):
?
?
Java代碼??同樣注意內(nèi)層的第一個(gè)for循環(huán),里面有語句int c = segments[i].count; 但是c卻從來沒有被使用過,即使如此,編譯器也不能做優(yōu)化將這條語句去掉,因?yàn)榇嬖趯olatile變量count的讀取,這條語句存在的唯一目的就是保證segments[i].modCount讀取到幾乎最新的值。關(guān)于containsValue方法的其它部分就不分析了,它和size方法差不多。
?
?
跨段方法中還有一個(gè)isEmpty()方法,其實(shí)現(xiàn)比size()方法還要簡單,也不介紹了。最后簡單地介紹下迭代方法,如keySet(), values(), entrySet()方法,這些方法都返回相應(yīng)的迭代器,所有迭代器都繼承于Hash_Iterator類(提交時(shí)居然提醒我不能包含sh It,只得加了下劃線),里實(shí)現(xiàn)了主要的方法。其結(jié)構(gòu)是:
?
Java代碼???
?nextSegmentIndex是段的索引,nextTableIndex是nextSegmentIndex對應(yīng)段中中hash鏈的索引,currentTable是nextSegmentIndex對應(yīng)段的table。調(diào)用next方法時(shí)主要是調(diào)用了advance方法:
?
?
Java代碼??不想再多介紹了,唯一需要注意的是跳到下一個(gè)段時(shí),一定要先讀取下一個(gè)段的count變量。?
?
這種迭代方式的主要效果是不會(huì)拋出ConcurrentModificationException。一旦獲取到下一個(gè)段的table,也就意味著這個(gè)段的頭結(jié)點(diǎn)在迭代過程中就確定了,在迭代過程中就不能反映對這個(gè)段節(jié)點(diǎn)并發(fā)的刪除和添加,對于節(jié)點(diǎn)的更新是能夠反映的,因?yàn)楣?jié)點(diǎn)的值是一個(gè)volatile變量。
?
結(jié)束語
?
ConcurrentHashMap是一個(gè)支持高并發(fā)的高性能的HashMap實(shí)現(xiàn),它支持完全并發(fā)的讀以及一定程度并發(fā)的寫。ConcurrentHashMap的實(shí)現(xiàn)也是很精巧,充分利用了最新的JMM規(guī)范,值得學(xué)習(xí),卻不值得模仿。最后由于本人水平有限,對大師的作品難免有誤解,如果存在,還望大牛們不吝指出。
?
?
?
?
參考文章:
http://www.ibm.com/developerworks/java/library/j-jtp08223/,這個(gè)是討論的是Doug Lea's util.concurrent包中的ConcurrentHashMap的實(shí)現(xiàn),不過大致思想是一致的。
?
http://floatingpoint.tinou.com/2008/09/performance-optimization-in-concurrenthashmap.html
?
轉(zhuǎn)載于:https://www.cnblogs.com/leeeee/p/7276060.html
總結(jié)
以上是生活随笔為你收集整理的深入Java集合学习系列:ConcurrentHashMap之实现细节的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Codeforces Round #32
- 下一篇: NES模拟器开发-PPU笔记