【深入Java虚拟机JVM 05】HotSpot对象探秘
?
說明:文章所有內容均摘自《深入理解Java虛擬機:JVM高級特性與最佳實踐(第二版)》
介紹完Java虛擬機的運行時數據區之后,我們大致知道了虛擬機內存的概況,讀者了解了內存中放了些什么后,也許就會想更進一步了解這些虛擬機內存中的數據的其他細節,譬如它們是如何創建、如何布局以及如何訪問的。對于這樣涉及細節的問題,必須把討論范圍限定在具體的虛擬機和集中在某一個內存區域上才有意義。基于實用優先的原則,筆者以常用的虛擬機HotSpot和常用的內存區域Java堆為例,深入探討HotSpot虛擬機在Java堆中對象分配、布局和訪問的全過程。
?
1.1 對象的創建
Java是一門面向對象的編程語言,在Java程序運行過程中無時無刻都有對象被創建出來。在語言層面上,創建對象(例如克隆、反序列化)通常僅僅是一個new關鍵字而已,而在虛擬機中,對象(文中討論的對象限于普通Java對象,不包括數組和Class對象等)的創建又是怎樣一個過程呢?
虛擬機遇到一條new指令時,首先將去檢查這個指令的參數是否能在常量池中定位到一個類的符號引用,并且檢查這個符號引用代表的類是否已被加載、解析和初始化過。如果沒有,那必須先執行相應的類加載過程,本書第7章將探討這部分內容的細節。
在類加載檢查通過后,接下來虛擬機將為新生對象分配內存。對象所需內存的大小在類加載完成后便可完全確定,為對象分配空間的任務等同于把一塊確定大小的內存從Java堆中劃分出來。
假設Java堆中內存是絕對規整的,所有用過的內存都放在一邊,空閑的內存放在另一邊,中間放著一個指針作為分界點的指示器,那所分配內存就僅僅是把那個指針向空閑空間那邊挪動一段與對象大小相等的距離,這種分配方式稱為“指針碰撞”(Bump the Pointer)。
如果Java堆中的內存并不是規整的,已使用的內存和空閑的內存相互交錯,那就沒有辦法簡單地進行指針碰撞了,虛擬機就必須維護一個列表,記錄上哪些內存塊是可用的,在分配的時候從列表中找到一塊足夠大的空間劃分給對象實例,并更新列表上的記錄,這種分配方式稱為“空閑列表”(Free ?List)。
選擇哪種分配方式由Java堆是否規整決定,而Java堆是否規整又由所采用的垃圾收集器是否帶有壓縮整理功能決定。因此,在使用Serial、ParNew等帶Compact過程的收集器時,系統采用的分配算法是指針碰撞,而使用CMS這種基于Mark-Sweep算法的收集器時,通常采用空閑列表。
除如何劃分可用空間之外,還有另外一個需要考慮的問題是對象創建在虛擬機中是非常頻繁的行為,即使是僅僅修改一個指針所指向的位置,在并發情況下也并不是線程安全的,可能出現正在給對象A分配內存,指針還沒來得及修改,對象B又同時使用了原來的指針來分配內存的情況。
解決這個問題有兩種方案:
- 一種是對分配內存空間的動作進行同步處理——實際上虛擬機采用CAS配上失敗重試的方式保證更新操作的原子性;
- 另一種是把內存分配的動作按照線程劃分在不同的空間之中進行,即每個線程在Java堆中預先分配一小塊內存,稱為本地線程分配緩沖(Thread Local Allocation Buffer,TLAB)。哪個線程要分配內存,就在哪個線程的TLAB上分配,只有TLAB用完并分配新的TLAB時,才需要同步鎖定。虛擬機是否使用TLAB,可以通過-XX:+/-UseTLAB參數來設定。
內存分配完成后,虛擬機需要將分配到的內存空間都初始化為零值(不包括對象頭),如果使用TLAB,這一工作過程也可以提前至TLAB分配時進行。這一步操作保證了對象的實例字段在Java代碼中可以不賦初始值就直接使用,程序能訪問到這些字段的數據類型所對應的零值。
接下來,虛擬機要對對象進行必要的設置,例如這個對象是哪個類的實例、如何才能找到類的元數據信息、對象的哈希碼、對象的GC分代年齡等信息。這些信息存放在對象的對象頭(Object Header)之中。根據虛擬機當前的運行狀態的不同,如是否啟用偏向鎖等,對象頭會有不同的設置方式。關于對象頭的具體內容,稍后再做詳細介紹。
在上面工作都完成之后,從虛擬機的視角來看,一個新的對象已經產生了,但從Java程序的視角來看,對象創建才剛剛開始——<init>方法還沒有執行,所有的字段都還為零。所以,一般來說(由字節碼中是否跟隨invokespecial指令所決定),執行new指令之后會接著執行<init>方法,把對象按照程序員的意愿進行初始化,這樣一個真正可用的對象才算完
全產生出來。
下面的代碼清單2-1是HotSpot虛擬機bytecodeInterpreter.cpp中的代碼片段(這個解釋器實現很少有機會實際使用,因為大部分平臺上都使用模板解釋器;當代碼通過JIT編譯器執行時差異就更大了。不過,這段代碼用于了解HotSpot的運作過程是沒有什么問題的)。
代碼清單2-1 HotSpot解釋器的代碼片段
//確保常量池中存放的是已解釋的類if(!constants ->tag_at(index).is_unresolved_klass()){//斷言確保是klassOop和instanceKlassOop(這部分下一節介紹)oop entry =(klassOop)*constants ->obj_at_addr(index);assert(entry ->is_klass(),"Should be resolved klass");klassOop k_entry =(klassOop)entry;assert(k_entry ->klass_part()->oop_is_instance(),"Should be instanceKlass");instanceKlass * ik =(instanceKlass *)k_entry ->klass_part();//確保對象所屬類型已經經過初始化階段if(ik ->is_initialized()&&ik ->can_be_fastpath_allocated()){//取對象長度size_t obj_size = ik ->size_helper();oop result = NULL;//記錄是否需要將對象所有字段置零值bool need_zero =!ZeroTLAB;//是否在TLAB中分配對象if(UseTLAB){result =(oop)THREAD ->tlab().allocate(obj_size);}if(result == NULL){need_zero = true;//直接在eden中分配對象retry:HeapWord * compare_to =*Universe:heap()->top_addr();HeapWord * new_top = compare_to + obj_size;/*cmpxchg是x86中的CAS指令,這里是一個C++方法,通過CAS方式分配空間,如果并發失敗,轉到retry中重試,直至成功分配為止*/if(new_top<=*Universe:heap()->end_addr()){if(Atomic:cmpxchg_ptr(new_top, Universe:heap()->top_addr(),compare_to)!=compare_to){goto retry;}result =(oop)compare_to;}}if(result!=NULL){//如果需要,則為對象初始化零值if(need_zero){HeapWord * to_zero =(HeapWord *)result + sizeof(oopDesc)/oopSize;obj_size -= sizeof(oopDesc)/oopSize;if(obj_size>0){memset(to_zero,0,obj_size * HeapWordSize);}}//根據是否啟用偏向鎖來設置對象頭信息if(UseBiasedLocking){result ->set_mark(ik ->prototype_header());}else{result ->set_mark(markOopDesc:prototype());}result ->set_klass_gap(0);result ->set_klass(k_entry);//將對象引用入棧,繼續執行下一條指令SET_STACK_OBJECT(result,0);UPDATE_PC_AND_TOS_AND_CONTINUE(3,1);}}}1.2 對象的內存布局
在HotSpot虛擬機中,對象在內存中存儲的布局可以分為3塊區域:對象頭(Header)、實例數據(Instance Data)和對齊填充(Padding)。
1.2.1?對象頭
HotSpot虛擬機的對象頭包括兩部分信息,第一部分用于存儲對象自身的運行時數據,如哈希碼(HashCode)、GC分代年齡、鎖狀態標志、線程持有的鎖、偏向線程ID、偏向時間戳等,這部分數據的長度在32位和64位的虛擬機(未開啟壓縮指針)中分別為32bit和64bit,官方稱它為“Mark Word”。
對象需要存儲的運行時數據很多,其實已經超出了32位、64位Bitmap結構所能記錄的限度,但是對象頭信息是與對象自身定義的數據無關的額外存儲成本,考慮到虛擬機的空間效率,Mark Word被設計成一個非固定的數據結構以便在極小的空間內存儲盡量多的信息,它會根據對象的狀態復用自己的存儲空間。例如,在32位的HotSpot虛擬機中,如果對象處于未被鎖定的狀態下,那么Mark Word的32bit空間中的25bit用于存儲對象哈希碼,4bit用于存儲對象分代年齡,2bit用于存儲鎖標志位,1bit固定為0,而在其他狀態(輕量級鎖定、重量級鎖定、GC標記、可偏向)下對象的存儲內容見表2-1。
對象頭的另外一部分是類型指針,即對象指向它的類元數據的指針,虛擬機通過這個指針來確定這個對象是哪個類的實例。并不是所有的虛擬機實現都必須在對象數據上保留類型指針,換句話說,查找對象的元數據信息并不一定要經過對象本身。
另外,如果對象是一個Java數組,那在對象頭中還必須有一塊用于記錄數組長度的數據,因為虛擬機可以通過普通Java對象的元數據信息確定Java對象的大小,但是從數組的元數據中卻無法確定數組的大小。
代碼清單2-2為HotSpot虛擬機markOop.cpp中的代碼(注釋)片段,它描述了32bit下MarkWord的存儲狀態。
1.2.2?實例數據
實例數據部分是對象真正存儲的有效信息,也是在程序代碼中所定義的各種類型的字段內容。
無論是從父類繼承下來的,還是在子類中定義的,都需要記錄起來。這部分的存儲順序會受到虛擬機分配策略參數(FieldsAllocationStyle)和字段在Java源碼中定義順序的影響。HotSpot虛擬機默認的分配策略為longs/doubles、ints、shorts/chars、bytes/booleans、oops(Ordinary Object Pointers),從分配策略中可以看出,相同寬度的字段總是被分配到一起。在滿足這個前提條件的情況下,在父類中定義的變量會出現在子類之前。如果CompactFields參數值為true(默認為true),那么子類之中較窄的變量也可能會插入到父類變量的空隙之中。
1.2.3?對齊填充
對齊填充并不是必然存在的,也沒有特別的含義,它僅僅起著占位符的作用。
由于HotSpot VM的自動內存管理系統要求對象起始地址必須是8字節的整數倍,換句話說,就是對象的大小必須是8字節的整數倍。而對象頭部分正好是8字節的倍數(1倍或者2倍),因此,當對象實例數據部分沒有對齊時,就需要通過對齊填充來補全。
?
1.3 對象的訪問定位
建立對象是為了使用對象,我們的Java程序需要通過棧上的reference數據來操作堆上的具體對象。由于reference類型在Java虛擬機規范中只規定了一個指向對象的引用,并沒有定義這個引用應該通過何種方式去定位、訪問堆中的對象的具體位置,所以對象訪問方式也是取決于虛擬機實現而定的。目前主流的訪問方式有使用句柄和直接指針兩種。
1.3.1?句柄訪問
如果使用句柄訪問的話,那么Java堆中將會劃分出一塊內存來作為句柄池,reference中存儲的就是對象的句柄地址,而句柄中包含了對象實例數據與類型數據各自的具體地址信息,如圖2-2所示。
1.3.2?直接指針訪問
如果使用直接指針訪問,那么Java堆對象的布局中就必須考慮如何放置訪問類型數據的相關信息,而reference中存儲的直接就是對象地址,如圖2-3所示。
?
這兩種對象訪問方式各有優勢。
使用句柄來訪問:最大好處就是reference中存儲的是穩定的句柄地址,在對象被移動(垃圾收集時移動對象是非常普遍的行為)時只會改變句柄中的實例數據指針,而reference本身不需要修改。
使用直接指針訪問方式:最大好處就是速度更快,它節省了一次指針定位的時間開銷,由于對象的訪問在Java中非常頻繁,因此這類開銷積少成多后也是一項非常可觀的執行成本。
就虛擬機Sun HotSpot而言,它是使用第二種方式進行對象訪問的,但從整個軟件開發的范圍來看,各種語言和框架使用句柄來訪問的情況也十分常見。
?
總結
以上是生活随笔為你收集整理的【深入Java虚拟机JVM 05】HotSpot对象探秘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深入Java虚拟机JVM 04】JVM
- 下一篇: 【Spring注解系列05】@Impor