(转)原子时代来临-Intel革命性Atom透析
前言
前言
隨著當前制造工藝的瓶頸越收越窄,高性能產(chǎn)品的競賽正變得越來越艱難:面對高端用戶永無止盡的性能追求,高端產(chǎn)品的升級換代反而變得越來越遲緩,短 期內(nèi)技術(shù)革新與用戶需求間的矛盾還將繼續(xù)惡化。面對這種局面,開發(fā)商們把更多的精力投向?qū)π阅苄枨蟛桓叩氖袌鲱I(lǐng)域,因為在這個領(lǐng)域,可供開發(fā)的空間還很巨 大。在過去,由于基層硬件系統(tǒng)的性能不足,五年前我們不可能看到像AUSU EeePC這樣的產(chǎn)品,雖然今天發(fā)送EMAIL,瀏覽網(wǎng)頁、查看文檔等日常任務(wù)對硬件性能的需求同樣與時俱進,但CPU性能的增長速度仍遠遠超過這些任務(wù) 處理的需求增長。這種硬件性能大幅超過日常應(yīng)用軟件需求的現(xiàn)狀讓人們萌發(fā)了制造性能“夠用”,同時便攜性與節(jié)能性等方面表現(xiàn)優(yōu)秀的硬件。目前我們可以看到 部分公司如華碩已經(jīng)意識到這種潮流趨勢,開始涉足這方面產(chǎn)品的研發(fā)。而毫無疑問像Intel這樣的大鱷自然不會放任這塊“肥肉”落入他人碗里~~在今年的 CES大會上,有廠商展示了被稱之為“移動互聯(lián)網(wǎng)設(shè)備”( Mobile Internet Devices,簡稱MID)的產(chǎn)品。這些都是小尺寸產(chǎn)品,可以用來瀏覽網(wǎng)頁,查收電子郵件,使用IM軟件,播放音樂、瀏覽圖片等。這些MIDs產(chǎn)品甚至 還可以運行Vista 或者 Linux操作系統(tǒng),出于成本控制方面的原因,大部分廠家選擇的是Linux系統(tǒng)。這類產(chǎn)品在體積上明顯要大于iPhone手機,同時在理論上使得得也更 全面一些。不過我們今天要關(guān)注的不是MID本身,而是為它注入動力的“心”——Intel全新的超低功耗處理器品牌“Atom(原子)”。
小時候我最喜歡的電影之一就是《回到未來》系列,我喜歡《回到未來》的前兩集,特別是那個時候愛上了游戲、汽車跟其他各種科技產(chǎn)品,所以對于第二部 更是情有獨鐘。在《回到未來2》中,影片主角Marty McFly超越時空前往未來去阻止他兒子被捕入獄以及家庭被毀等一系列厄運。影片中Marty McFly在未來買了一本sports almanac(運動賽事年鑒),企圖回到過去后能夠“未卜先知”,從中牟利。雖然最后事情的結(jié)果跟Marty McFly所期盼的截然不同,但今天Intel推出“原子處理器”的意圖可謂跟Marty McFly“不謀而合”。設(shè)想下假如Intel能夠回到過去,然后運用他們工程師在過去15年里所掌握的技術(shù),用45nm制程重新將奔騰一代做成一顆超小 超酷的CPU!
在過去20年里我們一直把精力放在如何制造出最快最強的CPU上面,而如今,我們已經(jīng)有能力去制造不僅速度夠快,而且其他方面(功耗、體積等)同樣出色的CPU。 ——Intel語
?
1993年,Intel費盡九牛二虎之力將三千一百萬個晶體管封裝進當時剛剛面世的奔騰處理器300mm^2大小的管芯里面。而今天,Intel已 經(jīng)出廠數(shù)百萬個酷睿2處理器,其晶體管數(shù)量達到驚人的4.1億個(超過奔騰1的130倍),而管芯的面積卻只有當年奔騰1的1/3。Intel并沒有因此 而止步,預計下半年面市的Nehalem將集成更多的晶體管,性能也更上一層樓。在2010年之前,我們就可以看到晶體管數(shù)量超過10億的臺式機CPU。 不過令人感興趣的并不只是Intel在高端CPU上所作的的努力,其在設(shè)計相對簡單的低端CPU所取得的成果甚至更讓人好奇。
Intel無法在294mm^2大小的die上制造出用于低成本設(shè)備的奔騰1,但如今情況已經(jīng)截然不同了。當年“臃腫”的0.80μm制造工藝早已 入土,如今我們正全面過渡到0.45nm制程。假如不改動架構(gòu),使用45nm制程intel可以在不到3mm^2大的die上“還原”奔騰1處理器。不過 實事比這樣簡單的還原還要有趣得多,Intel的工程師們在奔騰1面市后的15年里已經(jīng)掌握了許多新技術(shù)跟新經(jīng)驗,設(shè)想下這些新技術(shù)能夠?qū)ο鄬唵蔚?X86架構(gòu)動用什么樣的改造手術(shù)~~~
用X86搶占新市場
目標:主流市場
在臺式跟筆記本系統(tǒng)里我們需要盡可能快的CPU,但是我們今天所關(guān)注的領(lǐng)域要比純粹的計算機領(lǐng)域更加普遍廣泛得多。隨著臺式機跟筆記本系統(tǒng)速度的不 斷攀升,我們漸漸被這種高速運行的速度所寵壞,漸漸地也渴望家中的各種日常電器設(shè)備的反應(yīng)速度能夠跟上計算機產(chǎn)品的腳步。智能手機就是最典型的例子,目前 智能手機的功能越來越多,能夠處理的任務(wù)亦日趨多樣化,但是其界面的運行速度卻讓人絲毫沒有PC上的“速度快感”;蘋果公司想用iPhone來改變這一狀 況,但iPhone需要改進的地方還有許多。在傳統(tǒng)家電上這一問題也普遍存在,即便是價格接近普通PC的藍光播放器,其系統(tǒng)啟動速度跟界面菜單的響應(yīng)時間 同樣讓人難以忍受!難道我們能夠讓半條命2的幀速輕松達到200,卻無法提高電視菜單對遙控操作的響應(yīng)速度?
導致這種局面的問題之一就是大部分家電產(chǎn)業(yè)過于商品化,隨著LCD價格的一路下滑,我們家中到處都是LCD顯示屏。但是價值幾百美元的高性能CPU就很難在電視機、藍光播放器或是GPS裝置之類更加簡單的設(shè)備上找到“容身之處”。
無論是電視選擇菜單、GPS上的軟件堆棧還是藍光播放器所需要處理的非解碼運算,即使是當前臺式機上最低端的CPU也足以應(yīng)付這些任務(wù),所以目前我們面臨的問題不是“能否”讓這些設(shè)備跑得更快,而是“想讓這些設(shè)備跑得足夠快至少需要什么樣的CPU?”。
這樣一顆CPU需要具備的條件包括低功耗、低售價同時又不能以犧牲性能為代價。你或許會爭辯對于上述程序應(yīng)用來說,一顆奔騰3等級的CPU就足以滿足,甚至最初的奔騰M也沒問題,這正是摩爾定律的體現(xiàn)。
在若剛年前,奔騰3、奔騰4跟奔騰M處理器的制造成本跟今天的酷睿2系列差不多,但是跟酷睿2相比他們的晶體管數(shù)量根本不值一提!更有甚者,兩年內(nèi) 晶體管數(shù)量超過10億的臺式CPU的造價甚至要比當年的奔騰一代還要低!換個角度看——今天我們能否造出性能達到奔騰M級別,而造價又低廉到日用家電產(chǎn)品 所能夠接受,同時低功耗跟無需散熱器輔助散熱的CPU產(chǎn)品呢?
“x86一統(tǒng)江湖”
當年AMD宣布有意思將x86總線擴展到64bit的時候,我曾問過AMD的前CTO Fred Weber:將x86擴展到64bit是否有意義?Intel轉(zhuǎn)移到Itanium和全新的ISA的舉措是否正確?他那時候的回答聽起來有些道理,但我當 時并不能很好地理解他的整個意思。
Fred認為維持x86架構(gòu)兼容性的代價小到可以忽略不計,當時x86編譯器只占去整個die 10%左右,而這個比例以后還可以進一步縮減。目前AMD的高端CPU晶體管數(shù)量已經(jīng)達到當時K8的八倍左右,向后兼容部分所消耗的晶體管數(shù)量也進一步縮 減至很小的數(shù)目,而向后兼容帶來了莫大的好處。
當前PC領(lǐng)域所有的程序代碼都是面向x86架構(gòu)編寫的,其結(jié)果就是在家用電器平臺上無法直接運行,而越來越多的應(yīng)用程序需要在家電上運行,比如網(wǎng)頁 瀏覽器、email客戶端跟網(wǎng)絡(luò)媒體播放器。由于家電產(chǎn)品不是采用x86平臺,因此制造商要想在家電上運行這些程序就必須將開源軟件移植到家電平臺上或自 己開發(fā)類似的家電版程序。
但問題是基本上目前這些應(yīng)用程序最成熟最優(yōu)秀的版本都已經(jīng)扎根于PC平臺,而我們最不想看到的就是像SONY這樣的公司去攪瀏覽器市場這趟渾水,我 寧愿家里帶網(wǎng)絡(luò)功能的電視機跟廚房里的觸摸屏采用的是Firefox或IE,也不愿意被逼著去使用SONY的瀏覽器(如果有的話)。當然這些軟件都可以被 移植到任何架構(gòu)的平臺上,只是軟件開發(fā)商不喜歡多平臺技術(shù)支持,因為這需要花費大量的金錢去為各個平臺的版本除bug跟維護。
當年Fred的回答就是想讓我了解他心中“x86一統(tǒng)江湖”的美好愿望,在他看來指令集并不重要,重要的是讓幾乎所有設(shè)備都能夠運行同一種代碼。我 常常說Apple肯定打心里憎恨開發(fā)iPhone,因為iPhone是她們所有類電腦產(chǎn)品中唯一無法運行x86代碼的產(chǎn)品,也就是說Apple不得不專門 為iPhone單獨設(shè)立一個軟件開發(fā)維護部門。
Fred的想法不錯,隨著計算機以非常規(guī)方式漸漸滲入我們的家居生活,讓所有設(shè)備能夠統(tǒng)一運行同一種代碼正變得越來越重要。然而諷刺的是,雖然Fred是首先像我提出這一觀點的人,但真正去付諸行動的卻是其對手Intel!
“原子”的孕育與誕生
成功的序章
事情開始于2004年,美國德克薩斯州的奧斯丁,我說的是Intel而不是AMD。那一年,Intel奧斯丁設(shè)計中心正在全力打造奔騰4家族的另一名成員——Tejas。
Tejas當時是計劃在Prescott之后發(fā)布,以延續(xù)NetBurst架構(gòu)血脈。但歷史證明高耗低能的NetBurst最終必將走下歷史舞臺, 而Tejas也因此而夭折。整個開發(fā)計劃被終止之后Intel的目光全面轉(zhuǎn)向奔騰M架構(gòu),在對其進行一番手術(shù)之后推向臺式機領(lǐng)域,并最終獲得成功。
Tejas夭折之后,其開發(fā)小組肯定是一肚子不滿,不過這個由Intel天才工程師們組成的團隊迅速化悲憤為力量,開始全力打造他們的下一個項目。
說到這里我要特別指出的是在Intel公司里,類似的奮斗史比比皆是,比如迅馳一代也是在類似情況下誕生的。Banias是迅馳的第一代產(chǎn)品,后來 被命名為奔騰M。Banias的開發(fā)小組在打造Banias之前是負責Timna的開發(fā)工作,跟Tejas一樣Timna也在開發(fā)后期胎死腹中,開發(fā)項目 被取消這個打擊另這個以色列設(shè)計團隊消沉了大概一個月,好在他們很快就接到了Banias的研發(fā)任務(wù)。為了向那些讓Timna胎死腹中的人證明自己的設(shè) 計,他們決心將Banias打造成最強的架構(gòu),而實事證明他們成功了,Banias成為了奔騰M,并成就了今天備受青睞的酷睿系列CPU。
回到我們前面所說的奧斯丁團隊,在Tejas被扼殺之后,他們跟以色列團隊一樣需要證明自己的實力,而就在當時他們接到了新項目的開發(fā)任務(wù)。
新項目是開發(fā)一款低能耗,可用于多核心CPU設(shè)計的IA架構(gòu)核心。由于新核心必須能夠被用于多核產(chǎn)品,因此低能耗是首要條件(你不能在多核產(chǎn)品中集成十來顆好能達到100瓦的核心)。
我曾戲問奧斯丁小組的設(shè)計成員,上頭把這樣一個項目交到他們手上是不是有點戲弄的味道——從原本設(shè)計功耗上百瓦的Tejas突然轉(zhuǎn)到僅僅幾個W的產(chǎn) 品。很明顯在設(shè)計Tejas期間,奧斯丁團隊中的一個小分組就已經(jīng)在設(shè)計低功耗、架構(gòu)簡潔的CPU方面做過一些摸索研究。也就有了這一年左右的摸索鋪路, 才使得整個從高耗高能的項目轉(zhuǎn)至低耗簡約項目的過度比外人想象中要順暢許多。
這次參與開發(fā)這一項目的許多工程師實際上都是Intel從其他微處理器設(shè)計公司招安而來的。新核心的主設(shè)計師Belli Kuttanna,之前曾在SUN負責開發(fā)過SPARC處理器,后來又在摩托羅拉負責PowerPC的核心設(shè)計。其他成員甚至還包括以前AMD的員工。
2004年早期的摸索工作主要是為了找出開發(fā)低功耗CPU的必要條件,當時他們給這顆“小”核心取了個代號叫Bonnell。Bonnell是奧斯丁境內(nèi)最高的山峰,海拔750尺,這座嬌小而挺拔的山峰正符合這顆“小芯“的形象。
研究的第一步是看下Bonnell能否用Intel手上的現(xiàn)成架構(gòu)改造而成,研究小組先后嘗試用奔騰M跟當時尚未發(fā)布的酷睿2架構(gòu),但很快就發(fā)現(xiàn)這 兩種架構(gòu)性能過剩以及能耗過大,并不適用于Bonnell。加上Intel發(fā)布了迅馳系列,因此急需一顆全新架構(gòu)的CPU來占領(lǐng)新的市場。
奧斯丁開發(fā)小組最終決定從最簡單的微處理器架構(gòu)下手,即單指令發(fā)射、順序執(zhí)行的核心架構(gòu)重新開始他們的設(shè)計,設(shè)計師們不斷嘗試直至能耗跟性能都達到要求。需要指出的是,在那個時候Intel自己也不清楚這顆新產(chǎn)品將被用于什么地方。
在2004年底,Paul Otellini才向奧斯丁團隊說明Bonnell必須能被用于獨立CPU,即不是之前所說的多核心CPU中的一顆核心而已。這顆新芯將被裝配在 UMPCs(超級便攜式PC)跟一種鮮有耳聞的產(chǎn)品——MID(移動上網(wǎng)設(shè)備,我們開篇介紹過)上。至于其用于多核心設(shè)計的部分則仍在開發(fā)中,個人估計我 們最快可以在Larrabee上看到改產(chǎn)品。
Bonnell只是一顆內(nèi)核,但當它裝上二級緩存跟外部總線介面之后就成為一顆內(nèi)部命名為Silverthorne(銀座)的CPU。就在最近Intel給了Silverthorne一個更為貼切的名字——Atom processor(原子處理器)。
驚鴻一瞥
采用Intel最先進的45nm制程,管芯面積只有不足25平方毫米,封裝后的芯片大小也只有13mm×14mm,Atom是Intel至今為止發(fā)布的最 為小巧玲瓏的x86處理器。跟以往Intel同類產(chǎn)品不同的是,Atom是100%完全兼容x86的CPU。(確切地說只繼承了Merom ISA,因為體積跟功耗的問題而拿掉了對Penryn SSE4指令集的支持)。
核心架構(gòu)透視
Intel原子核:令I(lǐng)ntel脫胎換骨的設(shè)計
長期以來,Intel對于功耗/性能比遵循這樣一個定律:一項提升CPU性能1%的設(shè)計,其帶來的功耗增長不能超過2%,否則就必須放棄。但不幸的是,這樣一個定律最終將Intel帶進了NetBurst架構(gòu)的死胡同,高耗低能的奔騰4和其衍生家族就因此而誕生。
到了現(xiàn)在的“原子核”,Intel重新修改了定律,新的定律規(guī)定每提升CPU性能1%,其功耗提升不能超過1%。這個規(guī)定對比“笨死”時代的定律稱 得上是一次革命性的改革,這個新定律也將被用于Intel新架構(gòu)(比如Nehalem)的設(shè)計指導,而Atom則是首個使用的產(chǎn)品。
雖然Atom一開始是按照單指令發(fā)射跟順序執(zhí)行的簡單架構(gòu)設(shè)計,但很快奧斯丁團隊就將其升級為雙指令并發(fā),可惜仍然保持順序執(zhí)行部分。
現(xiàn)在的x86處理器都支持指令的亂序執(zhí)行,這個機制就好比你需要系鞋帶跟關(guān)掉電視,這時你可以選擇先系好鞋帶再去關(guān)掉電視,因為這么做會比較順手。 CPU的亂序執(zhí)行也是同個道理,CPU可以先處理掉手頭可用的指令而無需按順序等待尚未送往緩存里的數(shù)據(jù),從而節(jié)省時間提高效率。但亂序執(zhí)行的一大弊端就 是指令的重新排序電路需要占用額外的管芯面積以及增加能耗。當然亂序執(zhí)行可以有效提升性能但我們要知道這次Intel的目的可不是性能第一,只需要“夠用 ”就好,因此Atom只需順序執(zhí)行即可,Atom是Intel自奔騰1之后的又一款順序執(zhí)行架構(gòu)CPU。
順序執(zhí)行架構(gòu)雖然造成性能下降但卻節(jié)省了大量的能耗跟復雜的電路設(shè)計,而如果用亂序執(zhí)行的話,性能是上去了,但是相應(yīng)的能耗跟晶體管負擔是45nm 制程下的Atom所無法承受的。要知道Intel也是在奔騰pro之后才讓亂序執(zhí)行成為了可能,或許以后更小的制造工藝能讓Atom集成亂序執(zhí)行引擎,但 我認為未來5年內(nèi)是不大可能的。
雙指令并發(fā)與順序執(zhí)行
奧斯丁小組先是采納了單指令發(fā)送+順序執(zhí)行的核心設(shè)計,后來又將其升級為超標量雙指令并發(fā),也就是說同時可以發(fā)送兩條指令至流水線。相比之下,目前大部分臺式x86 CPU可以同時發(fā)送3~4條指令。
為了保證Atom的雙發(fā)指令發(fā)送器充盈,Intel為其配備了兩個解碼器。這些解碼器從一級緩存中拾取運算指令,通過解讀指令包含的1跟0排序來翻譯指令給CPU的命令。雖然每個解碼器的能力都是一樣的,但是每條指令均有兩條編譯路徑可選:一快一慢。
早期的x86 ISA(指令集架構(gòu))在對不同長度的指令支持方面陷入困境。小熊在線www.beareyes.com.cn
比方說我事先告訴你每十秒會給你一個橘子要比每十秒給你1~3個橘子要簡單,前種情況就好比固定長度指令集,而后者就像是不定長度指令集,很不幸x86 ISA經(jīng)常需要面對后者。
Atom的慢速解碼通道并不具備任何猜測解碼能力,每條指令都需要被手動排序,也就是說指令的每個bit都需要耗時去仔細查看,不過這樣做能夠保證解碼過程的正確性。每一條被檢測過的指令還會被打上標簽,這樣下次需要編譯的時候就可以直接被送往較快的快速通道里。
快速解碼通道明顯帶有猜測解碼功能,再加上前面緩慢通道的“標簽”功能協(xié)助,快速通道每個時鐘可以發(fā)送兩條指令,而慢速通道每三個時鐘才能發(fā)送一條。
Intel從Banias(奔騰M)身上看到猜測運算機制所帶來的額外能耗不是電池供電的設(shè)備所能夠承受的,因此權(quán)衡利弊,Atom將對猜測運算方面做諸多妥協(xié)。
半亂序執(zhí)行、微操作融合與超線程
指令也瘋狂:安全指令識別
順序執(zhí)行架構(gòu)最怕遇到的情況就是執(zhí)行一條高延遲的指令時所需要的數(shù)據(jù)遲遲未被送到緩存中來。由于順序執(zhí)行CPU必須按順序執(zhí)行指令,所以一旦當前需 要被執(zhí)行的指令所需要的數(shù)據(jù)無法在內(nèi)存中獲取到的時候,執(zhí)行單元就必須一直處于空閑等待的狀態(tài)中,有時需要耗費上百個時鐘才能從內(nèi)存中獲取到數(shù)據(jù),這不僅 大大降低性能,更糟的是整個空閑等待的過程都需要消耗電力,這種結(jié)果完全違背了我們設(shè)計低能耗CPU的初衷。
亂序執(zhí)行處理器就可以通過簡單的指令執(zhí)行排序機制來解決這個問題。排序器只需挑出下一個已經(jīng)準備好被執(zhí)行的指令,然后對于那些可單獨執(zhí)行的指令則先 放一邊等待從主內(nèi)存中獲取到數(shù)據(jù)之后再進行。我們前面已經(jīng)證實完全的亂序執(zhí)行架構(gòu)的能耗超過Atom的極限,而完全依賴于順序執(zhí)行的結(jié)果同樣不可取。最后 奧斯丁團隊找到了一個明智的折中方案。
Austin小組采用的折中方案是一種叫做“安全指令識別(Safe Instruction Recognition,簡稱SIR)”的算法,該算法的工作機制如下:當Atom需要執(zhí)行一條高延遲的浮點運算,而后面有跟著一條短延遲整數(shù)操作時,順 序執(zhí)行機制需要等浮點操作完成之后才能去執(zhí)行后面的整數(shù)操作;但是采用SIR就可以先查看兩條指令所需的數(shù)據(jù)是否有關(guān)聯(lián)(比如前面是C=A+B,后面是 D=C+F),如果沒有關(guān)聯(lián)SIR就允許將后面的整數(shù)操作提前執(zhí)行,從而節(jié)省時間提高效率。
SIR只在這種特殊情況下有效,它給Atom的順序執(zhí)行架構(gòu)帶來幾分亂序執(zhí)行的能力,所以嚴格來看Atom可以被稱為“半亂序執(zhí)行”架構(gòu)。預計未來Atom在指令執(zhí)行方面也將愈來愈靈活。
CISC歸來:宏操作執(zhí)行
奔騰Pro是Intel首款RISC核心,它的誕生結(jié)束了上世紀九十年代那場RISC vs CISC之爭。對于程序員來說,奔騰Pro仍然是一顆x86 CISC CPU,但它在接收到x86指令之后就可以將其編譯成多個小的微操作(micro-ops),以供更快更高效的RISC核心運行。
奔騰Pro保持了向后兼容過去Intel x86 CPU的能力,這樣不單能夠靠高性能的RISC核心提升性能,而且一些CISC架構(gòu)的優(yōu)勢也能得以保存。事實證明部分x86指令不宜被打散成多個小的微操 作,因為個別操作間會有沖突。因此從奔騰M開始,Intel加某些特定的微操作融合在一起,以便讓流水線更好地處理,從而起到節(jié)能高效的目的。Intel 稱這種特性為“微操作融合(micro-op fusion)”。這種將兩個微操作合二為一送往流水線的做法可以有效提高CPU的“帶寬”,提高指令的吞吐量。不過其內(nèi)核仍然是一顆高效的RISC核 心,只是擁有更多特定情況下的加速特性。Atom則更進一步,內(nèi)核在處理x86指令時無需將其打散為多個微操作,這是由于Atom不能亂序執(zhí)行,缺乏優(yōu)化排序的大量微操作反而會降低性能。 再者保持指令的完整性可以減少吞吐量,這樣就好比增加了Atom的“帶寬”。對于load-op-store 和 load-op-execution這類格式的指令,Atom的解碼器都將其視為一個單一的微操作。換句話說,現(xiàn)在一條讀取、運算以及儲存計算結(jié)果的指令 將被視為一個單一的微操作,而不用被分割成3部分。這樣做的好處就是被送往流水線處理的微操作只有一個而不是三個,從另一個角度看就是節(jié)省了帶寬。所以 Atom雖然只是一個雙指令并發(fā)架構(gòu),但是在某些情況下的指令吞吐量卻不比某些臺式CPU差。
過于Intel在將x86指令分割為更小、RISC類操作上大費周章,以求能夠設(shè)計出性能更高的核心來應(yīng)付大量被分割出來的微操作。諷刺的是在如今越來越注重性能/功耗比的今天,Intel必須回到原地反過來去保護x86指令的完整性。
超線程回歸
雖然Atom支持雙指令并發(fā),但是由于同一線程內(nèi)的兩條指令所占用的數(shù)據(jù)相互獨立,因此要同時執(zhí)行兩條指令絕非易事。為了解決這個難題,Intel 為Atom核心引入SMT(Simultaneous Multi-Threading,并發(fā)多線程技術(shù)),讓核心同時具備雙線程的執(zhí)行度。當年P(guān)4上的超線程技術(shù)(Hyper-Threading)實際上就 是SMT中的一種,所以此舉可以看成是超線程的回歸。還記得我們前面提到的那條性能/功耗比黃金定律嗎?Intel讓Atom支持SMT就是遵循該定律的 最好例證。SMT為Atom帶來30~50%的性能提升,但功耗只增加了20%!
Atom具備32路的指令調(diào)度排列,在開啟SMT之后,每線程又具備16路排列。排序器無需每個時鐘都在各線程間做跳轉(zhuǎn),而是根據(jù)需要智能完成,唯 一的限制就是每時鐘只能分配兩個操作。所以如果當前線程的指令需要等待數(shù)據(jù)被送到才能繼續(xù)執(zhí)行,下一個時鐘排序器就可以從另一個線程里挑選一個操作工核心 處理,這樣就不會形成空等狀態(tài),順序執(zhí)行架構(gòu)的缺陷讓SMT成為保證Atom流水線隨時保持充盈狀態(tài)的保障。
執(zhí)行單元與低功耗下的長流水線
執(zhí)行單元
Atom并不是一款超寬處理器,順序執(zhí)行的前端跟缺乏內(nèi)置內(nèi)存控制器決定了其有限的指令吞吐能力,再加上數(shù)據(jù)間的相互關(guān)聯(lián)性致使大量的執(zhí)行單元只能是閑著空等,因此Atom的設(shè)計師們在執(zhí)行單元的設(shè)計上只求達標就好。
Atom沒有專用的整數(shù)乘法器或除法器,這些運算都由SIMD浮點單元來完成。Atom核心裝配有兩個SSE單元,其排序器的兩個口可以在一個時鐘內(nèi)各發(fā)送一個浮點或整數(shù)SIMD操作。除了支持全精度整數(shù)SIMD和單精度FP ADD外,所有單元均為64bit寬。
用長流水線捍衛(wèi)能耗?
Atom具備16級流水線,其分支預測失誤的懲罰為13級。注重低功耗的Atom,流水線居然比酷睿2的14級還要長,這的確讓人吃驚。
更長的流水線通常意味著更高的功耗,特別是有臭名昭著的功耗王“笨死”做為前車之鑒。但這次Intel給了我們下面三個采用長流水線的理由:
對于奧斯丁小組來說,只要能夠降低功耗,即使是用高延遲去換取功耗他們也同樣樂意。為了盡量降低能耗,Atom只在緩存控制器對cache命中率有 把握的時候才去訪問緩存,但這樣一來每次訪問就會產(chǎn)生長時間的延遲;為了讓時鐘頻率足夠高,就必須加深緩存訪問的流水線,另外Atom采用物理地址標記代 替虛擬地址標記,因為后者的能耗太高。
再者,Atom在解碼流水線同樣用延遲換取低功耗,還記得我們前面介紹的解碼器一慢一快兩個通道嗎?較慢的通道延遲高但能保證指令被正確編譯,增加 的延遲迫使Atom的在解碼時需要三級流水線而不是兩級。最后,SMT所采用的一些算法也使流水線長度增加了一兩級,所有這些加起來就使得原本設(shè)計簡單的 核心卻具備如此深的流水線,當然這樣的長流水線設(shè)計完全是為了降低功耗以及保證核心能夠跑在足夠高的頻率上(Atom只是一個雙指令并發(fā)的簡單核心,它需 要高頻率來保證足夠的性能),根本不是NetBurst的失敗設(shè)計所能夠相提并論的。
不協(xié)調(diào)的緩存與Sea-of-FUBs設(shè)計
不協(xié)調(diào)的一級緩存
由于順序執(zhí)行架構(gòu)的性能對內(nèi)存的高延遲非常敏感,因此Atom配備有大容量的一級緩存。有趣的是,Atom的一級緩存采用非對稱的搭配方式,其指令 緩存為32KB,而數(shù)據(jù)緩存只有24KB。之所以采用這種獨特的非對稱搭配是從性能優(yōu)化、管芯面積和成本等方面來考慮的。Atom的二級緩存則跟Core 架構(gòu)相似,采用8路512KB設(shè)計。
Atom(或者說Silverthorne)采用Intel的45nm high-K金屬棚極工藝制造,但有一點不同的是:Silverthrone的SRAM cell大小為0.382 um^2(平方微米),晶體管數(shù)量為8個;而Core 2為0.346 um^2,晶體管數(shù)量只有6個。較大面積的SRAM cell耗電量跟所需運行電壓都較低。Atom還配備有兩個硬件級的預取器,一個用于將L2中預取數(shù)據(jù)到L1,另一個則是從內(nèi)存預取數(shù)據(jù)到L2。我們前面已經(jīng)反復強調(diào)過,如果當前操作所 需的數(shù)據(jù)不在緩存中,就會導致整個流水線停工,所以硬件預取單元對于順序執(zhí)行的架構(gòu)極為重要。當然要想“治本”的話還需要將內(nèi)存控制器集成到核心 內(nèi),Intel有望在第二代的Atom(代號Moorestown)內(nèi)核集成內(nèi)存控制器。
Sea-of-FUBs設(shè)計
將一個核心分割成9個塊區(qū)然后分別由不同的設(shè)計小組負責是Intel設(shè)計CPU的慣用手法,比如一個小組負責L2設(shè)計、一個小組負責IO介面等等。不過這次負責設(shè)計Atom
的奧斯丁團隊實際上是一個規(guī)模很小的設(shè)計小組,因此設(shè)計流程有所不同。他們采用一種叫做Sea-of-FUBs的核心構(gòu)造法,這種方法比上面提到的“分塊 ”更加細分,所謂FUB就是功能單元塊(Functional Unit Block),像加法器、解碼器、緩存都屬于FUB,各FUB的設(shè)計可以同時進行,提高了研發(fā)效率。再者,Sea-of-FUBs隨時提醒設(shè)計師們低能耗 是首要任務(wù),其他特性只需“夠用就好”,核心面積的死預算迫使設(shè)計師不能隨心所欲,如果想要加大某個FUB的規(guī)模,就必須有另外一個FUB做犧牲縮小體 積;能耗上也需要遵循這一原則。
Atom比Intel之前所有的移動處理器更加模塊化,實話說我感覺其組成更像是GPU而不是CPU。因為整個芯片一成使用了custom logic,其余90%都是使用Intel標準電路,像是二級緩存、PLLs、數(shù)據(jù)I/O、尋址I/O等等。這樣做的好處是一來可以降低Atom的營銷成 本,二來是以后想為核心增刪特性比較方便。
雙模式FSB、核心頻率與性能預覽
雙模式FXB
Atom是通過 quad-pumped FSB進行數(shù)據(jù)交換,這個與 Intel在其他處理器產(chǎn)品使用的方式是一樣的,這顯示會有功耗限制。根據(jù)不同的功耗狀態(tài)以及性能需求,FSB頻率運行于533MHz 或 400MHz。
Intel的FSB(前端總線Front Side Buses的Gunning Transistor-Logic (GTL),它能夠提供高達1600MHz的高速,是高性能CPU的“最佳伴侶”,不過對于Atom來說則有點大材小用。盡管如此,Intel仍讓 Atom同時支持GTL 或 CMOS兩種FSB,在CMOS模式下,處理器的功耗將會顯著降低,其所需的電壓只有GTL模式下的一半。但速度方面都是一樣的,Intel之所以保留兩 種FSB只是為芯片組的兼容性跟功耗著想。
Poulsbo(與Atom配合推出的芯片組)支持CMOS模式,所以兩者搭配的平臺可以運行在節(jié)能的CMOS FSB模式上。但并不是說Atom只能搭配Poulsbo,Diamondville(面向廉價臺式系統(tǒng)跟筆記本系統(tǒng)的Atom)支持GTL,普通芯片組 可以支持。
雖然第一代的Atom是單核產(chǎn)品,但其架構(gòu)同樣適合多核CPU產(chǎn)品。預計下半年推出的Diamondville就是一款雙核Atom,它的個核心將共享一個FSB,具有內(nèi)置內(nèi)存控制器,預計性能將非常不錯。
性能預覽
下圖是早期Atom與ARM11核心在Webpage Render中的性能對比:
就Intel提供的數(shù)據(jù)來看,Atom的性能大概是iPhone ARM 11 CPU性能的2倍左右,優(yōu)勢相當突出。不過Intel僅僅只是突出了自己的性能優(yōu)勢,對于目前ARM CPU的功耗跟體積優(yōu)勢則避而不提。
Intel曾不止一次聲稱Atom的性能無論是在頻率方面還是在執(zhí)行性能方面將可以與第一代Pentium M處理器相比拼。以前我們沒法驗證這種說法的真實性,不過今天終于有機會一睹其真實表現(xiàn)。根據(jù)Intel公布的數(shù)據(jù),1.6G的Atom在SYSMark 2004中的成績大概比800MHz的奔騰M(90nm Dothan)快20%,而900MHz的Atom將不敵800MHz的奔騰M,顯然只具備一個順序執(zhí)行的簡單核心,Atom的性能需要高頻率來彌補。
不過真正讓人震撼的是Intel接下來UT2004即時DEMO演示!在這個演示中,Intel用一個安裝了Vista的平臺實際演示了Atom跑 UT2004的表現(xiàn),結(jié)果不僅幀數(shù)順暢,而且Atom在沒有散熱器的情況下表面溫度只有35度左右!實在令人稱贊!可以說這個UT2K4 DEMO真正讓我折服,老實說在此之前之我個人對Atom平臺還興趣少少~~在這個散熱器越來越夸張的年代,不需輔助散熱的CPU幾乎已經(jīng)絕跡,如今隨之 Atom的誕生,Intel有望讓這種好風氣再次復蘇~~~
Poulsbo:不同尋常的革新芯片組
Poulsbo:不同尋常的革新芯片組
從2005年Intel就開始著手Poulsbo的設(shè)計工作,它跟Atom就好象一陰一陽,相輔相成。跟Atom一樣,Poulsbo的設(shè)計也遵循低耗優(yōu)于性能的原則。
Poulsbo的主設(shè)計師曾開發(fā)過i840芯片組,i840是RDRAM時代的優(yōu)秀芯片組。Poulsbo完成設(shè)計那時候只有130nm制程,因此只能用130nm制程制造。從下面的圖片可以清楚了解Poulsbo的體積跟Atom相比是多么的巨大!
Poulsbo是Intel從零開始的新設(shè)計,比較特別的是具備一個Intel叫做系統(tǒng)控制中心(System Controller Hub,SCH)的部件,為了節(jié)能,SATA之類的功能全被拿掉,USB口的數(shù)量也被削減。設(shè)計師用PATA代替SATA,雖然不工作的時候兩者的功耗沒 什么不同,但是一旦運轉(zhuǎn)起來,SATA就要耗電得多。另外,FSB跟內(nèi)存頻率被鎖定同步以節(jié)省能耗跟PLL,Poulsbo具備一個單通道 DDR2-400/533的內(nèi)存控制器;支持HD audio內(nèi)置音頻規(guī)范的刪減版,只能支持雙聲道。
Intel為Poulsbo準備了一個完善的內(nèi)部數(shù)據(jù)傳輸機構(gòu),就好像是一個鏈接整個SCH的內(nèi)部局域網(wǎng),能夠高效地在芯片組內(nèi)部傳送諸如中斷、電源管理 等信號。相比傳統(tǒng)芯片組,Poulsbo的FSB-mem通道顯得非常簡潔,內(nèi)存控制器僅留下8KB的內(nèi)存供FSB和內(nèi)存做通信,這讓北橋SCH部分的面 積只有傳統(tǒng)芯片組北橋的20%。南橋方面同樣逃不過被閹割的命運,所有在低功耗設(shè)備市場無用的功能全部都被拿掉,比如沒有軟驅(qū)控制器和并口。對 Poulsbo所做的閹割手術(shù)不僅縮小了體積,而且漏電的幾率也降低了。
令人意外的是,Poulsbo還支持少有的1.5V DDR2內(nèi)存,雖然1.5V并不是DDR2內(nèi)存的官方電壓,但很多顯存制造商都推出了1.5V的低壓版DDR2內(nèi)存,因此如果OEM需要的話,隨時可以在Poulsbo芯片組上實現(xiàn)為內(nèi)存降壓。
Poulsbo的圖形芯片:PowerVR SGX
Poulsbo集成了PowerVR SGX圖形芯片和VXD高清視頻引擎,這個消息還是Imagination Technologies 剛剛放出來的,Intel一直不愿公開這張集成顯卡的真實身份,只是聲稱看中了該芯片的低功耗跟高效性。使用其他公司的集成顯卡對于Intel來說還是首 例,這對其“全球最大的整合顯卡供應(yīng)商”頭銜實在是一種諷刺。
PowerVR SGX內(nèi)置一個全高清解碼引擎,能夠?qū).264、MPEG-2和VC-1等視頻流加速。Intel聲稱該引擎能夠解碼全位率的藍光電影,但實際上 PowerVR SGX無法通過藍光設(shè)備的認證。按照Intel的說法,該圖形芯片在做H.264解碼時的功耗只有120mW。不過該顯卡的輸出分辨率存在不足,最高輸出 分辨率只有1366×768,因此對于1080p的HD視頻只能以較低的1366×768分辨率輸出。
3D方面,PowerVR SGX據(jù)說支持DX9跟DX10,但目前第一版驅(qū)動只支持DX9L,不過像這種情況我們也不指望以后的驅(qū)動能有什么大的改進。雖然對于這樣一個低功耗的平 臺,GPU的性能顯得有些無關(guān)緊要,不過Intel還是演示了UT 2004的即時DEMO,幀數(shù)還算順暢。另外,Intel聲稱3D MARK 05能跑150分。
2D方面,Poulsbo使用Intel自己的2D技術(shù)。
Atom全家族成員預覽
Atom全家族產(chǎn)品預覽
Intel已經(jīng)宣布今年將發(fā)布五款Atom產(chǎn)品
原本我們以為第一輪的Atom CPU最高頻率只到1.6G,但現(xiàn)在看來Intel還想跑得更快,最高端的Atom頻率已經(jīng)達到1.86G,在這個頻率下,其性能應(yīng)該可以超過頻率1G Pentium M,考慮到其功耗只有2.4W TDP,實在是相當不俗了!
Atom現(xiàn)在的主要問題是定價比預期偏高,雖然對于Atom所定位的UMPC跟MID市場而言,這個定價屬于合理范圍,但如果Intel想要普及x86,就必須進一步提高Atom的性價比才行。
Intel同時還發(fā)布了MID平臺品牌:“迅馳Atom處理器技術(shù)”。Intel定義的“迅馳Atom處理器技術(shù)”(我們今后應(yīng)當會簡稱為“迅馳 Atom”)即開發(fā)代號“Menlow”的超低功耗移動平臺。整套平臺包括Intel Atom處理器(Silverthorne和Diamondville)、低功耗“伴侶芯片”(內(nèi)置圖形核心、無線網(wǎng)絡(luò)等)以及超薄超輕的設(shè)計,具體要求 看下圖:
比迅馳更省電
在移動 Penryn處理器上,Intel引入新的功耗狀態(tài)C6。在C6狀態(tài)下,CPU進入休眠狀態(tài),其電壓幾乎為0。核心頻率,所有的PLLs以及緩存基本上處于關(guān)閉狀態(tài)。所有的數(shù)據(jù)都存儲于10.5KB的空間內(nèi),這個與移動版Penryn相似。
很明顯頻率控制是屬于Atom設(shè)計的一部分。Intel所有的處理器都使用了低功耗clock gating技術(shù),但是相比而言Atom使用得更徹底一些,功耗差不多為0,這個與mobile Core 2有些相似。Atom內(nèi)的每一個邏輯串(總共205個)都可以作為功能單元塊 (FUB)使用,前面我們介紹過整個芯片都是Sea-of-FUBs設(shè)計。每一個FUB都能根據(jù)功耗的優(yōu)化進和獨立的關(guān)閉。同時Atom的緩存也擁有自己 的FUB,這個顯然與移動版Core 2處理器是不一樣的。
Intel表示Atom將會在90%的時間里保持在C6狀態(tài)。不過這個數(shù)據(jù)會有些誤導,因為當處理器處理完全待機狀態(tài)時只能夠保持在C6狀態(tài)。90%的時間只有當相關(guān)產(chǎn)品放在口袋里不使用的情況下才有可能實現(xiàn)。在使用的時候,Atom將不可能保持在C6狀態(tài)下。
Intel聲稱Atom的TDP控制在0.6W - 2.0W,這很明顯要取決于核心頻率。在 2.0GHz頻率下,電壓為1.0V,這時Atom處于90C 2W狀態(tài)下。這時核 心的溫度對于一些超小尺寸產(chǎn)品比如iPhone還會偏高,因此會更適合于類似于PSP這類產(chǎn)品上使用。但即使有C6技術(shù)助陣,Atom不論在工作還是閑置 狀態(tài)下的功耗仍然高于ARM處理器。預計隨著制造工藝的提升,未來Atom運行狀態(tài)下的功耗將得到進一步降低,但閑置狀態(tài)下的功耗控制則必須等到平臺高度 整合之后才能做到,Intel的想法是用更加省電的總線規(guī)范代替PCI,讓I/O端口只有在需要的時候才蘇醒,據(jù)說這樣一塊電池可以播放數(shù)天音樂。
結(jié)語
結(jié)語
預計第一款采用Intel Atom處理器的產(chǎn)品會在未來半年內(nèi)上市,Intel希望在今年內(nèi)Atom能先登錄5英寸大小的MID產(chǎn)品。對于MID這種產(chǎn)品,我個人覺得相比 UMPC(超級移動PC)沒什么吸引人的特點,其界面操作反應(yīng)遲鈍、體積臃腫,實在想不出有什么理由整天隨身帶著這樣一部東西~~另一個Intel想入侵 的市場就是便攜式GPS設(shè)備。
現(xiàn)在Intel帶領(lǐng) x86幾乎進入了每一個市場,而獲得優(yōu)勢位置則需要遵循兩個原則:生產(chǎn)工藝和X86兼容性。首先在生產(chǎn)這一塊,Intel公司在這方面的優(yōu)勢已經(jīng)保持很多 年了。因此在這一塊,對于 Intel公司來說將不會有任何問題。目前ARM系列處理器的市場份額甚至要大于Intel桌面處理器,因此如果Atom的需求如預期那樣發(fā)展的話,對于 Intel的經(jīng)營來說將會產(chǎn)生重大影響。
對x86的兼容性將會是 Atom的殺手锏,這里我們需要再一次拿iPhone來舉例。iPhone應(yīng)該說是蘋果公司旗下唯一一款非X86架構(gòu)產(chǎn)品,由于基于的是OS X操作系統(tǒng),從而使用iPhone的應(yīng)用軟件與基他產(chǎn)品完全區(qū)別開來。因此當32nm制程的 Atom成功推出之后,蘋果公司將有可能在其第四代iPhone上得到應(yīng)用,到那時蘋果公司將可以擁抱X86架構(gòu)軟件。
不過目前ARM系列產(chǎn)品仍然是主流,因為暫時Atom還無法滿足這些設(shè)備產(chǎn)品的綜合需要,不過目前Atom肯定也能找到屬于自己的空間。首先 Atom的推出只是為了完整Intel自己用于UMPC產(chǎn)品處理器的產(chǎn)品線,當然真正的革命是未來Atom全面入侵家電、日用電子產(chǎn)品等市場,而那才是我 所期盼看到的。
我個人認為,只有到了2011~2012年左右32nm的Moorestown面世后,我們才會看到Intel、ARM之間展開激烈的競爭,那時候我們才 有可能真正進入“x86一統(tǒng)江湖”的“太平盛世”:)如果現(xiàn)在就希望Atom可以在超便攜計算領(lǐng)域帶來當年Centrino帶來nm的那種沖擊的話,也許 你會感到失望。因為我們馬上看到的還只是一場革命的開始,目前Atom至多就是為我們帶來更多類似EeePC這樣的產(chǎn)品,但目前對于Intel公司來說, 所有的一切還仍處于起步狀態(tài)。而如果Intel成功了,那對于整個產(chǎn)業(yè)來說將會帶來莫大的好處,像AMD這樣的公司也將迅速推出相應(yīng)的產(chǎn)品來搶奪利潤,而 有了競爭的調(diào)節(jié),最終我們才能用到物美價廉的產(chǎn)品。
總結(jié)
以上是生活随笔為你收集整理的(转)原子时代来临-Intel革命性Atom透析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 常见的一句话muma
- 下一篇: ios逆向工具 theos tweak多