Intel真的是卯起來幹了!現在熱賣的Core 2 Duo才上市一年多而已,Intel已經打算逐漸汰換掉「舊」產品,全系列導入新製程,在本月Intel發表業界第一顆45奈米CPU--Core 2 Extreme QX9650,宣告Penryn架構產品線的正式上市,而且硬是搶在AMD發表Phenom X4原生四核心之前,拼裝多核心再度搶得先機,火藥味濃厚至極,簡直快要爆炸了。明年初大家就會看到Intel vs. AMD的「新製程 vs. 新架構」世界大戰,加上Intel Eaglelake、AMD RD790、NVIDIA nForce 7晶片組和板卡廠永遠清不完的庫存,2008年就是一整個歡樂啊!


製程縮小,架構演化

讓我們快速溫習一下古時候的歷史(其實也才兩年)。Netburst架構的舊Pentium 4整個鳥掉,讓AMD Athlon64佔上風,於是Intel把Centrino筆電的Pentium M處理器拿出來大改,歷經Banias、Dothan、Yonah,最後生出劃時代的新架構Merom(正式的行銷名稱是Core微架構)。現在Core 2系列的產品線都是Merom架構,衍生多種核心橫跨桌上型和行動型(伺服器當然也有,但本篇就略過了),比如現在玩家最愛的控肉CPU(Conroe)就是Merom架構的桌上型版。而本篇的主角Penryn架構,就是把Merom從65奈米縮小成45奈米,趁著製程改進,Intel也順便小修了一下Merom,雖不像下一代Nehalem架構那樣瘋狂大改,但也讓Penryn有更好的功耗與效能。



在Yonah核心之後Intel採取非常積極的「Tick-Tock」策略,Tick-Tock就像時鐘的滴答聲,兩年一個循環。在每一年的聲響中Intel都會來一次革新,一大一小,新製程的隔年就是新架構,新架構的隔年就是新製程,每一年都更新產品線,每一年都是過渡產品讓你不知道該怎麼買。去年的Core 2是65奈米的新架構Merom,在今年底Intel把Merom架構轉進45nm製程推出Penryn。再下一次就是全新架構Nehalem,那是Intel近十年來最大的架構革新。


Wolfdale原生雙核與Yorkfield拼裝四核
很不幸的,Penryn架構還是原生雙核心,對手AMD的Phenom X4已經換成原生四核架構,所以「原生四核 vs. 拼裝四核」的嘴砲還會再戰個一年,保証是討論區的月經文。第一顆Penryn架構的CPU是四核心的Core 2 Extreme QX9650,就像之前的QX6850或現在詢問度很高的Q6600,QX9650的Yorkfield核心是兩顆雙核心封裝起來,Penryn真正的本尊是雙核心的Wolfdale,除了QX9650,其餘Penryn的產品線都要到2008年才出。

Wolfdale核心會有FSB 1333MHz、破錶的6MB L2快取、電晶體數量高達410M,但因為45奈米製程,相較於現在Core 2所用的Conroe核心,Wolfdale電晶體數量多了40%(410M vs. 291M)、快取多了50%(6MB vs. 4MB),但晶圓面積反倒縮小了30%(107mm^2 vs. 143mm^2)。至於QX9650的Yorkfield,就是Wolfdale的規格全部乘2,820M的電晶體倒是第一次看到桌上型CPU的電晶體數量超越GPU,而12MB的L2快取.....我不知道要說什麼了,其實Intel不是生產CPU的廠商,而是生產快取的。



Wolfdale的晶片照片,雙核心基本上就是鏡像兩顆核心,而那一大片當然就是L2快取。


支援Penryn很簡單~
擔心Intel出新CPU就要砍掉重練的玩家別害怕,現在所有的3系列晶片組都支援Penryn,包括X38、P35、G33、G31等等,通常更新個BIOS就可以上了,NVIDIA之後的nForce 7系列也會支援Penryn(但不支援DDR3),真的想升級45奈米CPU,平台的選擇還蠻多樣的,高中低階都有。下面的表格是目前確定會出的Penryn產品線,筆電的Penryn會更新現在的Santa Rosa平台,大家會發現QX9650還不是最高階的,明年上市的QX9770時脈高達3.2GHz,也是首批有FSB 1600MHz的桌上型CPU。





Penryn產品線會有非整數的倍頻,因為333MHz的外頻很高,而Penryn架構的單一時脈效能又很強,倍頻跳一級就多333MHz,有礙於細分產品線撈更多錢,所以Intel新增了0.5x的倍頻,讓產品時脈可以用166MHz的級數來分。這些2008年的新產品會取代現有的一些產品線,不過初期都是取代中高階產品,其中我個人覺得最有趣的是Q9300,美金266元的四核心,擺明就是取代現在熱門的Q6600,但Q9300裡的兩顆雙核心卻都只有3MB,所以這顆「Q6600殺手」事實上L2快取比Q6600還少,爽度大減,感覺有點差。如果Intel打算跟AMD話題性高的三核心CPU對幹,就來一顆美金200元以下的低階四核心吧!關了一半快取、降到45奈米製程的Q9300,應該有機會可以賤價大拍賣吧?就看Intel的誠意了....


Penryn 架構分析 & 相關測試

雖然說Penryn是Merom架構的45奈米縮小版,但如果只有這樣,那大概只有Intel控會買,Intel幫Penryn做了一些架構的調整,除了SSE4比較大之外,其他都是小幅度的加強,讓Penryn有比Merom更好的效能,但又不至於佔用太多電晶體(大部分的電晶體都放在快取上了吧?),在45奈米製程下更能有效控制成本,讓Intel賺更多錢,蓋更多晶圓廠污染地球....(我說到哪去了?)

底下列出一些Penryn的架構改進,並列出相關的測試結果,詳細的一般效能測試則放在最後面。

45奈米製程,Metal Gate加High-K
製程縮小會遇到的主要問題就是漏電流(Current Leakage),尤其是在閘極介質(Gate Dielectric)之間的漏電,閘極在晶圓的電晶體裡扮演絕緣體的角色,過去有一段時間是用金屬,但因為金屬的耐熱程度、處理困難度都比多晶矽(Polysilicon)差,而且金屬在製程時會散進矽晶圓,所以後來大家都用多晶矽來做閘極介質。但多晶矽並非良好的的絕緣體,在65奈米的時候,多晶矽閘極介質只剩5個原子那麼厚,因此難以克服漏電問題。

但Intel不愧是世界一流的半導體晶圓廠,他們硬是把金屬帶回閘極介質,解決難以處理的障礙。透過Metal Gate和High-K的鉿物質,Intel在45奈米製程上做出突破,他們沒有透露是何種超合金和詳細的製作方法,畢竟那是商業機密。但Intel強調他們的45奈米製程可以達到2倍的電晶體密度、30%的省電、加快20%電晶體的切換速度,換句話說,就是時脈更高、功能更多、但更省電了。



Intel的45奈米製程在電晶體構成物質上做了很大的改變,原本以多晶矽做閘極介質,現在改成金屬物質,官方沒有提到是什麼金屬,但宣稱可以降低漏電。


各位大大應該都是半導體產業的製程工程師,所以我就不賣弄了,對我來說最重要的問題是:45奈米製程的Penryn到底有沒有更省電?,我抓了QX9650和QX6850做比較,這兩顆CPU的時脈相同,只有製程架構不同,利用SP2004指定CPU核心執行的方式操到四核都100%佔用率,看看整機的耗電和溫度狀況。



測試結果讓我大吃一驚,雖然QX9650和QX6850的TDP都是130W,但整機耗電量QX9650硬是低了40W左右,省電幅度達20%,無論待機或全速都明顯比較省電,講一堆Metal Gate或High-K好像很唬爛,但45奈米的Penryn架構真的比較省電,而且幅度還蠻大的!



溫度的部分也是,我們是用相同的風扇做測試,QX9650在全速時溫度低了快20度,但因為我手上的QX9650還是工程版,所以就沒仔細測超頻的部分,但不加電壓隨手調了一下就拉到3.6GHz,表現也比QX6850好。


24路、6MB暴肥L2快取
Penryn原生雙核心架構的L2快取加大50%,從Merom的4MB共用L2快取加到6MB,拼裝四核心就擁有12MB的驚人快取,除了「加量不加價」之外,Penryn也把L2快取從Merom的16路關聯強化到24路關聯。快取是暫存記憶體的位址,當CPU需要一個資料時,如果快取裡有暫存,就不用再到記憶體裡翻找,處理速度會加快,而「關聯性」(Associativity)是指某個主記憶體的位址可以放在某個快取區塊,16路就代表在16個快取區塊之中選一個來放,但必須覆蓋掉原來那個區塊所放的資料。



Penryn的快取關聯性從16路增加到24路,在CPU-Z裡可以看出來。


增加關聯性是兩面刃,因為寫入快取必須覆蓋掉原來的資料,會有機會發生「覆蓋掉之後可能會用到的資料」的狀況。用有點錯誤但比較容易理解的方式,16路關聯性就會有1/16的機率蓋掉之後可能會用到的資料,若真的發生這種情況,就會間接提高快取的失誤率(因為先前的資料被洗掉了),而增加到24路的話,這個覆蓋的機率就降到1/24,進而減少失誤率。可是增加關聯性,就代表CPU需要快取資料時,得再24個區塊裡找,會增加快取延遲。所以才說是兩面刃,減少失誤率固然很好,但若增加快取延遲,那就不好了。

我用CPU-Z附的程式來測試快取延遲時間,得到的結果如下:

項目Core 2 Extreme QX9650Core 2 Extreme QX6850
CPU-Z Cache L2 Latency1514

QX9650的L2快取延遲從14個時脈週期增加到15,雖然變慢了,但算是維持過去的高水準,也就是Penryn架構加大快取、減少失誤率,同時保持相同的快取延遲。俗話說的好,「硬碟容量決定宅的力量」,快取容量也是如此(再掰嘛...)!Intel的主力商品果然是快取,功力不同凡響。


SSE 4.1指令集與Super Shuffle引擎
SSE4是Penryn最重要的改變之一,SSE系列SIMD指令集主要是針對多媒體、3D、遊戲、圖形等等做加速,詳細解說可參考「1-3.CPU進階技術講解,XD、VT、SSE在幹嘛」。而在Penryn架構中,Intel新增了47個SSE 4.1的指令,為什麼說SSE "4.1"?因為整個SSE4指令集總共有54個指令,剩下7個指令則留到下一代的Nehalem再補完SSE 4.2。

雖然不完整,但SSE 4.1仍然可增加多媒體效能,尤其MPSADBW和PHMINPOSUW兩個指令,大家應該都是程式設計師,所以我就不說細節了,只要知道它可以幫助影片壓縮的速度,影片壓縮時基本上是取一張基礎畫面,然後去比對各畫面和基礎畫面的差異,這兩個指令就是專門做這件事。

除了新的SSE指令集,Penryn還有與之搭配的「Super Shuffle」引擎。SSE主要是運算向量資料,但應用程式不一定會整整齊齊的把資料排成標準格式,Super Shuffle引擎會快速最佳化這些資料,讓SSE執行單元隨時保持滿載,加快SSE的執行速度,且不需要軟體更新就可以對所有的SSE2、SSE3、SSE4做最佳化。



Penryn架構支援SSE 4.1指令集,主要加強影片壓縮、3D、圖形等等。



其中比較重要的是MPSADBW和PHMINPOSUW兩個指令,Intel宣稱有1.6~3.8倍的加速。(不過Intel也曾宣稱HyperThreading可以加快30%,所以.....)



Super Shuffle引擎可以針對資料格式重排的動作做加速,單一週期可以處理128位元,這對所有的SSE指令集都有效。


現在支援SSE4的「真實」軟體只有一套,DivX 6.7在壓縮時支援實驗性的「SSE4 Full Search」功能,這就是利用SSE指令集來比對畫面,預設是關閉的,打開之後可以加強畫質,但壓縮速度會比關閉的時候慢。這功能可用SSE2或SSE4來做,只有CPU支援SSE4才會出現SSE4的選項,剛好可以看看SSE4比SSE2快多少。



我是用VirtualDub Mod壓縮一個MPEG-2的影片,在壓縮時選DivX 6.7。



在Codec的壓縮選項裡會有「Experimental SSE4 Full Search」,有關閉、SSE2、SSE4的選項,但關閉時的畫質較差,所以用SSE2和SSE4來測試壓縮時間。



由於QX6850不支援SSE4,所以DivX 6.7也沒出現選項。而從QX9650的SSE2和SSE4成績來看,SSE4的確讓壓縮時間縮短20%,而看QX9650與QX6850的SSE2成績,也會發現QX9650快了5%。SSE4和Super Shuffle引擎還的確有效,雖沒有Intel宣稱的那麼誇張,但仍然是相當顯著的提升!


電源管理【Mobile版Penryn限定】
電源管理新增的部分只有Penryn的筆電版核心才有,桌上型無福消受。簡單的說就是兩個新的省電技術,「Deep Power Down」的假死狀態和「Enhanced Dynamic Acceleration Technology」的無雙超頻,都不難理解,直接看圖說故事就好。CPU更省電,筆電廠商就更容易找出新功能來吃電,真是太完美了!



Deep Power Down就是在現有的C4之下再多一層省電狀態,L1和L2快取都關閉,CPU電壓降到更低。



Deep Power Down是CPU和晶片組合作,只留下最小部分的電力保持開機狀態,不過喚醒的時間與步驟較長。



因為Deep Power Down喚醒過程會吃掉多餘的電力,如果短時間喚醒次數太頻繁,CPU會起肚爛,變得更耗電,所以當系統遇到這種情況時,會自動提升到C4狀態來降低因為頻繁喚醒的耗電。



圖片畫的很複雜,其實Enhanced Dynamic Acceleration Technology技術很容易理解,就是「半顆CPU做超頻」,雙核心遇到單執行緒的程式時,就讓其中一個核心進入C-State省電狀態(C3~Deep Power Down),然後在不超過原本TDP的條件下,自動超頻另一顆核心,在相同的耗電下讓單執行緒的程式跑的更快,很讚吧?可惜只有筆電的Penryn才有,這很適合只做文書處理或上網的電腦。


其他小強化(不是小強喔...)
最後是Penryn的一些小規模改進,真的很小,都是非常細節的東西,能轉換成多少實際效能還有待測試。



Fast Radix-16 Divider改進除法器,可最佳化浮點和整數運算,加強3D和圖形效能。



為了加快讀取超過8位元組邊界的儲存結果(Store),Penryn可以把儲存結果提前來加快載入,不必等儲存動作完成。說實話,我不知道這東西在幹嘛的,看了Intel官方的白皮書還是不懂,但號稱可以加快載入的速度,應該對效能有一點點加強。


Core 2 Extreme QX9650 一般效能測試

目前Penryn架構的CPU總共有一千零....一顆,也就是QX9650,Yorkfield核心、3.0GHz、FSB 1333MHz的規格,剛好跟現在的QX6850(Kentsfield核心)完全對應,除了核心架構不同之外,其他時脈規格通通一樣,剛好可以對照出Penryn相對於Merom有多少單一時脈(clock-by-clock)的效能成長,也能推斷出同時脈的Core 2 Duo變成Wolfdale核心之後會快多少。

雖然上面洋洋灑灑寫了一堆,但要記得那些都是小加強,別指望看到Pentium D -> Core 2 Duo那種效能暴走的情況,畢竟這次是製程革新而非架構大改,SSE4、快取延遲和耗電我們已經看到Penryn的出色的表現,而在一般軟體上,Penryn到底能快多少呢?



本次所測的Penryn架構CPU是QX9650,我拿到的還是ES工程版。



我不知道為什麼要拍這個,但還蠻炫的...嘻嘻。



QX9650的CPU-Z資訊,45奈米讓核心電壓小降了一點(1.2750 V -> 1.216 V)。


測試平台

CPUIntel Core 2 Extreme QX9650
Intel Core 2 Extreme QX6850
主機板技嘉 X38-DQ6
記憶體Kingston KVR1066D3N7K2(DDR3-1066) 1GB x2
硬碟Seagate 250GB 16MB Buffer
螢幕BenQ 241W(原生解析度1920x1200)
電源供應器七盟 1000W
作業系統Windows XP Professional
Windows Vista Ultimate
顯示卡NVIDIA GeForce 8800GT(Forceware 169.02)



整體效能

首先是整體效能,QX9650反應在PCMark05整體效能的部分並不明顯,1%的成長幾乎是誤差值了,比較明顯的是記憶體效能的部分。而用7-Zip來測,壓縮和解壓縮分別測試記憶體延遲和整數運算能力,QX9650相較於QX6850大約有3.5%的成長。


CPU理論效能

用Sandra測CPU的理論效能,ALU整數運算效能幾乎沒差,但SSE3的部分則有明顯成長,幅度達14%,Super Shuffle和大快取還是有用的。



雖然用的記憶體和北橋都一樣,但QX9650的記憶體存取效能也比QX6850好一些,加大快取和強化快取關聯性都表現在記憶體效能上。



NuclearMC是測CPU理論效能的小工具,總分是由ALU整數運算、FPU浮點運算和多執行緒效能做平均,而總分14%的成長幾乎都來自於多執行緒效能,Penryn在平行運算的能力上明顯比Merom架構還強,雖然這是理論的平行運算能力,但對多工作業一定有幫助!


多媒體

我用AutoGK加Xvid測試影片壓縮張數,愈大愈好,Xvid已經支援SSE2/SSE3,Super Shuffle和大快取反應在效能成長上。



MultiThread Lame是Lame的多執行緒版,支援SSE3,我測試壓一整張專輯的時間,愈短愈好,QX9650比QX6850快了10%。



Cinebench R10是多執行緒化非常好的軟體3D Render程式,QX9650也有將近9%的成長。


遊戲效能

遊戲效能的部分向來非常弔詭,因為會買高階CPU來打電動的人,一定會配一張高階顯示卡,但CPU在遊戲上的加強只有遊戲效能的瓶頸是在CPU上的時候,也就是開低解析度時。以我的測試來看,只有在1024x768下才有明顯的成長,但沒有玩家會買高階顯示卡還跑這種小爛解析度。而拉到1280x1024以上之後,瓶頸就轉到GPU上,QX9650就沒有明顯的效果了,即使是Crysis的CPU測試(跑一堆物理特效)也沒成長。

多工效能

最後是測多工能力,我先用AutoGK開始背景壓影片,然後前景跑MT Lame,看多工和單獨只有MT Lame時的變化。QX9650原本在MT Lame上有10%的加速,多工之下提升到14%,可確定Penryn在多工效能上有改進。


以同樣的方式測7-Zip,背景跑Cinebench,多工效能也有成長,不過整數運算的幅度就沒有多媒體程式那麼明顯了。


升級45奈米Penryn會爽嗎?

簡單一句話,還蠻爽的!

當然,只有鬼才買得起QX9650,但見微知著,從QX9650可以看出Penryn架構的特色,主要歸納成幾個重點:省電20%、4%的一般效能加強、10%多媒體效能加強、20%的SSE4效能加強、更好的多工效能,這是同時脈的Penryn和Merom架構做比較,Intel的產品線其實更積極,仔細對照Merom和Penryn的前後代CPU,除了第一顆QX9650取代的QX6850是相同時脈之外,未來的Penryn新產品都比舊CPU快上166~333MHz,也就是同價格前後代產品的效能加強會更明顯(尤其是最便宜的兩顆),只有取代Q6600的Q9300最奇怪,時脈上升幅度最小、快取還少了2MB,大概不想打到自家的中階雙核心吧?

但Penryn仍然只算是小加強而已,已經裝了C2D的玩家其實不太需要升級,除非真的很在意省電、多媒體效能或SSE4(尤其是省電20%),不然一般軟體的效能差距,隨便超頻一下就有了。但如果還在用Pentium D或更舊的平台,那砍掉重練升級到Penryn保証非常爽快,C2D玩家不妨等到下一代的Nehalem出來,再一次升級主機板、DDR3記憶體和全新架構的CPU。

結語
整體來說,Penryn的表現很不錯,基於原本就很棒的Core微架構之上再做加強,效能稍微提升且功耗大幅下降,讓CPU的每瓦效能(Performance per Watt)提高甚多。而且別忘了QX9650是第一顆45奈米CPU,對比經過無數次改進的65奈米CPU還能有優秀的功耗表現,未來的45奈米中低階CPU讓人非常期待。

在這個月,對手AMD也將拱出原生四核的桌上型CPU和Penryn對打,雖然Barcelona架構在伺服器端可完全發揮實力,但桌上型的Phenom似乎面臨效能與TDP的問題,我們可以期待Phenom的出現,不過未來情勢應該跟今年差不多,AMD繼續玩平台(這次變三合一了,CPU、主機板、顯示卡)與價格戰,而Intel則坐穩最高效能的寶座,QX9650甚至還不是Penryn最高階的CPU,45奈米製程也能讓晶片成本下降,只要Intel把全系列產品橋到和對手相同的價格,然後效能超越一點就可以躺著賺,專心研發下一代架構來奪回伺服器市場了。