AMD這幾年來像坐了一次驚險的雲霄飛車。我們都知道,Intel幾年前讓設計小組平行開發兩種架構,主攻高時脈的Netburst變成大家熟悉的舊Pentium 4和Xeon,低功耗的P6架構則變成第一代Centrino裡的Pentium M。在當時,AMD的研發資源、產能....簡單的說,就是AMD的本沒那麼粗可以一次玩兩種架構,他們把一切希望都放在K8,也就是現在的Opteron、Athlon 64和Turion 64。

大家很清楚後來的演變,K8的HyperTransport和內建記憶體控制器的新創意獲得極大的成功,桌上型和伺服器產品都狂扁Pentium 4和Xeon,尤其是在伺服器端,Opteron的低功耗和高效能讓AMD風光至極。當然,Intel大魔王也不會眼睜睜的看著江山被侵蝕,Centrino超級成功,變成強勢品牌(幾乎是「唯一」品牌),於是Intel把它的Pentium M挖出來狂改,歷經Banias、Dothan、Yonah、Merom....硬是在幾年之內生一個演化後的Conroe架構,也就是現在的Core 2系列,重新取回桌上型效能王者的寶座。現在幾乎所有玩家都買烤土豆和烤土瓜,就知道Core 2有多麼成功,逼得AMD只能不斷降價來保持競爭力,而同樣的架構也推進伺服器的Xeon,讓Intel扳回一些顏面。

今天,則換AMD出招了。一方面要鞏固目前伺服器端的地位,另一方面則要搶回桌上型的氣勢,並看有沒有機會偷吃更多Notebook市場。風聲謠傳超過一年之後,AMD在9月10日全球同步發表新的CPU架構,Barcelona,真芯可鑒,四核無雙!



今天AMD發表的是Barcelona架構的Opteron伺服器CPU,AMD換上全新的識別標誌,四核環清楚表示原生四核心。


全球北京首發
Barcelona是AMD以K8為基礎做強化的新架構,會逐步使用在全系列的CPU產品,9月10日AMD在全球七個城市同步發表Barcelona(不知道有沒有在西班牙巴塞隆納發表Barcelona?),但因為時差的關係,北京變成全球首發的城市,Mobile01很榮幸獲邀至北京參加這場大規模的記者會,並在第一時間搶先報導。

這場記者會的規模有多大?連北京交響樂團都出來了!更重要的是,連AMD的技術長Phil Hester本尊也到現場了,Mobile01逮到機會採訪到這位高層人士,本篇後面有他對技術與遠景所做的精闢回答。



Barcelona發表會的主題是「真芯可鑒,四核無雙」,主要就是強調Barcelona是原生四核心,不是Intel目前把兩顆雙核心包在一起的過渡方案,「真四核」是Barcelona的一大優勢。



會場外有展示許多新Opteron的機器,像這款四路的主機板。



Opteron 2347實機運作,時脈1.9GHz,目前Barcelona架構的Opteron,時脈有1.7GHz、1.8GHz、1.9GHz、2.0GHz,年底會推向2.5GHz。



1.9GHz的雙路Opteron(共八核心),比Intel Xeon 2.0GHz快上不少。



Sun所展出的Opteron伺服器。



IBM是Opteron的忠實支持者,這次當然也沒有缺席。


Barcelona技術發表會
北京這場是全球首發,因此AMD砸了重本,請來北京交響樂團演奏「巴塞隆納交響曲」,發表會就在隆隆的管弦樂中開始與結束,我第一次這麼近距離聽實際的管弦樂團演奏,雖然摻了一部分電子樂,但魄力真的十分驚人!



北京交響樂團演奏的「巴塞隆納交響曲」分成三段,放在發表會的開始、中間和結尾,氣勢真的很大!



一群達官政要(大部分是什麼信息部的機構)要與各大OEM廠商放煙火慶祝Barcelona發表。


發表會大部分都蠻無趣的,很像台灣早期的OOXX頒獎,請來一堆政府大官來上台下台上台下台做無聊的廢話連篇,開頭盡是「尊敬的XX女士...」(我的天啊~),真正有趣的是AMD技術長Phil Hester的Barcelona技術簡報,由於Barcelona架構改變很多,他沒辦法面面俱到,只提到一些大重點,我們之後也會另開專題,詳細解說Barcelona架構,這裡就挑幾個有趣的部分介紹。



AMD技術長Phil Hester手拿的就是Barcelona的晶圓。



Barcelona的主要特色,核心、快取、浮點運算都有加強,而原生四核心、高效能低功耗的設計是他們的最大優勢。



AMD未來的Roadmap,2007年(也就是現在)發表65nm的四核心,明年縮減製程到45nm,2009年會出現45nm的八核心。



針對Barcelona,AMD使用一個新的名詞(Average CPU Power,平均CPU功耗)與傳統TDP共用,ACP代表的是CPU在高負載時的熱功率。



AMD的TDP定的比較嚴格,但絕大部分的情況並不會到TDP所標的數值,而ACP代表的是「真實使用」時的功耗,會比TDP低20%左右。Phil Hester在專訪時有特別再做解說,我想這會讓AMD CPU未來的功耗值更「好看」!



現在各種晶片都不再強調絕對效能,而是「效能/功耗」值,最重要的是在單位瓦數中取得最大效能,而Barcelona架構的Opteron 2350,相比瓦數接近的Xeon 5345,效能高了67%。而且Intel的瓦數計算是沒有加上記憶體控制器的,所以AMD的功耗實際上還要再低40~60W。



當K8的Opteron第一次出現時,只有IBM相挺,現在Barcelona的Opteron一出,就超過50台產品準備推出,AMD在伺服器端的成功可見一斑。



AMD短期的Roadmap,AMD採取比較保守的方式做世代交替,而不是Intel那種砍掉重練。目前的Opteron是跟舊Opteron相同的Socket F 1207腳位,支援較舊的DDR2-667,年底會換成Socket AM2,並支援到DDR2-800。明年的「Shanghai」(上海),就是45nm的Barcelona,會加大L3快取到6MB。



Phil Hester也順便預告了Barcelona架構的桌上型CPU,型號是Phenom和Phenom FX,新logo也符合Opteron的風格。


以下是Barcelona架構的重點特色整理,之後我們會有專題詳細講解每一項技術

.原生四核心,64位元
.Direct Connect架構:內建記憶體控制器,HyperTransport
.AMD-V虛擬化技術,包括Rapid Virtualization indexing,提升虛擬化的效能
.加強版PowerNow!省電技術
.獨立調整四顆核心的時脈與電壓
.AMD CoolCore:關閉不必要的CPU線路來省電
.Dual Dynamic Power Management(DDPM):核心與記憶體控制器可獨立調整電壓
.AMD Memory Optimizer技術
.AMD Balaced Smart Cache(加入新的共享L3快取)
.AMD Wide Floating-Point Accelerator
.低功耗 HE 型號
.支援DDR2記憶體
.支援SSE4a多媒體指令集
.Optimized Platform Management Architecture
.Enhanced Virus Protection



專訪AMD技術長
從整個Barcelona的Opteron規格來看,傳統的Socket F和舊的HyperTransport 2.0都表示AMD不想太過躁進,而是無痛、循序的逐漸升級。對OEM廠來說,Barcelona只有核心改變而已,對外的HyperTransport和支援的記憶體都沒變,只要主機板小小改一下就可以立刻升級,效能提升50%,客戶也不必花太多升級成本,真是皆大歡喜的結局。

另外比較有趣的是,Barcelona的確有不少學習Core架構的地方,比如SSE指令的運算、多核心獨立電源管理、加強的分支預測等等,但AMD模仿的都是小地方,跟著Intel一起改進,反倒是Intel學習AMD的「大方向」,比如Intel下一代架構就要加入內建記憶體控制器,甚至HyperTransport的翻版CSI,GPGPU的部分就更不用提了。

那些細節我們留到未來的純技術專題再聊,Barcelona內部的技術遠比發表會上講的多很多,我們逮到AMD技術長上飛機前的一小時(他得到日本和韓國趕場),問他更細部的Barcelona技術,這是亞洲記者少有的機會能採訪到AMD技術長Phil Hester(以下簡稱PH)。



Phil目前負責所有AMD與ATI未來產品架構的開發方向,是購併ATI的幕後推手之一,也是Fusion處理器(整合CPU和GPU)主要規畫人,簡單的說,他是AMD智囊團的核心。

Q:Barcelona在電源管理方面有什麼新的改進?

PH:Barcelona的內建記憶體控制器和核心的電源是分開管理的,兩者分別可取得最優的功耗與效能,而且四核心的每一顆核心都有更精細的調整方式


Q:ACP和TDP有什麼不同?

PH:TDP是Thermal Design Power,那是根據製程所定的最嚴苛的熱功率數值,舉例來說,TDP會考慮CPU處於最高時脈時的發熱、或是空氣在海拔3000公尺時的比較稀薄的密度,TDP用的都是最嚴格(Worst Case)的標準,因此TDP保証CPU可以在最糟的狀況下執行。但統計顯示只有極少部分機器處於最糟的運作情況,那ACP更能精確的預測一般運作的「平均」情況下機器的功耗值。


Q:那未來會強調ACP還是TDP?

PH:兩者都會,工程師會繼續使用TDP,未來並不會改變CPU熱功率設計的方式。ACP則是讓IT管理人員可以更精確的規畫機房或Datacenter的散熱與電力配置。


Q:那未來所有AMD處理器都會有ACP和TDP?

PH:是的,所有未來的AMD處理器都會有這兩個數值,包括桌上型產品。
(編按:這會讓AMD CPU的功耗值帳面上好看一點,或更有競爭力,因為Intel的TDP定義向來就不是最嚴格的數值,反而是比較接近AMD未來所要用的ACP。)


Q:AMD目前的Opteron是用NVIDIA和Broadcomm的晶片組,AMD之後會用ATI的晶片組(在Server上)嗎?

PH:會的,我們未來會發佈。


Q:Barcelona之後會支援DDR2-800嗎?

PH:在未來,是的。


Q:為什麼現在Barcelona只有HyperTransport 2.0,而不是新的HyperTransport 3.0?

PH:因為現在這個時間點,HT 2.0提供不錯的效能和相容性,我們必須考慮整個平台的轉換。未來也會用到HT 3.0,但首先必須想到客戶的利益,不能因為快速轉換而帶來不必要的風險。


Q:今天發表的Rapid Virtualization indexing(RVI)和之前的AMD-V有什麼不同?在虛擬化方面會有什麼加強?

PH:Nested Page-Table(註:RVI的另一個名字)可讓硬體,而不是軟體去對應不同的I/O狀態,現在虛擬軟體必須花很大的資源把I/O的狀態,從一個切換到另一個,這得佔用不少CPU的時間。如果可以用硬體直接支援,就可以減少overhead,並把更多CPU資源放在應用程式上。


Q:RVI會加快Hypervisor多少效能?(編按:Hypervisor是最底層的虛擬化軟體,在它上面是作業系統。)

PH:不同的Hypervisor有不同的結果,像VMWare或微軟的方案等等,但如果看數字的話,最低至少有15%成長,最高則到90%以上。


Q:Quad Core目前的良率如何?

PH:Quad Core的良率跟Dual Core一樣。


Q:Barcelona發表之後,會對HPC(High Performance Computing)的市場有什麼影響?

PH:回顧第一代Opteron的發表,市場出現很快速的轉換,因為我們展示了價格、效能、耗電的優勢,而Barcelona的發表,我想我們會看到相同的轉換。


Q:去年AMD發表了Torrenza、co-processor accelerator,在Barcelona之後,會改變Torrenza計畫嗎?(編按:Torrenza是AMD的一個架構想法,利用HyperTransport串連各種處理器,不止是CPU。)

PH:Torrenza計畫並沒有改變,因為Torrenza的導入是在Socket F環境,Barcelona的策略並沒有改變。

Q:利用Torrenza,AMD想把AMD CPU和R600顯示晶片(註:Radeon HD 2900XT)合起來達到高效能運算,為什麼這次沒有demo出來?

PH:這個特殊的例子是Torrenza的強項,讓Torrenza達到傳統CPU所不能達到的超高效能,我們在Analyst Day有發表很多東西,但這次主要著重在Barcelona,未來你們會聽到更多Barcelona以外的計畫。

Q:為什麼SSE4的CPU才剛剛上市,你們就已經發表SSE5的白皮書?

PH:因為軟體開發需要兩年的時程。


Q:為什麼L3快取設定在2MB,是因為die size的考量嗎?另外,快取的命中率(Hit Rate)如何?

PH:這是價格和效能的考量,你必須平衡效能和die size的取捨,我們有個非常精密的分析工具,可以在各種理論快取設定下模擬執行不同的工作,這給我們的die size和效能的最佳平衡點,加上原本的L2和L2,2MB的L3是最佳的平衡。關於Hit Rate,真正有趣的問題是如果L3快取沒命中(miss),會浪費多少時脈週期?如果內建記憶體控制器,2MB的L2快取會比4~6MB L2有更好的效能,如果4~6MB L2是沒有內建記憶體控制器的話(編按:指Intel的架構。)。如果看這種設計所佔的面積,2MB加上內建記憶體控制器,有更小的die size和最好的效能。


Q:Barcelona的管線有多少階(stage)?

PH:這要看浮點運算單元和一堆東西,我不能只給一個數字。


Q:在未來,你認為浮點運算會比整數運算來的重要嗎?

PH:他們一樣重要,但我想的較為不同,我認為未來的向量運算(Vector Processing),會跟現在的純量運算(Scalar Processing)一樣重要。過去CPU都著重在純量運算,但如果看未來的應用,像影像、遊戲、3D繪圖等等,所有的應用並不適合現在的環境,在未來,我想你們會看到一些GPGPU設計,為向量平行運算最佳化。


Q:請問Barcelona在解碼器和執行單元有什麼重大的改變?

PH:在解碼器的部分,x86難以解碼是一個迷思,事實是,Intel和AMD都已經解決這個問題,解碼器佔掉不少晶片面積,但現在這只是比較小的問題了。可以被加強的是分支預測(Branch Prediction)的能力。在執行單元的部分,亂序執行能力(OOOE),Speculative Execution、Register renaming能力都有加強。


Q:現在的軟體需要做什麼改變才能善用四核心的能力?

PH:這要看軟體,如果觀察伺服器端的軟體,他們通常都是設計給多處理器環境,而多核心基本上就是單晶片SMP,所以通常不需要什麼改變,因為軟體已經準備好可以在多核心環境下執行了。但在消費端就很不同了,過去25年來程式都是為單核心所寫,直到最近才改變,這是極大的挑戰。

而更實際的問題是,現代的軟體愈來愈強調多媒體(Media Rich),所以,如果微軟花時間把Word做成相容Quad Core,我覺得那是沒有意義的,因為事實上只需要一個核心就綽綽有餘了。另一方面,如果你看遊戲應用,如果你想要更真實的畫面,那就不是x86 CPU的問題,而是GPU的問題。因此,業界會犯的一個錯誤,就是認為消費端軟體會需要多核心,而不是高時脈,但我個人認為這跟現有軟體無關,而比較跟新的軟體有關。

(編按:CTO這部分講的意思有點模糊,但我想應該回答了版上許多人的問題,或許一些簡單的文書軟體沒必要多核心,未來的軟體也不一定要多核心,而是會變成需要向量運算的CPU,也就是AMD所提的Fusion。)


Q:最後一個問題,我想問一下CTO現在正在用的電腦配備是什麼?

PH:哈哈哈!你一定會愛死的,身為AMD的CTO,我可以玩各種新玩意,我現在用的高階電腦是3.0GHz的Barcelona,之前在Analyst Day有展示,有ATI Radeon 2900XT Crossfire、4GB記憶體、2TB硬碟等等。我15歲的兒子有很多遊戲配備,大部分是Athlon64 X2 4000+,我用的Notebook是富士通AMD雙核心。兩台我自己從HP和Dell買的電腦,都是AMD雙核心。
(編按:告非!真爽.....)


再次謝謝Phil Hester接受我們的採訪!


一些後話
在北京的時候,我們和AMD的台灣區行銷總監王伯寧有一場愉快(且昂貴)的晚餐,聊到許多Intel和AMD行銷手法上的差異。Intel的積極、強勢、近乎壓迫下游的手段讓AMD喘不過氣,但一方面AMD沒有財力跟他們玩大的,另一方面公司文化也較為保守,因此AMD穩紮穩打,不隨著他們起舞,不然只是花錢打亂自己的產品線(Intel這方面就無所謂,反正錢太多)。在Intel狂賣一顆水餃兩個餡的四核心CPU之後,隔了一段時間AMD才發表原生四核心的Barcelona,可以看出AMD保守的政策。

這是AMD所決定的行銷策略,我小小編輯實在沒什麼好批評的。不過Intel也不像早期那樣四五年才孵一個新架構,他們未來打算每隔一年就改進製程和架構,現行的Core架構即將推出45奈米版本Penryn,再隔一年就有新的Nehalem架構,在AMD的絕地大反攻之後,立刻就要面臨Intel的帝國大反擊了。更新奇快的產品加上強勢的行銷,我只能期望Barcelona能夠成功,不只是因為我自己也算AMD的fan(啊!有失媒體中立),更重要的是沒人想看到Intel獨大,桌上型的Phenom趕快出吧!





最後,來一張Barcelona晶圓的近照,單晶片四核心的痕跡清楚可辨(晶片上有四個明顯的區塊),絕不是Intel的多晶片封裝(Multi-Chip Package)。