科技黑天鵝:蘋果會集成NPU,類似寒武紀處理器將迎來人工智慧的大暴發嗎?

黑科技:寒武紀處理器將迎來人工智慧的大暴發嗎?(非馮依諾曼架構)

好幾年前我寫過一些文章,說明現在在AI人工智慧面臨的瓶頸並不是演算法,演算法在10年前2006年已經有了一些突破例如:人工神經網路算法、CNN捲積運算、自主無監控的深度學習演算法等,
但是這種演算法消耗的資源量極大,主要原因是馮依諾曼架構(一種把記憶體MU和算術邏輯單元ALU分開存放和處理的架構)限制了效能

而在前幾年Google為了讓電腦學會認知甚麼叫做一隻"貓" 拿給他看各種的貓的圖片,讓電腦自己學會貓,但是這台電腦是一台超級計算機,為了學會三歲小孩都認得的各種貓的圖案,他用了數萬個CPU和無數的電費(幾十萬瓦特),和深度學習算法計算了幾個月,才能訓練電腦認得什麼叫做"貓"

而在今年阿爾法Go又更進一步用了幾千個GPU來打敗李世石圍棋

而現在中科院已經研發出一款處理器,他不同於馮依諾曼架構,也不是CPU、GPU、DSP等處理器的架構,而是一種神經元處理器,能夠把深度學習演算法的效率提高2~3個數量級

1個數量級是10倍
2個數量級10^2次方是100倍
3個數量級10^3是1000倍

用他來運算深度學習演算法
他比GPU省電 125倍
比CPU至少高了一千倍的效能
而且他不是一顆DSP數字信號處理器舊瓶裝新酒的架構
他是一種稱為神經處理單元(neural processing units, NPU)的處理器


高度的省電+低成本代表他可以集成到手機SOC裡
這是IT界的黑天鵝


以下轉
------------------------------
蘋果聘請卡內基梅隆教授帶領AI團隊
深度學習進入芯片領域,揭秘寒武紀神經網絡處理器
就在全世界媒體的焦點鎖定於谷歌AlphaGo連續3盤戰勝李世石的同時,中國科學院計算技術研究所陳雲霽、陳天石課題組提出的深度學習處理器指令集DianNaoYu被計算機體系結構領域頂級國際會議ISCA2016(InternationalSymposiumonComputerArchitecture)所接收,其評分排名所有近300篇投稿的第一名。模擬實驗表明,採用DianNaoYu指令集的寒武紀深度學習處理器相對於x86指令集的CPU有兩個數量級的性能提升。

深度學習進入芯片領域,揭秘寒武紀神經網絡處理器

(寒武紀處理器)
寒武紀處理器是長期技術積累的成果

陳天石和陳雲霽研究員在2014年5月刊發的《中國計算機學會通訊》(第10卷第5期)寫道:

「從2008年到現在,我們已經在體系結構和人工智能的交叉研究方向上工作了6年。作為國際上為數不多的幾個長期開展此方向研究的團隊之一,我們在不被認可中堅持了下來,並嘗試通過自己的努力來改善這個領域的環境(當然近年來環境的改善也得益於深度學習的興起),最終得到了學術界一定程度的肯定。


回想起來,如果我們緊緊跟隨國際學術圈的熱點走,我們是很難拿到ASPLOS最佳論文獎的。原因有兩個方面:第一,當我們看到別人的「熱點」論文發表後再去跟著做,可能已經比別人晚了若干年。尤其是體系結構領域,論文的工作週期非常長(ASPLOS2014上發表的論文,我們在2012年就啟動相關工作了),要跟上熱點很困難。第二,當跟隨熱點時,我們的工作不可避免地會被視為對某個過往論文的改進。這種改進效果必須非常顯著,機理必須非常清晰,才能打動頂級會議挑剔的審稿人。這對於論文寫作提出了很高的要求,而中國大陸研究者往往在英文論文寫作上不佔優勢。但這裡存在一個矛盾:緊跟多變的國際學術圈熱點,論文不容易在頂級會議上發表;而探討的問題若不是國際學術圈熱點,論文同樣很難在頂級會議上發表。


面對這個矛盾,我們的看法是:研究者應該堅持自己的學術理想,重視論文但不為論文發表所左右;同時儘力宣傳自己的研究方向,推動這個方向被國際學術圈的主流認可。經過長期的等待和努力,也許有一天,自己的研究方向就會成為熱點。到那時,過去的一切坎坷都會被證明是值得的。」

截至目前,陳天石博士和陳雲霽研究員就光寒武紀系列的技術成果,已經斬獲兩篇ASPLOS,兩篇ISCA,一篇MICRO,一篇HPCA,這些是計算機體系結構方面國際四大頂級會議,只不過只有科研圈子裡關注,普通人還不明白其中的意義。

因此,寒武紀處理器並非藉著藉著阿法狗對決李世石的熱點橫空出世,而是長期技術積累的結果,並在數年前就於高端國際會議中榮獲殊榮。事實上,中國在智能芯片上是引領世界的——以寒武紀芯片為例,美國的哈佛、斯坦福、MIT、哥倫比亞等高校都跟在我們後面做。鐵流認為,寒武紀之所以過去一直不見於主流媒體,僅僅是國內很多媒體人缺乏專業知識和辨識能力,而導致了更願意鼓吹國外所謂「高科技」,卻對真正非常具有含金量的自主技術選擇性失明。


深度學習進入芯片領域,揭秘寒武紀神經網絡處理器

陳雲霽(左)和陳天石(右)兄弟
寒武紀神經網絡處理器廬山真面目

目前,寒武紀系列已包含三種原型處理器結構:

寒武紀1號(英文名DianNao,面向神經網絡的原型處理器結構);

寒武紀2號(英文名DaDianNao,面向大規模神經網絡);

寒武紀3號(英文名PuDianNao,面向多種機器學習算法)。

DianNao是寒武紀系列的第一個原型處理器結構,包含一個處理器核,主頻為0.98GHz,峰值性能達每秒4520億次神經網絡基本運算,65nm工藝下功耗為0.485W,面積3.02mm2。在若干代表性神經網絡上的實驗結果表明,DianNao的平均性能超過主流CPU核的100倍,但是面積和功耗僅為1/10,效能提升可達三個數量級;DianNao的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU百分之一量級。

DianNao的核心問題是如何讓有限的內存帶寬餵飽運算功能部件,使得運算和訪存平衡,從而達到高效能比。難點在於選取運算功能部件的數量、組織策略以及片上RAM的結構參數。由於整個結構參數空間有上千萬種選擇,模擬器運行速度不及真實芯片的十萬分之一,不可能蠻力嘗試各種可能的設計參數。為解決此問題,使用了一套基於機器學習的處理器性能建模方法,並基於該性能模型最終為DianNao選定了各項設計參數,在運算和訪存間取得了平衡,顯著提升了執行神經網絡算法時的效能。

即便數據已經從內存取到了片上,搬運的能耗依然非常高。NVidia首席科學家Steve Keckler曾經指出,在40nm工藝下,將64位數據搬運20毫米所花的能耗是做64位浮點乘法的數倍。

因此,要降低處理器功耗,僅僅降低運算功耗是不夠的,必須優化片上數據搬運。中科院計算所提出對神經網絡進行分塊處理,將不同類型的數據塊存放在不同的片上RAM中,並建立理論模型來刻畫RAM與RAM、RAM與運算部件、RAM與內存之間搬運次數,進而優化神經網絡運算所需的數據搬運次數。相對於CPU/GPU上基於cache層次的數據搬運,DianNao可將數據搬運減少10~30倍。
科技黑天鵝:蘋果會集成NPU,類似寒武紀處理器將迎來人工智慧的大暴發嗎?
深度學習進入芯片領域,揭秘寒武紀神經網絡處理器 (DianNao結構)

DaDianNao在DianNao的基礎上進一步擴大了處理器的規模,包含16個處理器核和更大的片上存儲,並支持多處理器芯片間直接高速互連,避免了高昂的內存訪問開銷。在28nm 工藝下,DaDianNao的主頻為606MHz,面積67.7 mm2,功耗約16W。單芯片性能超過了主流GPU的21倍,而能耗僅為主流GPU的1/330。64芯片組成的高效能計算系統較主流GPU的性能提升甚至可達450倍,但總能耗僅為1/150。

雖然神經網絡已成為模式識別等領域的主流算法,但用戶很多時候可能傾向於使用其他一些經典的機器學習算法。

例如程序化交易中經常使用線性回歸這類可解釋性好、複雜度低的算法。在此背景下,寒武紀3號多用途機器學習處理器PuDianNao應運而生,當前已可支持k-最近鄰、k-均值、樸素貝葉斯、線性回歸、支持向量機、決策樹、神經網絡等近十種代表性機器學習算法。PuDianNao的主頻為1GHz,峰值性能達每秒10560億次基本操作,面積3.51mm2,功耗為0.596W(65nm工藝下)。PuDianNao運行上述機器學習算法時的平均性能與主流GPGPU相當,但面積和功耗僅為主流GPGPU百分之一量級。
科技黑天鵝:蘋果會集成NPU,類似寒武紀處理器將迎來人工智慧的大暴發嗎?
深度學習進入芯片領域,揭秘寒武紀神經網絡處理器

(PuDianNao版圖)
神經網絡處理器的市場前景

在上世紀80年代,因人工智能無法達到公眾/投資人的預期,導致整個行業陷入低谷。

近年來,隨著算法、應用和工藝三個方面都發生了劇烈的變化,神經網絡處理器涅磐重生。

深度學習進入芯片領域,揭秘寒武紀神經網絡處理器
科技黑天鵝:蘋果會集成NPU,類似寒武紀處理器將迎來人工智慧的大暴發嗎?
2006年, Hinton、LeCun和Bengio等人提出了深度學習方法,在深層人工神經網絡的訓練上取得了巨大的突破。

簡單地說,深度學習方法在傳統的人工神經網絡訓練中增加了一個預訓練階段,即用無監督學習對每一層網絡進行一次專門的訓練,然後才用有監督學習對整個網絡進行總體訓練。通過深度學習方法,人工神經網絡的效果一舉趕上甚至顯著超過了支持向量機等其他機器學習方法,在IBM、谷歌、微軟、科大訊飛、百度等公司很多工業級圖像和語音處理應用上取得了非常好的效果。

為什麼深度學習會有效,暫時還沒有傳統的統計學習理論方面的完美證明。目前一種比較直觀的的解釋是:分層預訓練相當於對輸入數據進行逐級抽象,這暗合生物大腦的認知過程比較(例如人腦就是一種深層的神經網絡,在認知過程中會逐層將看到的原始圖像或聽到的原始聲波最終抽象成語義符號)。

既然人工神經網絡已經重新成為最有效的認知任務處理算法(至少是之一),只要人工智能健康發展,專門的神經網絡處理器自然能隨著產業發展而茁壯成長。

另外,隨著日常生活顯然需要進行大量的認知活動,自然而然地,計算機體系結構研究者的目光必須要從傳統的科學計算轉到認知任務上。事實上,很多大公司已經認識到這一點。Intel和IBM等傳統的硬件廠商都已經成立了專門的部門進行認知任務處理的研究。而現在體系結構研究中最常見的測試集Parsec中近半數都是認知類的應用(如bodytrack、facesim、freqmine、streamcluster、vips等)。在認知任務已經成了當前計算機最主要的任務之一的情況下,用戶和市場自然會有加速人工神經網絡的需求。
科技黑天鵝:蘋果會集成NPU,類似寒武紀處理器將迎來人工智慧的大暴發嗎?
深度學習進入芯片領域,揭秘寒武紀神經網絡處理器

因此,筆者認為只要不發生社會和媒體過分炒作人工智能,最終導致整個行業陷入低谷的情況正如80年代已經發生過的情況,寒武紀的市場前景是非常值得期待的——寒武紀處理器失敗的風險就是社會和媒體過分炒作人工智能,如果最後人工智能的發展速度達不到公眾(投資人)預期(這必然會發生,例如現在很多媒體,甚至谷歌自己都發話天網就要造出來),那麼整個領域都會陷入大低谷,覆巢之下焉有完卵。

至於將來寒武紀產業化成果幾何,還請由時間去檢驗。
看來又是領科研經費的龍芯2.0
(我的意思不是說它是龍芯,而是說它只是騙經費的科研計畫"翻版",
就像昨天很紅的興航突然漲停,大家會說它是樂陞2.0)

把MIT Eyeriss、google TPU、IBM Truenorth放哪去了?

abc003 wrote:
黑科技:寒武紀處理器...(恕刪)

---------------------------------------------------------------------------
神威·太湖之光也說是中國自主設計製造啊!
用中國江南計算所所開發的處理器SW26010,
基於"DEC Alpha 64"微架構、64位元、精簡指令集、亂序執行、支援SIMD
用基於"Linux"核心的神威睿思(即RaiseOS 2.0.5),
科技本身是一個前人智慧積累的過程,
種種條件滿足,時候到了才會跳躍到下一世代,
不是瓦肯星人傳授宇航科技給地球人這麼簡單好嗎?

舉例來說沒有石墨烯,哪來未來可能量產的超級電容?這中間還有更多別人的努力耶!
----------------------------------------------------------------------------
hercules6681 wrote:
看來又是領科研經費的龍芯2.0
把MIT Eyeriss、google TPU、IBM Truenorth放哪去了?


這不是一顆CPU 籠芯是CPU

這也不是GPU

也不並是一顆DSP

你說的問題和我討論的一點都不相關

我年初好像有看到頻果和高通打算集成神經元處理器NPU到手機SoC裡去的消息
個人不才認為

人工智慧現階段也只是個泡沫

要達到autonomous的境界, 要等量子電腦

用現階段的超級電腦, 專屬的人工智慧晶片/CPU, 分散式叢集運算

也只能達到服務等級的智慧型助理

軟體設計面也必須要有重大的突破

當然, 目前的人工智慧, 對自動化, 資料分析... 等等

還是有相當的助益
abc003 wrote:
黑科技:寒武紀處理器...(恕刪)

想太多
那家不是擠牙膏似地推出新技術?
Howdy Mate wrote:
個人不才認為
人工智慧現階段也只是個泡沫
要達到autonomous的境界, 要等量子電腦
用現階段的超級電腦, 專屬的人工智慧晶片/CPU, 分散式叢集運算
也只能達到服務等級的智慧型助理
軟體設計面也必須要有重大的突破
當然, 目前的人工智慧, 對自動化, 資料分析... 等等
還是有相當的助益


我個人判斷這是IT科技黑天鵝 ,提高3個數量級的每瓦特效能會導致量變引起質變

沒有任何理工背景或學過任何計算機技術的一般人很難判斷

什麼東西才是科技黑天鵝,就好比跟19世紀末的人說汽車會被發明出來

19世紀末的人會笑你:「你需要的是一匹馬,而不是什麼鬼"汽車"」

科學家/工程師炒作汽車會被發明出來,對19世紀末的人來講只是一個泡沫而以,

因為18世紀從前的人也發明過瓦特蒸氣機驅動的汽車

結果效率超低,汽車的題材只是炒作概念而以

那些技術文盲和一般大眾卻不知道19世紀末期內燃機技術已經成熟了

使的結構更小的汽車成為可能


如果賈伯斯在1996年推出IPhone他注定要失敗,

1999年微軟和NOKIA也推出過智能手機結果是泡沫化失敗收場

因為當時的每瓦特效能、觸控螢幕、3G移動網路通訊等技術都不成熟

到了2007年一般大眾看到第一代IPhone殊不知 一場革命將要到來

他們以為這就是類似1999年的智慧型手機

一般人以注定要失敗的態度面對IPhone,

結果卻迎來一場革命





黑天鵝效應的典故:
在18世紀歐洲人發現澳洲之前,由於他們所見過的天鵝都是白色的,所以在當時歐洲人眼中,天鵝只有白色的品種。直到歐洲人發現了澳洲,看到當地的黑天鵝後,人們認識天鵝的視野才打開,只需一個黑天鵝的觀察結果就能使從無數次對白天鵝的觀察中推理出的一般結論失效,引起了人們對認知的反思-以往認為對的不等於以後總是對的。

他的意義就是以過去的經驗形成的經驗層面的知識來推測未來有可會犯錯,如果以邏輯推測就可以預見一些被認為不可能的事情注定要發生,能夠看得更遠一些


abc003 wrote:
我個人判斷這是IT...(恕刪)


我的專業不在硬體

但是IT產業圈內人

演算法用過幾個, 類神經網路也知道概念

這是不是黑天鵝, 我不知道

我只知道人工智慧要Autonomous還有一段很長的距離

要像電影裡, 天網能有自覺能力, 能自我編程...

那更需要硬體及軟體面的突破

我的重點僅此而已
Howdy Mate wrote:
我的專業不在硬體
但是IT產業圈內人
演算法用過幾個, 類神經網路也知道概念
這是不是黑天鵝, 我不知道
我只知道人工智慧要Autonomous還有一段很長的距離
要像電影裡, 天網能有自覺能力, 能自我編程...
那更需要硬體及軟體面的突破
我的重點僅此而已


人工智慧有分成強人工智慧和弱人工智慧,這不是強人工智慧,其實根本不需要

強人工智慧:是指電腦和人有完全一樣的學習和獨立思考,綜合邏輯判斷和理解複雜世界的能力、抽象思考能力,通用型的AI這方面在半個世紀時間以內電腦沒辦法完全贏過人腦。

弱人工智慧:弱人工智慧在生活中的應用已經無所不在,從關鍵字識別語音辨識技術,手寫輸入法用的機器學習,到Google翻譯,自動駕駛,深度學習等等等............

但是根本不需要有強人工智慧,NPU處理器他只需要將自動駕駛無人車一樣的弱人工智慧就行了

弱人工智慧一點都不弱,從IBM的沃森和無人駕駛汽車、工業用的機器人,自動化設備、語音識別、模式識別、圖像識別,機器翻譯等等都是弱人工智慧

這就是硬體層面的大突破,因為讓每瓦特效能提高3個數量級

馮依諾曼架構通用計算機CPU去跑深度學習演算法是低效率的

也就是計算複雜度理論裡所說的 非多項式時間

GPGPU也沒有效率只不過提高了10倍左右的效率

深度學習演算法+非監督氏學習的算法配合就可以達到"自主學習"

非監督式學習是一種機器學習的方式,並不需要人力來輸入標籤

而監督氏學習除了要找一堆資料給機器學習,還要找人盯著和調試給機器訓練





abc003 wrote:
人工智慧有分成強人...(恕刪)


這種東西都是大公司關起門來圈內玩的

說穿了也是用硬體來加強軟體+雲端大數據的分析

接下來這幾年, 如您所說的"弱人工智慧"的確是會大爆發 (也已經爆發一段時間了)

但也如同我說的, 這只是一個泡沫, 終究會遇到瓶頸

直到軟硬體層面有革命性的變化... 這依我不才之見... 還沒到達革命性等級

至於什麼是革命性?

譬如此例, 如果真的能達到學術界量子電腦的定義!
Howdy Mate wrote:
這種東西都是大公司關起門來圈內玩的
說穿了也是用硬體來加強軟體+雲端大數據的分析
接下來這幾年, 如您所說的"弱人工智慧"的確是會大爆發 (也已經爆發一段時間了)
但也如同我說的, 這只是一個泡沫, 終究會遇到瓶頸
直到軟硬體層面有革命性的變化... 這依我不才之見... 還沒到達革命性等級
至於什麼是革命性?
譬如此例, 如果真的能達到學術界量子電腦的定義!



1.

您之前看到的那些都是炒作,都是廣告,都是炒股和圈錢,都是有目的的龐氏騙局

那些都是IT記者沒眼光又沒沒背景知識亂寫的

但是我以技術和工程的眼光來看他,同時又以商業和成本的角度去看他

這個不是那種特斯拉電動車伊籠馬斯克式的那種炒作

電池能量密度和成本沒下降 搞什麼電動車 馬斯克根本在吹牛


2. 量子電腦需要材料科技的突破這個不需要,

量子電腦跑秀爾演算法在執行非多項式時間的算法比古典電腦有效率

不代表量子電腦跑任何東西都有效率用他來執行一般軟體 他會比古典電腦更慢

因為一般軟體已經優化成多項式時間能夠處理完成了

例如你用量子電腦來算圓周率或是做加法他會比古典電腦更慢
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!