科技黑天鵝:蘋果會集成NPU,類似寒武紀處理器將迎來人工智慧的大暴發嗎?


abc003 wrote:
1.您之前看到的那...(恕刪)


認同1

2的部份, 還沒有一台真正的量子電腦出來之前

我持保留的態度
Howdy Mate wrote:
認同12的部份, ...(恕刪)


NPU處理器從語音識別,到圖像識別 在到自動駕駛 在到工業機器人的深度學習 他的用途是非常廣泛的

這產品2017年底要上市

一開始只會用在特殊應用 例如工業用途 或是自動車 雲端大數據伺服器 語音識別等等

他是他的普及將會很快

因為他的成本太低了

他會很快就普及道每個家庭 我跟你打賭 這東西5年內就會引起革命

65奈米製程 都能提高百倍效率了

寒武紀處理器的公司發表了NPU處理器的神經網絡指令集

如果不快馬加鞭等他們成業界標準一切都晚了 哈哈

他會成為新時代的英特爾壟斷X86那樣 除非有人即早覺醒
有人這樣回我


※ 引述《digong94 (垂暮龍-青月)》之銘言
> 幾條管線做解碼派發工作到多個模組.....
> 多條造成了很多消耗.......大量的亂序需要儲存不少指令
> 也花費了資源做了二級分支預測......


他不是一顆通用處理器,因此不需要像CPU一樣有亂序執行架構OoO

他也不是DSP也不用把流水線或指令搞的超長

他是NPU,實現的原理和CPU本質上有所不同

通過減少記憶體資料MU單元和ALU單元之間的搬運次數提高效能,增加吞吐量

1條指令就能完成1個神經元的運算

人腦的神經元本質上是2合1的 ,

在生物上人腦細胞的記憶力和神經元突觸受到刺激而反饋給其他神經元是二合一的

人腦沒有區分記憶單元MU 和ALU和CU

abc003 wrote:
您之前看到的那些都是炒作,都是廣告,都是炒股和圈錢,都是有目的的龐氏騙局
那些都是IT記者沒眼光又沒沒背景知識亂寫的
但是我以技術和工程的眼光來看他,同時又以商業和成本的角度去看他
這個不是那種特斯拉電動車伊籠馬斯克式的那種炒作
電池能量密度和成本沒下降 搞什麼電動車 馬斯克根本在吹牛


如果照你的這個評斷標準來看的話,可以發現這個DianNaoYu指令集還蠻符合你這個標準的... XD

用相關的幾個關鍵字去Google的話,網路上的文章就集中在中國各網站到處剪貼的相同內容(就是你貼進來的這個),真正的細節很少,比馬斯克的吹牛還厲害,連牛皮都看不到。

實際上這個架構,他最大的問題是,他所謂的「快」,「省電」,是因為這是個特製化的電路,專門針對深度學習用的,之前的幾個版本是針對CNN模型,非CNN模型的其他計算能不能達到這樣的目標則是「問號」,最新的設計可以支援連CNN在內的七種演算法,但是,前提還是在整個計算模型必須能夠預先載入該輔助處理器的SRAM中(這又是一個問題),也就是說,要能達到他的特色,必須滿足針對深入學習的演算法,他的資料必須剛好能塞入處理器內部的SRAM中,還要有compiler的支援,這些就大大限制他在一般消費應用設備上被採用的可能性了。

這其實比較類似早期的加密處理器的下場,當初這些加密處理器將一些加解密常用的演算法用硬體設計,可以大大減輕相關應用的CPU負擔,後來.....

shimingc wrote:
如果照你的這個評斷...(恕刪)


他不是通用處理器所以要CPU配合

處理圖形有專用的GPU 處理影像解碼 音頻等有DSP

要跑神經網路算法也會有專門的NPU 他不是用來幹CPU的事情的
abc003 wrote:
他不是通用處理器所以...(恕刪)


就是因為不是通用處理器,所以不可能被採用啊。

聲音,影像在終端設備上都有他不可或缺的必要性,但是深入學習的電路在消費應用上就不是這樣了,這個處理器在終端應用上是有限的,他需要用在特製的應用上(例如AlphaGo,所有的深入學習運算跟資料大小都要配合這個針對這個針對特定演算法最佳化的處理器量身設計)。在終端設備上增加這個電路的成本與他在消費端設備上能夠幫助的應用差太多,這也是為什麼Google幾乎就是同一篇文章的到處複製版而已,因為他的應用對終端應用的幫助很有限,針對深入學習的計算瓶頸是有改善,但又不是那麼完美,很難吹牛皮,只能說這個研究方法(那兩位兄弟的論文)有他的獨到之處,但還不是達到目的的最終方法。
shimingc wrote:
就是因為不是通用處理器,所以不可能被採用啊。
聲音,影像在終端設備上都有他不可或缺的必要性,但是深入學習的電路在消費應用上就不是這樣了,這個處理器在終端應用上是有限的,他需要用在特製的應用上(例如AlphaGo,所有的深入學習運算跟資料大小都要配合這個針對這個針對特定演算法最佳化的處理器量身設計)。在終端設備上增加這個電路的成本與他在消費端設備上能夠幫助的應用差太多,這也是為什麼Google幾乎就是同一篇文章的到處複製版而已,因為他的應用對終端應用的幫助很有限,針對深入學習的計算瓶頸是有改善,但又不是那麼完美,很難吹牛皮,只能說這個研究方法(那兩位兄弟的論文)有他的獨到之處,但還不是達到目的的最終方法。


1.他的第一代NPU處理器 Die Size大小只有3平方毫米、功耗500mW、只需要65nm量產的

就是低成本和低功耗的很適合手機SOC 動輒100多平方毫米的手機SOC不可能集成不起 他成本不會比DSP高多少

2.手機上的語音指令識別,人臉辨識自動追蹤拍照,還有常用的輸入法等等都可以使用NPU提高效能和功能,還有未來可能開發出的模式識別類的APP,例如讓手機學會認識主人人臉,以及自然語言的處理比SIRI高很多等級的自然語言本機上處理,不必透過網路

3.無人機、無人車 VR AR、工業機器人等設備也可能會用到



shimingc wrote:
1.他的第一代NPU處理器 Die Size大小只有3平方毫米、功耗70mW、只需要65nm量產的

就是低成本和低功耗的很適合手機SOC 動輒100多平方毫米的手機SOC不可能集成不起 他成本不會比DSP高多少

2.手機上的語音指令識別,人臉辨識自動追蹤拍照,還有常用的輸入法等等都可以使用NPU提高效能和功能,還有未來可能開發出的模式識別類的APP,例如讓手機學會認識主人人臉,以及自然語言的處理比SIRI高很多等級的自然語言本機上處理,不必透過網路

3.無人機、無人車 VR AR、工業機器人等設備也會用到


就麻煩你不要一直剪貼那個Google下去好幾頁都是一模一樣的宣傳文章內容,這樣的文章閱讀必須打很多折。

1. 現代的手機處理效能早就超過一般應用所需了,這個東西不會幫助自然語言直接在本機處理,會透過網路傳到主機處理是因為電腦處理自然語言,不是只有演算法計算快不快的問題(因為電腦並不真的理解自然語言)。

2. 中國這個架構第一代小的原因是因為只能夠提供深度學習常用的演算法的其中一種,且要能達到宣稱的高速,計算資料必須控制在處理器內建的SRAM大小,也就是說測試的環境不只是理想而已,這樣的架構除非是為專一應用特別設計的軟硬體(如AlphaGo),否則在一般應用下,是不是能這麼完美,或是軟體要做多少修改,調整取樣才能讓速度比直接使用泛用處理器提升,都還是問號,所以我才會說要談消費端的應用還太早,先在實驗室跟專門設備上練過以後再說。
如果是apple要弄的話,這困難等級成級數下降了!
apple有自己的程式語言,如果開發者在撰寫時,直接調用內建函數去使用NPU,也不是辦不到!
再者,如果真如上述文章所講,成本如此之低,在設計晶片時一併實作,也不是不可能!
只是現階段還沒有一個業界共同標準出來,普及化的機率不高!

y20070122 wrote:
如果是apple要弄的話,這困難等級成級數下降了!
apple有自己的程式語言,如果開發者在撰寫時,直接調用內建函數去使用NPU,也不是辦不到!
再者,如果真如上述文章所講,成本如此之低,在設計晶片時一併實作,也不是不可能!
只是現階段還沒有一個業界共同標準出來,普及化的機率不高!


同意,這種東西必須要有足夠影響力的廠商導入,才會有成功的機會。

像是Intel會在未來的處理器指令集上新增相關的指令集(約是目前的矩陣計算指令AVX-512的八倍快),加上Intel原本就有machine learning的軟體開發套件,這樣對軟體設計人員就有吸引力,而像是中國的這個,除了研究論文,其他實作上的資料幾乎沒有,也就是說,沒有開發套件的資訊,沒有真實世界的實作案例(就算是測試平台也好),想要在幾年內快速普及,只能說唬爛居多。

像是GPGPU的推廣,早在2000年代早期就有人在研究了,可是一直要等到2008(?)左右Nvidia的CUDA相關的開發套件出現,才慢慢的被重視,然後又過了大概四五年才真的能算成功,一個沒有重量級廠商合作的規格,想要成為業界標準,很難。
關閉廣告
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!