幫大家科普什麼是知識蒸餾

DeepSeek 是否構成抄襲,還要考慮到「比例原則」。究竟有多少成果是靠蒸餾而來,又有多少是原創?

如果連一丁點蒸餾的成果都不容許,那麼所有開發中的大數據模型可能都踩到雷。

甚至 OpenAI 自己或許都使用了別人研發的成果,違反了別人的引用條款而不自知。
不就歸納跟整理的另一種說法
Sinfield wrote:

你不要label data
問題是你用別人的Teacher AI要呀~

就像抄作業不用自己努力翻書找資料
但是第一版要呀~

這個社會是20/80法則
講拿麼多還是有人聽不懂

韭菜才容易割⋯



看不懂
是覺得我認為DS之後no labeled data 算力需求下降?
不 我認為算力需求是持續上升

在internet data as given後 注意力是在synthetic data: Pure RL training是新的技法 。 大廠在labeled data領先的優勢會因Pure RL training減少
但RL非常吃算力. 這是其一
不是要幫DS說話 只是拿看到的講 training without labeled data 若是真 是個大突破 過一陣子就會知道真假



看這個給鄉民一點感覺 -- 算力的需求
從那些地上爬的傻蛋 沒人指示該怎麼做 就是大量的 try and error
直到最後終點 都是RL算力需求
簡單的說 就是要大力出奇蹟
https://www.youtube.com/watch?v=pJPdW8WWAso
)


其二是:
如蒸汽機的發明帶來的工業革命
大型LLM就競爭會繼續下去 但便宜的LLM/AI(蒸汽機) 就會有更多AI(蒸汽機)應用
AI所引發更廣泛的產業革命 才是歷史上的時代改變
LLM/AI成本門檻越低 能入場的人會越多 可預見的到處都是算力需求
smallbeetw wrote:
繼AMD 和微軟 Azure AI 後,皮衣黃也站隊了…


不知道跟站隊有什麼關係?

Deepseek model is free to use.

License 在這:
https://huggingface.co/deepseek-ai/DeepSeek-R1
This is because the MIT License allows for both commercial and non-commercial use.

但也不用讀 先upload給AI 再問



中文也行



要是DS真有問題 下架就好了
MIT license 是不負產品責任
Sinfield wrote:
最後總結下對 Nvidia 的影響:
- 短期內:DeepSeek 等高效模型的出現非但不會削弱 GPU 需求,反而加劇爭搶,Nvidia 的 H100/H200 價格和市場需求高企;
- 中長期:前沿模型升級與新一輪「能力競賽」將繼續擴大整體算力需求,Jevons 悖論帶動 GPU 採購量不降反升,維繫甚至增進 Nvidia 在 AI 訓練/推理硬件領域的盈利地位;
- 只要有足夠的前沿芯片投入市場,在短期內很難被其它產品或自研 ASIC、國內 GPU 芯片替代,Nvidia 將保持對 AI 訓練/推理硬件市場的統治地位;


我也是相信算力需求只會變大
短期內還是NVDA得利

但中長期要看nvda的護城河
前陣子Eric Smith在Stanford 就有提到投資某公司要bypass CUDA (LLVM)


Magnificent 7 minus 1 都在想怎麼突破 nvda software stack

根據DS V3 paper DS做了一個bypass CUDA成功的例子
直接在PTX做優化



M7 minus 1 / AMD / researcher 一定會有人試 過幾個禮拜應該就會有更多消息
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead




nvda 還有一個moat 比較少人談 nvlink

https://www.mobile01.com/topicdetail.php?f=291&t=6512441&p=134#87793052
Sinfield wrote:
smallb...(恕刪)


把媒體/華爾街/鄉民的看法
反著看就行~

又不是豬
人家餵什麼就吃~
Sinfield wrote:
但是人家不會說只花30美元就開發出一個AI軟體,而且也是開源~


你的解釋超奇怪的。
人家是複製了deepseek整個運作流程得出的結論。

就好比說頂鮮台北101賣上萬元的餐點不知在貴什麼,可以拿自已去果菜市場一樣畫葫蘆來說嘴嗎?


幫不了你了





看看人家如何解釋↑


再看看底下按讚最多排序的留言











感謝Deepseek

讓AI民主化,



CloseAI這種技術封建主義、資本主義滾一邊去



Mavs41Forever wrote:
smallb...(恕刪)


這邊的鄉民沒有自己判斷的能力
只會貼YT而無法分析內容
多說無益~

技術討論而不是在比作文貼別人怎麼說⋯
網路上也是20/80原則
大多數的鄉民言論可以直接無視~

有一個YT帖鄉民甚至說矽光子研發後不關GPU什麼事~

矽光子只是一個IO 介面關GPU什麼事⋯

——-

AI的進步很快

DS 不管是純用V3(或參考Open AI)再post training 得到R1好了

未來不管是中國的阿里, 還是Open AI推出新的產品輾壓 DS的R1

那DS要再推出競品,R2好了, pretraining還是要自己來, 不管是推出V4還是再想辦法蒸餾Open AI, 得到R2的總費用與算力,也沒有打破scaling law~

現在大家都知道R1的費用只是蒸餾費用
下次推出R2應該不會再宣稱花費很少的費用~

騙一次可以,再這樣說就當大家是白痴⋯⋯

Sinfield wrote:
但是還是蒸餾法呀~



文章分享
評分
評分
複製連結
請輸入您要前往的頁數(1 ~ 10)

今日熱門文章 網友點擊推薦!