Sinfield wrote:
你不要label data
問題是你用別人的Teacher AI要呀~
就像抄作業不用自己努力翻書找資料
但是第一版要呀~
這個社會是20/80法則
講拿麼多還是有人聽不懂
韭菜才容易割⋯
看不懂
是覺得我認為DS之後no labeled data 算力需求下降?
不 我認為算力需求是持續上升
在internet data as given後 注意力是在synthetic data: Pure RL training是新的技法 。 大廠在labeled data領先的優勢會因Pure RL training減少
但RL非常吃算力. 這是其一
不是要幫DS說話 只是拿看到的講 training without labeled data 若是真 是個大突破 過一陣子就會知道真假

(
看這個給鄉民一點感覺 -- 算力的需求
從那些地上爬的傻蛋 沒人指示該怎麼做 就是大量的 try and error
直到最後終點 都是RL算力需求
簡單的說 就是要大力出奇蹟
https://www.youtube.com/watch?v=pJPdW8WWAso
)
其二是:
如蒸汽機的發明帶來的工業革命
大型LLM就競爭會繼續下去 但便宜的LLM/AI(蒸汽機) 就會有更多AI(蒸汽機)應用
AI所引發更廣泛的產業革命 才是歷史上的時代改變
LLM/AI成本門檻越低 能入場的人會越多 可預見的到處都是算力需求
Sinfield wrote:
最後總結下對 Nvidia 的影響:
- 短期內:DeepSeek 等高效模型的出現非但不會削弱 GPU 需求,反而加劇爭搶,Nvidia 的 H100/H200 價格和市場需求高企;
- 中長期:前沿模型升級與新一輪「能力競賽」將繼續擴大整體算力需求,Jevons 悖論帶動 GPU 採購量不降反升,維繫甚至增進 Nvidia 在 AI 訓練/推理硬件領域的盈利地位;
- 只要有足夠的前沿芯片投入市場,在短期內很難被其它產品或自研 ASIC、國內 GPU 芯片替代,Nvidia 將保持對 AI 訓練/推理硬件市場的統治地位;
我也是相信算力需求只會變大
短期內還是NVDA得利
但中長期要看nvda的護城河
前陣子Eric Smith在Stanford 就有提到投資某公司要bypass CUDA (LLVM)
Magnificent 7 minus 1 都在想怎麼突破 nvda software stack
根據DS V3 paper DS做了一個bypass CUDA成功的例子
直接在PTX做優化

M7 minus 1 / AMD / researcher 一定會有人試 過幾個禮拜應該就會有更多消息
https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseeks-ai-breakthrough-bypasses-industry-standard-cuda-uses-assembly-like-ptx-programming-instead
nvda 還有一個moat 比較少人談 nvlink

https://www.mobile01.com/topicdetail.php?f=291&t=6512441&p=134#87793052
Mavs41Forever wrote:
smallb...(恕刪)
這邊的鄉民沒有自己判斷的能力
只會貼YT而無法分析內容
多說無益~
技術討論而不是在比作文貼別人怎麼說⋯

網路上也是20/80原則
大多數的鄉民言論可以直接無視~

有一個YT帖鄉民甚至說矽光子研發後不關GPU什麼事~
矽光子只是一個IO 介面關GPU什麼事⋯
——-
AI的進步很快
DS 不管是純用V3(或參考Open AI)再post training 得到R1好了
未來不管是中國的阿里, 還是Open AI推出新的產品輾壓 DS的R1
那DS要再推出競品,R2好了, pretraining還是要自己來, 不管是推出V4還是再想辦法蒸餾Open AI, 得到R2的總費用與算力,也沒有打破scaling law~
現在大家都知道R1的費用只是蒸餾費用
下次推出R2應該不會再宣稱花費很少的費用~
騙一次可以,再這樣說就當大家是白痴⋯⋯

還




































































































