幫大家科普什麼是知識蒸餾

感覺就是用別人的來學習
知識蒸餾就是一個唬弄人的名詞

我們從小到大從課本上學習知識 就是知識蒸餾

只是沒人這麼講而已


對美國而言 它就是不想有另一國追上來

就算沒偷用 它也會誣賴你偷用

它就是要打擊你 欲加之罪 何患無辭
pcian wrote:
知識蒸餾就是一個唬弄...(恕刪)


愛因斯坦的知識是從書本上學來的嗎?
剛好就說明了差異性
pcian
是啊 他學習了 然後加上自己的見解 最後成為一代大神 難道他從出生起都是文盲 忽然26歲聽到神諭 寫下相對論?
謝謝,感覺有學到一些AI的原理。

一般訓練出來的模型佔多少記憶體?可以用幾次嗎?資料輸入模型就得到唯一的答案嗎?

Ok1988 wrote:
那Student 需要拿到原始Teacher模型模型嗎?
其實不用
只要不斷問Teacher模型得到答案
去“喂”Student模型就可以了

優點是資源可以大幅減少
缺點是可能如果遇到冷門的問題
就答不出來了
因為Teacher模型很多你
認為不需要的節點
說不定其實是有用的
只是還沒用到而已..(恕刪)
今天要學到一個單字了,謝謝分享,原來有這麼簡單的方式
很可能是全新的方法
(要發展就要有站在技術最前沿的)
人腦也是靠推理
不可能有什麼是完全知識的

他們的資產管理公司
看新聞
規模曾經達到1千億人民幣

想從金融市場賺錢
新創
然後用AI做(現在談的是AGI)
規模到這麼大的很少

AGI要從語言模型開始
日後的運用
在不同的場景
應該都是可以很精簡的
Ok1988 wrote:
愛因斯坦的知識是從書本上學來的嗎?


是啊

他學習了 然後加上自己的見解 最後成為一代大神

難道他從出生起都是文盲 忽然26歲聽到神諭 寫下相對論?
syntech
他光電效應的"一份一份"光量子假說,正好就是受到其他領域的啟發,不是他某天起床被雷打到想出來的
該怎麼說呢 ds 大概有幾個方向的問題 一是 data source 這個怪美國怎樣的 垃圾話就不用說了 再商言商 open 被告 告輸就是賠錢 你 ds 被告 難道要跟抖音一樣賣掉嗎?
第二點是 模型的架構 我認為 能在訓練上高出一個數量級 必定伴隨著模型架構的變化 等 不過 我沒看到 ? 還是沒有說到?
最後是 ? 有大神用他的方法論去 實際產出一個收斂的模型嗎? 我還是沒看到... 拿他已經train 好的model 去跑測試 不算他的模型有效
larrybrid wrote:
不需要懂專業用語,看圖最直接,目前解讀如圖



太好笑了



Yter忘了說人家deepseek是開源且免費的。取之公眾,用之於公眾,讓AI加速、普級到方方面面不是更好


這也太巧了,也是七
這些也是壯麗的七隻(股票)。我想是比爾·蓋茨和山姆·奧特曼說的。



“A thief who steals from another thief is pardoned for one hundred years”
- Calvera in The Magnificent Seven (1960).


《豪勇七蛟龍》電影金句
hahahrhr
開源都是有但書的, 跟大部分開源的AI一樣
爬山的阿光
他們的開源經過MIT認證。OK的
1. deepseek 模型有公開發表論文,又opensoucre, 幾位美國ceo(微軟,Meta, openAI) 也發表肯定的談話,所以真實性就不用懷疑。
2. deepseek 對整個ai 的爆發,可能是一個非常大的助力。
3. deepseek 的模型,美國大廠也可以拿來參考,運用現在的能力,打造一個相同方式的模型來訓練,加上歐美大廠的硬體規格好太多,所以長遠看,對歐美大廠的殺傷力,不致於太致命,當然多了一個強力競爭力,危機意識會轉強。
4. 我覺得受傷比較大的,反而是中國其他模型廠商,中國市場突然來了一個性能強,收費低廉的黑馬,市佔跟價格會掉下來。
5.蒸餾模型可大可小,可依照硬體的規格跟應用需求去蒸餾一個合適的模型,所以ai 的應用,會出現大大小小不同能力的 ai 伺服器,這對ai 的爆發式開枝散葉,帶來催化的效果。

deepseek 真人真事,不用懷疑,不用陰謀化。 deepseek 應該是利多,不是利空。
爬山的阿光
我也是這樣認為。這樣AI之路才能走的長長久久,要不然動輒上千億美元才能玩又要處處蓋電廠,總有一天會玩完
文章分享
評分
評分
複製連結
請輸入您要前往的頁數(1 ~ 10)

今日熱門文章 網友點擊推薦!